تحقیق مقاله روش های آماری

تعداد صفحات: 46 فرمت فایل: word کد فایل: 11456
سال: مشخص نشده مقطع: مشخص نشده دسته بندی: آمار

قیمت قدیم:۱۹,۵۰۰ تومان

قیمت: ۱۴,۰۰۰ تومان

دانلود مقاله

کلمات کلیدی: آمار - آنالیز واریانس - استنتاج - استنتاج آماری - پارامتر های آماری - داده کاوی - روش های آماری

خلاصه
فهرست و منابع

خلاصه تحقیق مقاله روش های آماری

فصل اول: روش های آماری

اهداف این فصل

توضیح روش های استنتاج آماری که معمولاً در داده کاوی استفاده می شود.

تشخیص پارامتر های آماری مختلف به منظور تقریب سازی اختلاف موجود در داده ها.

توصیف مولفه ها و اصول اساسی ممیز کننده های Navia Bayesian و روش رگرسیون Logistic.

معرفی مدل های log خطی با استفاده از تحلیل متناظر جداول توافقی.

بحث و بررسی در مورد مفاهیم آنالیز واریانس (Anova) و تحلیل ممیزی خطی نمونه های چند بعدی.

آمار علم جمع آوری و سازماندهی داده ها و استخراج نتایج از این مجموعه های داده ها است. سازماندهی و توصیف مشخصات عمومی مجموعه داده ها از اهداف آمار توصیفی و چگونگی استخراج نتایج از داده ها، از اهداف استنتاج آماری است. در این فصل، تاکید روی اصول اساسی استنتاج آماری است و عناوین مرتبط دیگر به طور خلاصه و فقط برای درک مفاهیم اساسی توضیح داده خواهد شد.

دامنه این تحلیل ها از تحلیل داده های یک بعدی تا تحلیل داده های چند متغیره تشکیل شده است. علم آمار روش های مختلفی را برای داده کاوی پیشنهاد می کند که شامل انواع مختلف رگرسیون و تحلیل ممیزی مبین می باشد. ایم بازبینی کوتاه از روش های آماری که فرآیند داده کاوی را پیشنهاد می کند همه روش ها را پوشش نخواهد داد و تکنیک هایی که بیشتر در داده کاوی جهان واقعی استفاده می شود بیان شده است.

1. استنتاج آماری

تمام مشاهداتی که در تحلیل آماری مورد استفاده قرار می گیرند، اعم از این که تعداد این مشاهدات متناهی یا غیر متناهی باشند تشکیل دهنده چیزی هستند که ما آن را جامعه می نامیم. این اصطلاح به گروهی از افراد اشیا یا رویدادها اطلاق می شود. تعداد مشاهدات در جامعه به عنوان اندازه جامعه تعریف می شود. عموما جامعه ممکن است متناهی یا نا متناهی باشد، اما در تئوری، جامعه متناهی خیلی بزرگ را نامتناهی فرض می کنیم.

در استنتاج آماری علاقه مندیم هنگامی که مشاهده کلی مشاهدات جامعه غیر ممکن یا غیر عملی است، به نتایجی در مورد جامعه برسیم. به عنوان مثال هنگام مبادرت به تعیین میانگین طول عمر لامپ های روشنایی مارک خاصی، تست همه لامپ ها غیر عملی خواهد بود. بنابراین ما باید به زیر مجموعه مشاهدات جامعه برای تحلیل آماری بسنده کنیم. در آمار مجموعه ای از یک جامعه نمونه نامیده می شود و این بردارهای n بعدی را از مجموعه داده های متناهی توصیف می کند. در سراسر این کتاب ما این زیر مجموعه از جامعه را مجموعه داده ها می نامیم. ما از جامعه یک مدل آماری می سازیم که به ما در تعمیم استنتاج به جامعه مشابه این جامعه کمک می کند و برای این که برداشت ما از مجموعه داده ها درست باشد باید نمونه ای انتخاب کنیم که نماینده جامعه باشند. چنانچه سعی به انتخاب مجموعه ای با مناسب ترین اعضای جامعه را داشته باشیم، از آنجایی که یک شیوه ممکن است منجر به استنتاج نادرست و تعمیم آن به جامعه شود و هر رویه ای که موجب زیاد برآورد کردن یا کم برآورد کردن بعضی مشخصات جامعه شود گفته می شود که به یک طرف متمایل شده است، برای رفع هر گونه انحرافی در روال یا فرآیند نمونه گیری مطلوب است که مجموعه داده ها به طور تصادفی و مستقل انتخاب گردد. هدف اصلی انتخاب نمونه های تصادفی استخراج اطلاعات درباره پارامترهای ناشناخته جامعه است.

ارتباط میان مجموعه داده ها و سیستم ممکن است توسط استدلال قیاسی توصیف شود: از داده های مشاهده شده به دانش یک سیستم ناشناخته (تا حدودی ناشناخته) استنتاج آماری صورت اصلی استدلال مربوط به تحلیل داده ها است. تئوری استنتاج آماری شامل روش هایی برای استنتاج یا تعمیم نتایج به جامعه است. این روش ها در دو دسته اصلی قرار میگیرند: برآورد و آزمون فرضیه ها.

در فرآیند برآورد می خواهیم از یک مقدار محتمل یا بازه ای از مقادیر محتمل به پارامترهای ناشناخته سیستم برسیم، هدف اصلی دستیابی به اطلاعات از مجموعه T برای برآورد یک یا چند پارامتر W که به مدلی از سیستم واقعی تعلق دارد می باشد. (X,w)f. یک مجموعه داده T به وسیله مقادیر n تایی برای متغیرهای x={x1,x2,…,xn} توصیف می شود (صفات موجودیت ها در جامعه):

این عبارت می تواند در یک جدول به عنوان مجموعه ای از نمونه ها با مقادیر متناظر برای هر مشخصه سازماندهی شود. هنگامی که پارامتر های مدل، تخمین زده شوند، می توانیم از آن ها برای پیشگویی در مورد متغیر تصادفی y از مجموعه اولیه صفات Y € X براساس دیگر متغیرها یا مجموعه ای از متغیرها X = X – Y استفاده کنیم اگر Y یک کمیت عددی باشد در مورد رگرسیون صحبت می کنیم و اگر مقادیری از یک مجموعه گسسته، نادرست باشد در مورد بسته بندی صحبت خواهیم نمود.

هرگاه تخمین هایی برای مدل پارامترهای w از مجموعه داده T به دست آوریم، ممکن است از مدل منتج شده برای پیشگویی در مورد Y استفاده کنیم. وقتی که مقدار متناظر بردار X را داریم. اختلاف میان پیشگویی (X,w)f و مقدار واقعی Y خطای پیشگویی نامیده می شود. این خطا باید ترجیحا مقادیر نزدیک به صفر به خود بگیرد. یک برآورد و سنجش کیفیت طبیعی از یک مدل (X,w)f به عنوان یک پیشگویی کننده Y میانگین مربع خطای قابل انتظار برای هر مجموعه داده T است.

آزمون های آماری قصد دارند تا فرض مربوط به مقدار مشخصه جامعه در یک تحلیل از مجموعه داده ها را قبول یا رد کنند. یک فرض آماری یک ادعا یا حدس مربوط به یک یا چند جامعه است. صحت و سقم یک فرض آماری هرگز با اطمینان مطلق قابل بررسی نیست مگر این که همه جامعه را امتحان کنیم که البته این در حداکثر مواقع غیر عملی است و گاهی اوقات حتی غیر ممکن است. در عوض ما فرض را روی مجموعه داده های انتخاب شده به طور تصادفی امتحان می کنیم. چنانچه مدارک به دست آمده از مجموعه داده متناقض با فرض اظهار شده باشد، آن فرض رد می شود و چنانچه تأیید کننده فرض باشند این موجب پذیرش آن فرض می شود، به طور دقیق تر باید گفت که داده ها مدارک کافی برای رد آن فرض را ندارد. ساختار آزمون فرض با استفاده از عبارت فرض تهی تنظیم می شود. این بدین معنی است فرضی که بخواهیم تست کنیم با H0 فقط در صورتی که فرض نادرست نباشد رد می شود. رد H0 منجر به پذیرش یک فرض دیگر در جامعه می شود.

در این فصل بعضی روش های تخمین آماری و آزمون فرض با جزئیات بیشتر توضیح داده می شوند. که این روش ها بر پایه تکنیک های کاربردی در فرآیند داده کاوی روی مجموعه داده بزرگ انتخاب شده اند.

2. تشخیص تفاوت ها در مجموعه داده

در تعداد زیادی از وظایف داده کاوی بررسی مشخصه های عمومی بیشتری در مورد مجموعه داده ها هم در مورد گرایش اصلی و هم در مورد پراکندگی آنها یک امر کاملاً مفید است. این پارامترهای ساده از مجموعه داده توصیف گرهای واضحی برای شناخت تفاوت های میان مجموعه های داده مختلف هستند. سنجش های موردی گرایش اصلی شامل میانگین، میانه و مد (نما) و مشخص کننده های پراکندگی شامل واریانس و انحراف معیار می باشد.

متداول ترین و موثرترین سنجش عددی برای مرکز مجموعه داده ها، مقدار میانگین آن است که میانگین حسابی نیز نامیده می شود. برای مجموعه با n مقدار عددی x1,x2,…,xn برای مشخصه معلوم X میانگین عبارت است از:

و این تابع پیش ساخته در ابزارهای نرم افزاری آماری جدید می باشد. برای هر ویژگی عددی در مجموعه نمونه n بعدی، محاسبه مقدار میانگین به عنوان خصیصه گرایش مرکزی برای این ویژگی امکان پذیر است. گاهی ممکن است به هر مقدار Xi در مجموعه وزن Wi اختصاص داده شود که میزان اهمیت یا فراوانی مقدار را منعکس می کند. در این حالت میانگین حسابی وزنی یا مقدار متوسط وزن ها عبارت است از:

اگر چه میانگین مفیدترین مقداری است که ما می توانیم برای مجموعه ای از داده ها در نظر بگیریم، ولی باید توجه داشت که این تنها مقدار ممکن نیست. برای مجموعه داده های نا متقارن، شاخص مرکزی بهتری به نام میانه وجود دارد. اگر تعداد عناصر مجموعه فرد باشد، مقدار میانه مجموعه مرتب شده از مقادیر ویژگی می باشد و در مجموعه با تعداد عناصر زوج برابر است با میانگین دو عدد وسط. اگر x1,x2,…,xn یک مجموعه با n عضو را نشان دهد، به ترتیب صعودی مرتب می گردند و سپس میانه عبارت است از:

سنجش دیگر گرایش مرکزی مجموعه داده ها مد می باشد. مد برای مجموعه ای از داده ها مقداری است که بالاترین فراوانی را در مجموعه داشته باشد. هنگامی که میانه و میانگین مشخصه های مجموعه داده های عددی باشند، مد می تواند بر روی داده های رده بندی نیز اعمال شود. اما این باید با دقت تفسیر گردد. زیرا داده ها مرتب نمی شود. ممکن است بزرگترین فراوانی متناظر با مقادیر مختلف در مجموعه داده باشند. نتیجتا برای یک مجموعه داده بیشتر از یک مد وجود دارد. بنابراین مجموعه های داده را به صورت تک نمایی و چند نمایی دسته بندی می کنیم. مجموعه داده های چند مدی ممکن است دقیقا به صورت دو نمایی، سه نمایی و غیره نمایش داده شوند. برای منحنی های فراوانی تک نمایی که تا حدودی همواره باشند رابطه تجربی زیر را برای مجموعه های داده عددی داریم:

ممکن است برای یک تحلیل توزیع مجموعه داده ها و برآورد سنجش یک گرایش مرکزی مبتنی بر دو تای دیگر استفاده شود.

به عنوان مثال اجازه دهید این سه مشخصه را روی مجموعه داده های ساده T که شامل مقادیر عددی زیر هستند، تحلیل کنیم:

بعد از فرآیند مرتب سازی مجموعه داده ها عبارت است از:

شاخص ها و سنجش های آماری توصیفی متناظر برای گرایش مرکزی عبارتند از:

درجه که در حقیقت میزان گرایش داده های عددی به انتشار می باشد، پراکندگی داده ای نامیده می شود و متداول ترین سنجش های پراکندگی، انحراف معیار و واریانس می باشند. واریانس n مقدار عددی x1,x2,…,xn به صورت زیر می باشد:

انحراف معیار، ریشه دوم واریانس می باشد. خواص اصلی انحراف معیار به عنوان یک سنجش توزیع و پراکندگی به صورت زیر می باشد.

انحراف معیار، پراکندگی مربوط به میانگین را مورد سنجش قرار داده و میتواند تنها زمانی مورد استفاده قرار گیرد که میانگین به عنوان سنجش یک مرکز انتخاب شود.

=0σ می باشد تنها زمانی که هیچگونه پراکندگی در داده ها وجود نداشته باشد یعنی زمانی که تمام سنجش ها و اندازه گیری ها دارای مقدار یکسانی باشد، در غیر اینصورت >0σ می باشد.

برای مجموعه داده های ارائه شده در مثال واریانس و انحراف معیار به صورت زیر می باشد:

در بسیاری از ابزارهای نرم افزاری، یک ابزار تجسم سازی مورد استفاده مرسوم از آمار توصیفی برای گرایش مرکزی مورد سنجش قرار می گیرد و پراکندگی یک ترسیم جعبه ای می باشد که در شکل 15 ارائه شده است.

3. استنتاج Bayesian

تصور وضعیتی که در آن مجموعه داده ها تنها منابع در دسترس درباره جامعه یا درباره سیستم های تحت مدل سازی باشند کار آن چنان سختی نمی باشد. شیوه Bayesian نشان دهنده روش و راهی است که اطلاعات خارجی را به شکلی با فرآیند تحلیل داده ها مرتبط کند. این فرآیند کار خود را با توزیع احتمال مشخصی برای مجموعه داده های تحلیل شده شروع می کند. همان گونه که این توزیع قبل از هیچ تفکری در خصوص داده ها، آماده می شود توزیع پیشین نامیده می شود. مجموعه داده جدید توزیع پیشین را به توزیع پسین تغییر می دهد. ابزار اصلی برای این تغییر قضیه بیز است.
فهرست و منابع تحقیق مقاله روش های آماری

فهرست:

ندارد.

منبع:

ندارد.

تحقیق در مورد تحقیق مقاله روش های آماری, مقاله در مورد تحقیق مقاله روش های آماری, تحقیق دانشجویی در مورد تحقیق مقاله روش های آماری, مقاله دانشجویی در مورد تحقیق مقاله روش های آماری, تحقیق درباره تحقیق مقاله روش های آماری, مقاله درباره تحقیق مقاله روش های آماری, تحقیقات دانش آموزی در مورد تحقیق مقاله روش های آماری, مقالات دانش آموزی در مورد تحقیق مقاله روش های آماری ، موضوع انشا در مورد تحقیق مقاله روش های آماری

مطالب مرتبط با این موضوع:

تحقیق مقاله تخمین مدل و استنتاج آماری بررسی ایستایی ( ساکن بودن ) سری های زمانی

تعداد صفحه: ۲۲ دسته بندی: اقتصاد

قبل از تخمین مدل، به بررسی ایستایی می پردازیم. می توان چنین تلقی نمود که هر سری زمانی توسط یک فرآیند تصادفی تولید شده است. داده های مربوط به این سری زمانی در واقع یک مصداق از فرآیند تصادفی زیر ساختی است. وجه تمایز بین (فرآیند تصادفی) و یک (مصداق) از آن، همانند تمایز بین جامعه و نمونه در داده های مقطعی است. درست همانطوری که اطلاعات مربوط به نمونه را برای استنباطی در مورد جامعه ...

تحقیق مقاله مفاهیم آمار و تخمین‌ های بیزینی

تعداد صفحه: ۲۶ دسته بندی: اقتصاد

مقدمه قبل از دو دهه اخیر پیش‌بینی‌های اقتصادی بوسیله مدلهای ساختاری انجام می‌گرفت که اکثراً منتج شده از نظریات کنیز بودند از آنجائیکه در آن دوره این مدلها نتوانستند حوادث مهم اقتصادی را پیش‌بینی نمائید بنابراین روش برداری‌های خود رگرسیونی توسعه پیدا کردند از جمله انتقاداتی که به این روش وارد می‌شود اینست که این روش به تخمین بیش از حد مبتلا می‌باشد برای رفع این مشکل یک مدل بیزینی ...

تحقیق مقاله روش های آماری

تعداد صفحه: ۴۱ دسته بندی: آمار

تعاریف و تنظیم داده های آماری : تعاریف و توزیعهای آماری تعریف علم آمار : قبل از آنکه علم آمار تعریف گردد لازم است کمی راجع به تاریخچه آن سخن به میان بیاید تاریخچه علم آماررا می توان از بدو تشکیل دولتها آغاز کرد ، زیرا کلمه آمار Statusticesاز کلمه State به معنی دولت گرفته شده است . دولتهای اولیه نیز برای پی بردن به سلطه و قلمروخود احتیاج به آن داشتند . البته در آن زمان منظور از ...

تحقیق مقاله ارائه یک سیستم خبره جهت کاریابی برای افراد بیکار

تعداد صفحه: ۱۴ دسته بندی: علوم اجتماعی و جامعه شناسی

چکیده : این مقاله یک ES را برای ارزیابی افراد بیکار در خصوص پستهای معین نشان می دهد این خبره از تکنیکهای Neuro –Fuzry برای تجزیه و تحلیل یک پایگاه داده ها از افرادبیکار و بنگاه های کاریابی استفاده می کنند فرآیند انطباق یک فرد بیکار با یک کار پیشنهاد شده انجام می شود از طریق یک ...........از سیستم Neuro –Fuzry مجموعه های ازمایشات گسترده تاریخچه ای از داده های افراد بیکار (که ...

تحقیق مقاله حسابرسی (Audit) در حسابداری و روش‌ های آماری در آن

تعداد صفحه: ۲۰ دسته بندی: حسابداری

مقدمه: افزایش روزافزون انواع مختلف اشیاء، ثبت و اسناد مربوط به آنها مدتهاست که نظر متخصصین حسابداری، حسابرسی و بطور کلی متخصصین امور مالی را بخود جلب کرده است. مسئله رسیدگی انبوه اسناد حسابداری در سازمان‌ها (وزارتخانه‌ها ، شرکت ها و . . . ) مشکلی است که از طرف محققین امور مالی (حسابدارها و حسابرس‌ها) باید به عنوان مسئله مهم حل گردد. یکی از روش‌هائی که بطور کلی در علوم اجتماعی ...

تحقیق مقاله ( هواشناسی ) انتخاب روشی مناسب جهت بازسازی خلا های آماری بارندگی

تعداد صفحه: ۵۸ دسته بندی: محیط زیست و انرژی

-1- مقدمه و هدف اولین قدم در بررسیهای علمی- مهندسی مربوط به محیط نظیر پروژه های آبی،تحقیقات منطقه ای هواشناسی کشاورزی و نظایر آن ، مطالعات هواشناسی است، به طوریکه مطالعات سایر بخشها، مانند هیدرولوژی، سیلخیزی، فرسایش و رسوب ، و پهنه بندی های آگروکلیمایی وغیره بر آن متکی است. بدیهی است دسترسی به داده‌های کافی و دقیق شبکه ایستگاه‌ های هواشناسی از یک طرف موجب کوتاهتر شدن مدت مطالعات ...

تحقیق مقاله رایگان داده کاوی ، مفهوم و کاربرد آن در آموزش عالی

تعداد صفحه: ۸ دسته بندی: مهندسی کامپیوتر

مقدمه از هنگامی که رایانه در تحلیل و ذخیره سازی داده ها بکار رفت (1950) پس از حدود 20 سال، حجم داده ها در پایگاه داده ها دو برابر شد. ولی پس از گذشت دو دهه و همزمان با پیشرفت فن آوری اطلاعات(IT) هر دو سال یکبار حجم داده ها، دو برابر شد. همچنین تعداد پایگاه داده ها با سرعت بیشتری رشد نمود. این در حالی است که تعداد متخصصین تحلیل داده ها و آمارشناسان با این سرعت رشد نکرد. حتی اگر ...

تحقیق مقاله سیستم های هیبریدی - Soft Computing با ترجمه

تعداد صفحه: ۲۶ دسته بندی: مهندسی فناوری اطلاعات IT

سیستم های ترکیبی Soft Computing : ما به کجا می رویم؟ چکیده: Soft Computing یک روش محاسباتی است که شامل منطق فازی،محاسبات عصبی ، محاسبات تکمیلی و محاسبات احتمالی می باشد.بعد از یک نگاه اجمالی به اجزای Soft Computing ،برخی از مهمترین ترکیبات آنرا مورد بررسی و تجزیه وتحلیل قرار میدهیم.ما بر روی توسعه کنترل کننده های الگوریتمی هوشمند،همانند استفاده از منطق فازی برای کنترل پارامترهای ...

تحقیق مقاله یک روش مدرن برای آنالیز کلاسیک رشد گیاه

تعداد صفحه: ۴۸ دسته بندی: زیست شناسی

مقدمه: آنالیز رشد گیاه یک تحلیلی توصیفی، چند جانبه و تکمیلی است که عملکرد و شکل گیاه را تفیر می کند و از داده های ساده اولیه مثل وزن، سطح، حجم، محتویات اجزاء گیاه برای بررسی درونی که در برگیرنده کل است. استفاده می کند (ایوانز 1972، کاستون و ونوس 1981، هانت 1990) در اواخر قرن 19 بررسیهای مربوط به رشد گیاه ابتدا فیزیولوژی گیاه، سپس کشاورزی، امروزه اکولوژی مربوط به تکامل گیاهی را ...

تحقیق مقاله راهکارهای برای حل مشکلات گردشگری و جذب توریست در ایران

تعداد صفحه: ۲۵ دسته بندی: گردشگری و توریسم

این مقاله و طرح پژوهشی با جستجو فراوان در اینترنت و تحقیق در راستای صنعت گردشگری و توریسم ودر زمینه های مشکلات صنعت گردشگری در ایران و تحقیق در زمینه راهکارهای حل این مشکل ، وچگونگی برخوردبا این مشکلات در کشورهای جهان ، ارائه شده است . > در این مقاله و طرح پژوهشی در بخش اول ابتدا مفاهیم چند واژه را شرح داده ام . دربخش دوم مقدمه ای برصنعت توریسم و گردشگری و صنعت طبیعت گردی ...

ثبت سفارش

عنوان محصول

قیمت

تحقیق مقاله روش های آماری

خلاصه تحقیق مقاله روش های آماری

فهرست و منابع تحقیق مقاله روش های آماری