رگرسیون

ارائه دهنده : محمد تیموریان

 رگرسیون ساده خطی توصیف کننده و بیانگر تغییرات یک متغیر وابسته بر پایه تغییرات یک متغیر مستقل می باشد

در رگرسیون خطی چند گانه اثر دو یا چند متغیر مستقل بر متغیر وابسته مورد تجزیه و تحلیل قرار می گیرد.

پارامترهای رگرسیون خطی به  روش برآورد حداقل مربعات به گونه ای تعیین می گردد که خط رگرسیون، رابطه خطی موجود بین متغیر های وابسته و مستقل حاصل از نمونه را به بهترین وجه نمایان سازد 

می توان این پارامترها را از طریق روش ماتریسی و نرم افزار های مختلف محاسبه نمود

تفاوت رگرسیون و همبستگی

در رگرسیون هدف تعیین وابستگی متغیر وابستهy به متغیر مستقل x  است ولی با استفاده از ضریب همبستگی می توان شدت و میزان رابطه خطی موجود در بین دو متغیر را مورد بررسی قرار داد

 رگرسیون رابطه بین یک متغیر تصادفی و یک یا چند متغیر ثابت را بیان می کندولی همبستگی، رابطه بین دو متغیر تصادفی را تعیین می کند ومقدار همبستگی بین 1-و1+ می باشد و بدون واحد است

کاربرد رگرسیون

رگرسیون به پیش گویی ارزش یک صفت بر اساس اطلاعات صفات دیگر کمک می کند

با استفاده از رگرسیون  ارزش اصلاحی یک صفت بر ارزش فنوتیپی همان صفت،می توان ارزش اصلاحی حیوان را بر اساس عملکرد خود فرد پیشگویی کرد

از آنجا که به غیر از ارزش فنوتیپی بقیه ارزشها مثل ارزش اصلاحی ،تفاوت نتاج و قابلیت تولید به طور مستقیم قابل اندازه گیری نیست باید از ارزشهای پیش گویی شده استفاده کنیم که با معادلات پیش گویی می توانیم آنها را پیش گویی کنیم که به صورت زیر است:

ارزش پیش گویی شده(برآوردارزش اصلاحی ،تفاوت نتاج مورد انتظاروحداکثر قابلیت تولید)=ضریب رگرسیون ضرب در   معیارفنوتیپی(رکورد  عملکرد فنوتیپی،متوسط  عملکرد رکورد های فرد،برادر و خواهران ناتنی وی و غیره)

وراثت پذیری توان دوم همبستگی بین ارزشهای فنوتیپی و ارزشهای اصلاحی و  رگرسیون  ارزش اصلاحی در ارزش فنوتیپی است

تکرار پذیری همبستگی بین ارزش فنوتیپی و قابلیت تولید برای یک صفت در یک جامعه است و رگرسیون قابلیت تولید در ارزش فنوتیپی است

آزمون رگرسیون

برای ازمون اینکه آیا رابطه خطی بدست آمده معنی دار است از آزمونهای tو Fاستفاده می شود

tوFهر دو برای آزمون فرض 0=1b:0Hاستفاده می شوند  2t=F

تغییرات موجود در مدل رگرسیون

تغییرات کل متغیر وابسته =مجموع مربعات کل=پراکنش پیرامون میانگینy

تغییرات محاسبه شده توسط مدل= مجموع مربعات رگرسیون

تغییرات محاسبه نشده توسط مدل=همان پراکنش اطراف yتخمینی است=مجموع مربعات مانده ها

اگر فرض معنی دار نشود به این معنی  است که رگرسیون خطی بین دو متغیر وجود ندارد ولی ممکن است رابطه غیر خطی وجود داشته باشد

حدود اطمینان

چون bمتغیری تصادفی با میانگین β و واریانس s2می باشد میتوان حدود اطمینان β را با توجه به bتعیین کرد.

حدود اطمینان خط رگرسیون بیان میکند که اگر ازمایش به تعداد دفعات زیاد تکرار شود چه دامنه ای شامل 95یا 99 درصد خطها میگردد در میانگینx مقادیر حدود اطمینان به خط نزدیکتر است چون تمام خطوط از میانگین می گذرند.

تکرار مشاهدات

در بررسی رگرسیون اگر کلیه مقادیر xیا برخی از آنها را به دفعات تکرار کردیم در این صورت تفاوت بین مشاهداتی که تکرار شده اند نبایستی در انحراف رگرسیون دخالت داده شوند  در این گونه موارد علاوه بر واریانس انحراف از رگزسیون ،واریانس خطا نیز محاسبه میشود که به خطای خالص(pure)معروف است تفاوت مجموع مربعات این خطا و مجموع مربعات انحراف از رگرسیون به مجموع مربعات عدم برازش(lack of fit)معروف است که انحراف از میانگین واقعی ر ا نشان می دهد

ضریب تعیین

ضریب تعیین معیاری از صحیح بودن مدل رگرسیون است ونشان دهنده قسمتی از تغییرات کل یا واریانس کل می باشد که به وسیله رابطه خطی موجود بین xوyتوجیه می گردد

 ضریب تعیین توان دوم ضریب همبستگی می باشد

مدل مناسب مدلی است که در آن مجموع مربعات رگرسیون نزدیک به مجموع مربعات کل است

مدل نامناسب مدلی است که در آن مجموع مربعات مانده ها نزدیک به مجموع مربعات کل است

انحراف استاندارد مدل رگرسیون ،ریشه دوم واریانس باقیمانده یا میانگین مربعات مانده ها می باشد

مجموع مربعات اضافی

همانطور که مجموع مربعات کل به مجموع مربعات رگرسیون و مانده ها تفکیک می شود مجموع مربعات رگرسیون را میتوان به مجموع مربعات پارامتر های موجود در مدل تفکیک نمود

کاهش تعداد پارامتر های موجود در مدل از نظر عددی سبب کاهش مجموع مربعات رگرسیون و  به همان مقدارافزایش مجموع مربعات مانده ها می شود این تفاوت در مجموع مربعات را مجموع مربعات اضافی گویند که به دو طریق محاسبه می شود

جزئی= نوع 1=بیانگر افزایش مجموع مربعات رگرسیونی است هنگامی که یک پارامتر خاص به مدلی که دارای تمام پارامتر های ممکن دیگر است اضافه می شود زمانی که همه متغیر های مستقل در بیان متغیر وابسته دارای اهمیت یکسانی هستند

پی در پی =نوع 2= افزایش مجموع مربعات رگرسیونی را نشان مید هد در حالیکه پارامتر ها یکی پس از دیگری به مدل اضافه می شودو ترتیب پارامتر ها اهمیت دارد

عیب یابی و تصحیح رگرسیون

1-تحلیل مانده  ها با استفاده از نمودار پراکنش مانده ها در برابر مقادیر بر آورد شده متغیر وابسته یا مستقل

2-مشاهدات کرانه ایextreme

 الف) پرت( outlier ) مخالف با مبنای مدل است

ب)high leverage   بالاتر از میانگین متغیر های مستقل قرار دارند

 در SASبا فاکتورهای : تفاوت در برازش (dfitts) ، تفاوت در بتا(dfbetas) و  فاصله کوک  سنجیده می شوند

3-هم راستایی خطی چند گانه که با فاکتور تورم واریانس (vif)سنجیده می شود و هر چه این عدد بزرگتراز 10و باشد همبستگی بیشتری بین متغیر های مستقل وجود دارد و بر آورد ها فاقد اعتبارند  و باید یکی از کارهای زیر را انجام داد

متغیر های مستقل غیر ضروری را حذف کرد

چند متغیر مستقل را با هم ترکیب کرد

معیار های انتخاب مدل بهینه

الف)ضریب تعیین

    بطور کلی با اضافه نمودن یک متغیر جدید به مدل ،ضریب تعیین افزایش می یابد ولی باید افزایش قابل توجه باشد

ب)میانگین مربعات مانده ها

     معمولا با افزودن متغیر جدید به مدل کاهش  می یابد

ج)معیار  cp

 نشان دهنده معیار پیش بینی نظری است و هرچه کوچکتر باشد بهتر است

د)معیار آکایک(aic)

مدل دارای کوچکترین اکایک بهینه است

 

+ نوشته شده توسط mohammad teimurian در Sat 21 Jan 2012 و ساعت 1:2 PM |