روش های گزینش متغیرها و مدل سازی در رگرسيون

  1. خانه
  2. chevron_right
  3. مقالات تحلیل آماری
  4. chevron_right
  5. همبستگی و رگرسیون
  6. chevron_right
  7. روش های گزینش متغیرها و مدل سازی در رگرسيون
نام دسته مطالب: همبستگی و رگرسیون

روش های گزینش متغیرها و مدل سازی در رگرسيون

6 دیدگاه

هنگامی که در بررسی یک مدل رگرسیونی، متغیر مستقل و رابطه بین آن ها با متغیر وابسته از قبل تعین شده است، پس از تعین معادله رگرسیونی مناسب، ضرایب متغیرها مورد آزمون قرار گرفته و اعتبار مانده نیز سنجیده می شود.

اما در بسیاری از موارد مجموعه متغیرهایی که می بایست در مدل رگرسیون گنجانده شوند از پیش تعین شده نیستند. از این روی غالبا بخش اول تجزیه و تحلیل شامل انتخاب این متغیرها می باشد. در پاره ای از موارد انتخاب متغیرهای مستقل برای ورود به مدل بر مبنای ملاحظات تئوری و یا اصول خاصی انجام می شود، در چنین مواردی نیز مسئله گزینش متغیرها مطرح نیست. اما در مواقعی که نظریه واضحی موجود نیست، گزینش متغیرها برای مدل رگرسیون موضوع مهمی خواهد بود.

در فرمول بندی مدل رگرسیون دو سؤال باید مدنظر باشد. اول اینکه کدام متغیرها باید در مدل قرار گیرند و دوم اینکه چه فرمی از آن ها باید در مدل منظور گردد. به عنوان مثال باید پرسید که آیا متغیر اصلی و یا ترکیبی از این متغیر و شکل تبدیل یافته آن مانند X2 یا logX باید در مدل ظاهر شود.

دو نکته مهم در گزینش متغیرها

قبل از بحث پیرامون روش های گزینش متغیرها دو نکته قابل ذکر است:

نخست اینکه صحبت در مورد «بهترین مجموعه متغیرها» که می بایست در مدل گنجانده شوند، معمولا با معنی نیست. به عبارت دیگر بهترین مجموعه متغیرهای کاملا متمایز و مشخص وجود ندارد. از معادله رگرسیون می توان برای اهداف مختلفی استفاده کرد. مجموعه ای از متغیرها که می تواند برای یک منظور مناسب باشند، شاید برای اهداف دیگر بهترین به حساب نیایند. بنابراین هدف استفاده از معادله رگرسیون می بایست در زمان گزینش متغیرها در ذهن باشد.

نکته دیگر آن که چون بهترین مجموعه متغیرها وجود ندارد، ممکن است چندین زیرمجموعه برای تشکیل معادله ارزش یکسانی داشته باشند. یک روش خوب گزینش متغیر معمولا چندین مجموعه مناسب را معرفی می کند نه این که به یک مجموعه منفرد تحت عنوان بهترین مجموعه منتهی شود. مجموعه های مختلف از متغیرهایی که ارزش یکسانی برای تشکیل معادله دارند، ساختار داده ها را روشن ساخته و به درک فرآیند زیربنایی کمک می کند.

موارد استفاده از معادلات رگرسیون

یک معادله رگرسیون می تواند برای اهداف مختلفی استفاده شود که در سه دسته کلی زیر قرار می گیرند:

1. توصیف

معادله رگرسیونی ممکن است برای توصیف فرآیند معینی یا به عنوان مدلی برای توصیف یک سیستم برهم کنشی مورد استفاده قرار گیرد. در مواقعی که توصیف هدف اول است، سعی می شود کمترین تعداد متغیرهای مستقل طوری انتخاب شوند که بخش اعظمی از تنوع در متغیر وابسته را توصیف کنند.

2. برآورد و پیش بینی

گاهی معادله رگرسیونی با هدف برآورد و پیش بینی ایجاد می شود. در این مورد با استفاده از معادله رگرسیون می خواهیم مفدار متغیر وابسته را برای مشاهدات دیگری پیش بینی نموده یا میانگین متغیر وابسته متناظر با مشاهده ی دیگری را برآورد نماییم. وقتی معادله ای بدین منظور استفاده می شود متغیرها طوری انتخاب می شوند که MSE پیش بینی حداقل شود.

3. کنترل

یک معادله رگرسیونی ممکن است به عنوان ابزاری برای کنترل استفاده شود. هدف ایجاد چنین معادله ای ممکن است تعیین مقدار از متغیر مستقل باشد که برای حصول مقدار ویژه ای از متغیر وابسته لازم است. برای این منظور بهتر است ضرایب متغیرها در معادله رگرسیون با دقت بیشتری برآورد شوند.

معیارهای ارزیابی در گزینش متغیرها

1. ضریب تبیین (تعیین)

ضریب تبیین R2 معیاری برای اندازه گیری کفایت مدل رگرسیون است که به طور گسترده ای مورد استفاده قرار می گیرد. از نظر محاسباتی این ضریب به صورت زیر نشان داده می شود:

گزینش متغیرها و مدل سازی در رگرسيون

که در آن SSRp و SSDp به ترتیب مجموع مربعات رگرسیون و مجموع مربعات مانده ها برای مدل زیرمجموعه p جمله ای هستند.

از آنجایی که مقدار مجموع مربعات رگرسیون با افزایش تعداد متغیرها همواره افزایش می یابد (و در مقابل از مقدار مجموع مربعات مانده ها کاسته می شود) بنابراین همواره با افزایش تعداد متغیرها افزایش می یابد. از این روی استفاده از ضریب تبیین به عنوان معیاری برای انتخاب تعداد متغیر مستقل که بایستی در مدل وارد شوند، درست نیست. اما برای مقایسه دو مدل که دارای تعداد ثابت از متغیرهای مستقل می باشند، می توان از ضریب تعیین فوق استفاده نمود.

2. ضریب تبیین {تعیین} تصحیح شده

برای اجتناب از مشکلات تفسیر برخی از تحلیل گران استفاده از ضریب تبیین تصحیح شده را ترجیح می دهند. این ضریب برای یک معادله p جمله ای به صورت زیر تعریف می شود.

گزینش متغیرها و مدل سازی در رگرسيون

آماره الزاما با اضافه شدن متغیر مستقل به مدل افزایش نمی یابد، بنابراین معیاری برای گزینش یک مدل زیرمجموعه ای مناسب ، انتخاب مدلی است که حداکثر ضریب تعیین تعدیل شده، را داشته باشد.

3. میانگین مربعات مانده ها

از جمله معیارهای دیگر برای قضاوت درباره کفایت مدل برازش داده شده می توان از میانگین مربعات خطا (MSD) نام برد. در یک معادله p جمله ای MSD به صورت زیر تعریف می شود.

گزینش متغیرها و مدل سازی در رگرسيون

که در آن SSDp مجموع مربعات مانده ها برای یک معادله p جمله ای است. بین دو معادله، معادله ای که MSD کوچکتری دارد، ترجیح داده می شود. به ویژه اگر برون یابی یا برآورد مقدار متغیر وابسته در خارج از دامنه متغیرهای مستقل مورد نظر باشد. از آنجایی کهSSDp همواره با افزایش p نقصان می یابد، MSD در ابتدا کاهش یافته، سپس پایدار گشته و سرانجام ممکن است افزایش یابد.

4. آماره Cp مالو

در استفاده از این آماره برای قضاوت درباره یک معادله باید به جای یک میانگین مربعات انحراف از مدل، میانگین مربعات خطای مقدار پیش بینی شده در نظر گرفته می شود. میانگین مربعات خطای پیش بینی استاندارد شده Jp برای داده های مشاهده شده به صورت زیر محاسبه می شود.

گزینش متغیرها و مدل سازی در رگرسيون

که در آن  MSE میانگین مربعات خطای i امین مقدار پیش بینی شده از یک معادله p جمله ای، و σ2 واریانس باقیمانده ها است. برای برآورد jp از Cp استفاده می شود که تعریف آن چنین است:

گزینش متغیرها و مدل سازی در رگرسيون

که در آن S2 برآورد σ2است. می توان نشان داد که امید ریاضی Cp برابر p است.

این در صورتی است که هیچ اریبی در معادله برازش داده شده با استفاده از p متغیر وجود نداشته باشد. بنابراین انحراف Cp از p را می توان به عنوان معیاری از اریبی مورد استفاده قرار داد. زیرمجموعه ای از متغیرها کهCpآن ها به p نزدیکتر باشد، زیرمجموعه ای مناسب است.

منبع: مقدمه ای بر تحلیل رگرسیون کاربردی/ نوشته : دکتر عبدالمجید رضایی و مهندس افشین سلطانی/ انتشارات دانشگاه صنعتی اصفهان.

ساير منابع مرتبط با نکات تحليلي آماري :

در خصوص موضوعات مختلف تحليل آماري مي توانيد از مطالب وب سايت ديگر اين گروه نيز استفاده نماييد: مقاله و موضوعات تحليل آماري

5/5 - (3 امتیاز)
ضریب همبستگی گاما
ضریب همبستگی توافق پیرسون یا ضریب توافق C

سایر مطالب مرتبط با موضوع فوق:

توجه شود که بخش سوال و جواب ها و کامنتها بعد از این بخش قرار دارد.

مفهوم رگرسیون

مفهوم رگرسيون به زبان ساده

comment93 دیدگاه
رگرسيون چيست؟ رگرسيون يعني بازگشت. يعني پيش بيني و بيان تغييرات يک متغير بر اساس اطلاعات متغير ديگر. مثال: رابطه بين قد و وزن انسانها را در نظر بگيريد. همه مي دانيم که اين رابطه يک رابطه مستقيم رياضي و…
معنی داری مدل رگرسیون

آزمون معنی داری رگرسیون و ضرایب آن با نرم افزار SPSS

comment38 دیدگاه
1- بررسی معنی دار بودن مدل رگرسیون برای آزمون این که آیا رابطه ی رگرسیونی ارائه شده بین متغیر پاسخ (وابسته) و متغیرهای پیشگو (مستقل) معنی دار است یا خیر با تعریف مدل رگرسیون به صورت، فرضیه ی”  ”  را در…
معنی داری مدل رگرسیون

آثار همخطی چند گانه در یک مدل رگرسیون

comment7 دیدگاه
1- مقدمه تفسیر و استفاده از یک مدل رگرسیون چندگانه اغلب به برآوردهای تک تک ضرایب رگرسیونی بستگی دارد. پاره ای از کاربردهای مدل رگرسیون عبارتند از: 1) شناسایی اثرات نسبی متغیرهای وابسته، 2) پیشگویی و یا برآورد کردن و…
فرمولهای رگرسیون ساده

کلیات رگرسیون خطی ساده (فرمولها)

comment2 دیدگاه
مدل رگرسیونی یکی از پرکاربردترین روش های آماری در علوم مختلف، اجرای انواع روش های رگرسیون برای تعیین رابطه ی بین یک متغیر وابسته با یک یا چند متغیر مستقل می باشد . متغیر وابسته ، پاسخ و متغیرهای مستقل ، متغیرهای…
تحلیل آماری

سوال و جواب پیرامون این مبحث از طریق ارسال دیدگاه:
– نیاز به عضویت در سایت ندارد
– از طریق ایمیل خود، از دریافت پاسخ مطلع می گردید
– اگر کامنتها زیاد است، برای جستجو و یافتن سوال مد نظر خود از (f + Ctrl) استفاده نمایید.
– لطفا دوستانی که اطلاعاتی تخصصی و یا تجربه ای دارند، به سوالات پاسخ دهند تا محققان سراسر کشور بهره ببرند (زکات علم نشر آن است)

6 دیدگاه. همین الان خارج شوید

  • سلام. لطفا سوالات و نظرات خود در خصوص اين مطلب را در همين بخش ديدگاه مطرح نماييد. از طريق ايميل از پاسخ ما مطلع خواهيد شد.
    براي جستجو در ميان کامنت ها از Ctrl + f استفاده نماييد.

    پاسخ
  • سلام و خسته نباشید،تاثیر ساختار مالکیت بر نسبت تقسیم سود سهام چه تاثیری معنایی دارد؟(دیاگرام نوع متغیرها و ارتباط متغیرها)

    پاسخ
  • سلام ممنونم از مطالب مفید سایتتان. چطور باید برای متغیرهای مخدوش کننده که به عنوان متغیر مستقل وارد مدل رگرسیون میکنیم رفرنس بدهیم؟ این درخواست داور یک مجله بوده که گفتند برای انتخاب متغیرها در رگرسیون دلیل بیاوریم

    پاسخ
    • سلام بر شما
      اینکه چه متغیری به عنوان متغیر مخدوش کننده وارد مدل بشود، موضوعی غیر آماری است و در تخصص یک آمارگر نیست.
      با توجه به مبانی نظری و مباحث تخصصی و مقالات معتبر رشته خویش این مساله را حل کنید.

      پاسخ
  • احسان برهمن
    دسامبر 14, 2021 10:26 ق.ظ

    باسلام و احترام / سوالي مطرح شده با اين مضمون : اطلاعات تاريخي مربوط به نرخ تغييرات ارز در بازار فاركس از تاريخ 2008:01 تا 2018:02 به ميزان 122 ماه و y متغير وابسته هم مشخص است در اين 122 ماه ، از طرفي آمده 71 ستون متغير مستقل از x1 تا x71 را به ما در اين 122 ماه داده كه خواسته ما به عنوان يه مشاور مالي با انتخاب 5 متغير مستقل از اين 71 مورد مدل سازي رگراسيون خطي كنيم. ( خب مستحضر هستيد همه اين متغيرهاي مستقل 71 گانه بعضا شايد ارتباط موضوعي با متغير وابسته ما كه تغييرات ارز هست نداشته باشد . از كجا 5 تا متغير مستقل مرتبط را شناسايي كنيم ؟

    پاسخ
    • سلام. اگر نام و مفهوم متغیرها را می دانید بر آن اساس و همچنین با توجه به مبانی نظری رشته تان، نسبت به انتخاب متغیرهای مستقل اقدام نمایید.
      یا اینکه همبستگی این متغیرها را با متغیر وابسته بگیرید و آنهایی که با متغیر وابسته همبستگی بالایی داشته باشند، آنها را انتخاب کنید. در عین حال سعی کنید خود متغیرهای مستقل با خودشان همبستگی نداشته باشند.

      یعنی ما متغیرهای مستقلی را می خواهیم گزینش کنیم که خودشان با هم همبستگی ندارند اما با متغیر وابسته همبستگی دارند.

      پاسخ

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این قسمت نباید خالی باشد
این قسمت نباید خالی باشد
لطفاً یک نشانی ایمیل معتبر بنویسید.

سه × 1 =

فهرست
0
    0
    سبد خرید شما
    سبد خرید شما خالی استرفتن به فروشگاه