آخرین خبر

آموزش رگرسيون خطي با استفاده از روش حداقل مربعات خطا در MATLAB

رگرسيون که به معناي بازگشت است ابتدا توسط فرانسيس گالتون در تحقيقي در مورد قد فرزندان و والدينشان مطرح شد.  در اين تحقيق نشان داده ميشود قد فرزندان قد بلند به ميانگين قد جامعه نزديک است. روش رگرسيون به منظور ايجاد يک رابطه و مدل رياضي بين داده هاي ورودي و خروجي استفاده ميشود. هدف اين روش محاسبه ارتباط بين متغير پاسخ با متغيرهاي توصيفي است به طوريکه اثر چند متغير توصيفي مستقل در متغير پاسخ مورد ارزيابي قرار گيرد. رگرسيون به دو دسته خطي و غير خطي تقسيم ميشود. در اين آموزش به نحوه پياده سازي رگرسيون خطي با استفاده از روش حداقل مربعات خطا در نرم افزار MATLAB پرداخته ميشود.

رگرسيون خطي
اين رگرسيون زماني استفاده ميشود که متغير پاسخ تنها به يک متغير مستقل وابسته است. رابطه y=a+bx  يک مدل رگرسيون خطي را نشان ميدهد، که پارامترهاي a و b به ترتيب عرض از مبدأ خط و شيب خط را نشان ميدهد و x و y نيز ورودي مستقل و پاسخ را نشان ميدهد. با توجه به اينکه همواره جهت رسيدن به پاسخ دقيق، پارامترهاي a و b ممکن است تقريبي محاسبه شده باشند، مدل رگرسيون خطي y=a+bx+e معرفي ميشود که به نوعي خطاي محاسبه را نشان ميدهد و به کمک آن ميتوان تخمين دقيقتري از پارامترهاي مدل را به دست آورد. در اين روش ميتوان با توجه به اطلاعات گذشته، مدل رياضي را ارائه و به پيشبيني آينده پرداخت. اما در صورتي ميتوان از اين روش استفاده کرد که شرايط عمومي حاکم بر سيستم استمرار را داشته باشد. شکل 1 نمايش خط رگرسيون و نمونه هاي مختلف در يک فضاي دوبعدي را نشان ميدهد. محور افقي متغيرهاي مستقل است و محور عمودي پاسخ يا متغير وابسته. خط رگرسيون مناسب خطي است که همه نمونه ها را در بر گيرد يا در صورت امکان کمترين فاصله را از هر نمونه داشته باشد.

نرم افزار متلب

شکل ۱) نمایش خط رگرسیون
زماني ميتوان از اين روش در پيشبيني مقادير آينده استفاده کرد که قدرمطلق ضريب همبستگي بين متغير مورد نظر باگذشت زمان بزرگتر از 50 درصد باشد. اين شرط به معنيدار بودن متغير مستقل با گذشت زمان اشاره دارد. شکل 2 رابطه خط رگرسيون، نحوه محاسبه پارامترهاي مدل رياضي ونيز ضريب همبستگي (r) را نشان ميدهد.

نرم افزار متلب

شکل ۲) روابط مربوط به محاسبه پارامترهای خط رگرسیون و ضریب همبستگی
جهت درک بهتر نحوه محاسبه خط رگرسيون يک مثال در حوزه پزشکي مطرح ميشود. فرض کنيد تعداد بيمارستان هاي ساخته شده در سال هاي 1390 تا 1397 در يک استان خاص به شرح جدول 1 است، ميخواهيم با استفاده از روش رگرسيون خطي تعداد بيمارستان ساخته شده در سال 1398 را پيشبيني و مقدار خطا را محاسبه کنيم.

نرم افزار متلب

شکل 3 برنامه نوشته شده جهت به تصوير کشيدن پراکندگي نمونه ها در يک فضاي دو بعدي را نشان ميدهد. خط اول تعداد سال هاي ساخت بيمارستان را نشان ميدهد. خط دوم به تعريف سال هاي ساخت بيمارستان اشاره دارد. خط سوم، تعداد بيمارستان هاي ساخته شده را نشان ميدهد. خط چهارم به رسم پراکندگي نمونه ها ميپردازد که ضخامت هر نقطه با اندازه 2 تعيين شده است. خط پنجم به برچسبزدن محور افقي اشاره ميکند تا براي کاربر، مفهوم بهتري داشته باشد. در صورت عدم استفاده از اين دستور محور افقي با مقادير 1 تا 8 برچسب زده ميشود. خط هاي هفتم و هشتم به ترتيب براي انتخاب عنوان مناسب براي محورهاي افقي و عمودي استفاده ميشوند. خط نهم نيز به محدودکردن محورهاي افقي و عمودي اشاره ميکند. محور افقي بين اعداد 1 تا 8 و محور عمودي بين اعداد 1 تا 10 محدود شده اند.

نرم افزار متلب

شکل ۳) تصویر برنامه نوشته شده جهت نمایش پراکندگی نمونه ها
هدف، به دست آوردن خطي است که حداقل فاصله را از نمونه ها داشته باشد. براي اين منظور طبق روابط ذکر شده در شکل 2 به تعريف فرمولها در محيط نرم افزار MATLAB ميپردازيم. خط هاي اول و دوم برنامه نوشته شده در شکل 4، براي محاسبه ميانگين ورودي و خروجي استفاده شده است. خط هاي 3 و 4 مجموع مقادير ورودي و خروجي را محاسبه کرده است. مجموع مقادير ورودي ها به توان 2 و همچنين خروجيها به توان 2 در خط هاي 5 و 6 تعريف شده است. خط 7 به مجموع ضرب ورودي در خروجي اختصاص دارد. خط هاي 8 و 9 به پياده سازي روابط پارامترهاي b و a ذکر شده در شکل 2 پرداخته شده است. خط 10 به تخمين مقادير خروجي با استفاده از روش رگرسيون اشاره دارد. خط هاي 11 تا 16 نيز براي رسم دو شکل روي هم استفاده ميشود. که شکل اول مربوط به نمونه هاي واقعي و شکل دوم مربوط به خط رگرسيون است. خط 17 نيز براي انتخاب برچسب مناسب براي دو شکل رسم شده در يک نمودار نوشته شده است. شکل 5، تصوير نمونه هاي واقعي و خط رگرسيون را نشان ميدهد.

نرم افزار متلب

شکل ۴) برنامه نوشته شده جهت ترسیم خط رگرسیون

شکل ۵) نمایش نمونه های واقعی و خط رگرسیون

محاسبه حداقل ميانگين مربعات خطا
به منظور تعيين ميزان کارايي روش پيشنهادي در پيشبيني درست تعداد ساختمان هاي ساخته شده لازم است از روش حداقل مربعات خطا، ميزان خطاي روش ارائه شده تعيين شود. براي محاسبه درصد اين خطا کافي است، مقدار پاسخ واقعي (y) را از پاسخ تخمين (y_hat) کم کرده و به توان 2 برسانيم سپس با هم جمع کرده و بر تعداد نمونه ها (8) تقسيم و در 100 ضرب کنيم.
شکل 6، نحوه محاسبه خطا معرفي شده در نرم افزار MATLAB را نشان ميدهد. همچنين براي محاسبه تعداد بيمارستان هاي ساخته شده در سال 1398 بايد مقدار سال نهم را در رابطه رگرسيون مطابق شکل 6 قرار داد. همانطور که در اين شکل مشخص است ميزان خطا حدود 27 درصد و تعداد بيمارستان پيشبيني شده براي ساخت در سال نهم نيز بيش از 9 است.

Narmafzar221_6.jpgنرم افزار متلب

شکل ۶) نحوه محاسبه میانگین مربعات خطا و تعداد بیمارستان پیشبینی شده جهت ساخت در سال نهم

4/5 (2 دیدگاه ها)

دیدگاه ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

گزارش ویژه‌ی این ماه

wfn_ads

گزارش های کوتاه ماهنامه

wfn_ads
ماهنامه مهندسی پزشکی

خوش آمدید

ورود

ثبت نام

بازیابی رمز عبور