مفاهیم پایه یادگیری ماشین در پایتون

نرم افزار

یادگیری ماشینی باعث می‌شود کامپیوتر از مطالعه داده‌ها و آمار یاد بگیرد. یادگیری ماشین گامی به سوی هوش مصنوعی (AI-Artificial Intelligence) است. یادگیری ماشینی برنامه‌ای است که داده‌ها را تجزیه و تحلیل می‌کند و می‌آموزد که نتیجه را پیش بینی کند. در این آموزش به ریاضیات، آمار و نحوه محاسبه اعداد مهم بر اساس مجموعه داده‌ها باز خواهیم گشت. همچنین خواهیم آموخت که چگونه از ماژول‌های مختلف پایتون برای دریافت پاسخ‌های مورد نیاز استفاده کنیم. در انتها با چگونگی ساخت توابع که قادر به پیش بینی نتیجه بر اساس آموخته‌های قبلی است آشنا می‌شویم.

مجموعه داده‌ها
در ذهن یک کامپیوتر، مجموعه داده، هر مجموعه‌ای از داده‌ها می‌تواند باشد. از یک آرایه گرفته تا یک پایگاه داده کامل می‌تواند جزو مجموعه داده باشد. نمونه‌ای از آرایه می‌تواند به صورت [7,22,95,11,43,90,25,19] باشد. نمونه‌ای از پایگاه داده می‌تواند به صورت جدول ۱ باشد.

با نگاه کردن به آرایه می‌توان حدس زد که مقدار متوسط احتمالاً حدود 35 یا 40 است و همچنین می‌توانیم بالاترین مقدار و کمترین مقدار را تعیین کنیم. اما با نگاه کردن به پایگاه داده می‌توان متوجه شد که با توجه به سن بیماران، جامعه هدف جوانان هستند و بالاترین وزن نیز 80 است. اگر بتوان فقط با نگاه کردن به سایر مقادیر پیش بینی کرد که آیا فرد مورد نظر بیمار یا سالم است نتیجه بسیار جالب خواهد بود. یادگیری ماشین برای همین است. تجزیه و تحلیل داده‌ها و پیش بینی نتیجه.

انواع داده‌ها
برای تجزیه و تحلیل داده‌ها، مهم است که بدانیم با چه نوع داده‌ای سروکار داریم. می‌توان انواع داده‌ها را به سه دسته اصلی تقسیم کرد. عددی (Numerical)، دسته بندی (Categorical) و ترتیبی
(Ordinal).
داده‌های عددی: اعداد هستند و می‌توانند به دو دسته عددی تقسیم شوند:
داده‌های گسسته: اعدادی که محدود به اعداد صحیح هستند. مثال: تعداد خودروهای عبوری.
داده‌های پیوسته: اعدادی که ارزش بی‌نهایت دارند. مثال: قیمت یک کالا یا اندازه یک کالا.
داده‌های طبقه بندی: مقادیری هستند که نمی‌توان آن‌ها را با یکدیگر اندازه گیری کرد. مثال: یک مقدار رنگ، یا هر مقدار بله/خیر.
داده‌های ترتیبی: مانند داده‌های طبقه‌بندی هستند، اما می‌توانند با یکدیگر اندازه‌گیری شوند. مثال: نمرات مدرسه که در آن A بهتر از B است و غیره. با دانستن نوع داده منبع داده خود، قادر خواهید بود بدانید هنگام تجزیه و تحلیل آن‌ها از چه تکنیکی استفاده کنید.

میانگین، میانه و مد
از بررسی گروهی از اعداد به نکات مهمی می‌توان دست یافت. در یادگیری ماشینی (و در ریاضیات) اغلب سه ارزش وجود دارد که مورد توجه قرار می‌‌گیرند:

میانگین – مقدار متوسط
میانه – مقدار نقطه میانی
مد – رایج‌ترین مقدار

میانگین، میانه و مد تکنیک‌هایی هستند که اغلب در یادگیری ماشینی استفاده می‌شوند، بنابراین درک مفهوم پشت آن‌ها مهم است.
مثال: سرعت 15 خودرو به صورت [55, 70, 63, 48, 66, 40, 77, 35, 80, 55, 72, 69, 55, 44, 50] ثبت شده است. میانگین، میانه و رایج‌ترین مقدار سرعت چیست؟
برای محاسبه میانگین، مجموع همه مقادیر را بیابید و مجموع را بر تعداد مقادیر تقسیم کنید. می‌توانید برای یافتن میانگین سرعت از کتابخانه NumPy و دستور ()mean استفاده کنید. مقدار میانه مقداری است که در وسط قرار دارد، پس از اینکه همه مقادیر را مرتب کردید. پیش از ‌آنکه بتوانید میانه را پیدا کنید، مهم است که اعداد مرتب شوند. اگر دو عدد در وسط وجود داشت، مجموع آن اعداد را بر دو تقسیم کنید. برای پیدا کردن مقدار میانه از کتابخانه NumPy و دستور ()median استفاده می‌شود. مقدار مد مقداری است که بیشتر دفعات ظاهر می‌شود. از ماژول SciPy و دستور ()mode می‌توانید برای پیدا کردن این مقدار استفاده کنید. شکل ۱ نحوه محاسبه میانگین، میانه و مد را نشان می‌دهد.

**شکل ۱) نحوه محاسبه میانگین، میانه و مد**

انحراف معیار و واریانس
انحراف معیار و واریانس اصطلاحاتی هستند که اغلب در یادگیری ماشینی استفاده می‌شوند، بنابراین مهم است که بدانیم چگونه محاسبه می‌شوند و مفهوم پشت آن‌ها چیست.
انحراف معیار عددی است که میزان پراکندگی مقادیر را توصیف می‌کند. انحراف معیار پایین به این معنی است که بیشتر اعداد به مقدار میانگین (متوسط) نزدیک هستند. انحراف معیار بالا به این معنی است که مقادیر در محدوده وسیع‌تری پخش می‌شوند.
ماژول NumPy روشی برای محاسبه انحراف استاندارد دارد. جهت محاسبه انحراف استاندارد، از دستور std () استفاده می‌شود.

واریانس
واریانس عدد دیگری است که میزان پراکندگی مقادیر را نشان می‌دهد. در واقع، اگر جذر واریانس را بگیرید، انحراف معیار به دست می‌آید. یا برعکس، اگر انحراف معیار را در خودش ضرب کنید، واریانس حاصل می‌شود.
برای محاسبه واریانس باید به صورت زیر عمل کنید:

میانگین مقادیر را پیدا کنید. 2. برای هر مقدار، اختلاف از میانگین بیابید. 3. برای هر اختلاف، مقدار مربع را پیدا کنید. 4. واریانس، میانگین تعداد این مجذور اختلافات‌ها است.
از دستور ()var ماژول NumPy می‌توانید برای یافتن واریانس استفاده کنید.

صدک ها
از صدک ها در آمار استفاده می‌شود تا عددی را به شما بدهند که مقداری را توصیف می‌کند که درصد معینی از مقادیر کمتر از آن است. فرض کنید مجموعه‌ای از سنین همه مردمی که در یک خیابان زندگی می‌کنند به صورت مثال نشان داده شده در شکل 2 است.
صدک 60 چیست؟ پاسخ 2/14 است، یعنی 60 درصد افراد 2/14 سال یا کمتر هستند. ماژول NumPy روشی برای یافتن صدک مشخص شده دارد. از دستور ()percentile ماژول NumPy می‌توانید برای یافتن واریانس استفاده کنید. شکل ۲ نحوه محاسبه انحراف معیار، واریانس و صدک را نشان می‌دهد.

**شکل ۲) چگونگی محاسبه انحراف معیار، واریانس و صدک**

5/5 (1 دیدگاه)

برچسب ها:

شماره 261 - دی 1401

آخرین خبر

مفاهیم پایه یادگیری ماشین در پایتون

دیدگاه ها

دیدگاهتان را بنویسید لغو پاسخ

جدیدترین مقالات علمی و فنی

گزارش ویژه‌ی این ماه

گزارش های کوتاه ماهنامه

لینک های مرتبط

ثبت نام

بازیابی رمز عبور

آخرین خبر

مفاهیم پایه یادگیری ماشین در پایتون

دیدگاه ها

دیدگاهتان را بنویسید لغو پاسخ

جدیدترین مقالات علمی و فنی

گزارش ویژه‌ی این ماه

گزارش های کوتاه ماهنامه

لینک های مرتبط

ورود

ثبت نام

بازیابی رمز عبور