این مقاله بهعنوان ششمین مطلب آموزشی از مجموعه مقالات هوش مصنوعی در سلامت (AI-based Health)، با استناد به مراجع علمی معتبر با هدف آموزش دانشجویان، فارغ التحصیلان، شاغلان و علاقهمندان حوزه مهندسی پزشکی با رویکرد آنالیز تصاویر پزشکی نوشته شده است. ما در این مطالعه، با اقتباس از محتوای مقاله «یادگیری ماشین برای تصویربرداری پزشکی» (با برخورداری از 837 استناد از سال 2017 تاکنون) نوشته دکتر بردلی اریکسون از دانشگاه مایوکلینیک آمریکا (رتبه اول بیمارستانهای جهان طبق رتبهبندی معتبر USNEWS در سال 2022) به مفاهیم اولیه و کاربردی یادگیری ماشین در آنالیز دادههای پیکسلی پزشکی (تصاویر دوبعدی پزشکی) میپردازیم و در انتها، منابع معتبری که به آن استناد کردهایم را مورد بررسی قرار خواهیم داد تا در صورت تمایل به مطالعه بیشتر، به راحتی آدرسدهی شده و قابل دسترس باشند. هدف اصلی ورود به حوزه الگوریتمهای یادگیری ماشین در پیشگیری، خودارزیابی، غربالگری، شناسایی، تشخیص، پیشبینی و کنترل بیماریها از طریق سیستمهای تصویربرداری پزشکی در دنیای واقعی است. این مقاله با دسترسی آزاد در این ماهنامه «مهندسی پزشکی و تجهیزات آزمایشگاهی» منتشر شده که طبق مفاد آن هرگونه استفاده غیرتجاری تنها در صورتی مجاز است که به اثر اصلی به نحو مقتضی (محمدرضا سرایی و صبا رحمانی، ماهنامه مهندسی پزشکی و تجهیزات آزمایشگاهی، 1401) استناد و ارجاع داده شده باشد.
همانطور در مقاله قبلی ذکر شد، یادگیری ماشینی (ML) نوعی هوش مصنوعی (AI) است که به برنامههای کامپیوتری اجازه میدهد تا در پیشبینی نتایج دقیقتر شوند، بدون اینکه بهصراحت برای این کار برنامهریزی شده باشند. الگوریتمهای یادگیری ماشین از دادههای گذشته بهعنوان ورودی برای پیشبینی مقادیر خروجی جدید استفاده میکنند. اکنون به ادامه تعاریف و مفاهیم پایه یادگیری ماشین پیرو مقاله قبلی میپردازیم.
ویژگیها: مقادیر عددی که از دل نمونههای مورد مطالعه استخراج میشوند تا نمونهها را تمثیل کنند. در خصوص تصاویر پزشکی یا دادههای پیکسلی، ویژگیها میتوانند مقادیر مورفولوژیکی یا بافتی تصویر (نظیر کنتراست، انرژی، آنتروپی، همبستگی، هموژنیتی و عدم شباهت)، مقادیر واقعی پیکسل، نقاط قوت لبه، تغییرات در مقادیر پیکسل در یک منطقه یا مقادیر دیگر باشند. همچنین میتوان از ویژگیهای غیر تصویری (دادههای ساختاریافته عددی یا رستهای قابلتبدیل به عدد) مانند سن و جنسیت بیمار و اینکه آیا نتایج آزمایشگاهی مثبت یا منفی دارد، استفاده کرد. وقتی همه این ویژگیها برای مثال ترکیب شوند، به آن بردار ویژگی یا بردار ورودی گفته میشود.
محاسبات ویژگیها: اولین مرحله در یادگیری ماشین پس از آمادهسازی اولیه دادهها، استخراج ویژگیهایی است که حاوی اطلاعاتی هستند که برای تصمیمگیری استفاده میشود. انسانها ویژگیهای مهمی را بهصورت بصری با قدرت بینایی یاد میگیرند (نظیر دورههای آموزشی مهندسی پزشکی). بااینحال، محاسبه یا نمایش یک ویژگی میتواند چالش برانگیز باشد. بهعنوان مثال، ویژگیهای تصویر باید در برابر تغییرات نویز، شدت و زوایای چرخش قوی باشند، زیرا اینها برخی از رایجترین تغییراتی هستند که هنگام کار با دادههای تصویربرداری پزشکی مشاهده میشوند.
انتخاب ویژگی: یکی از مراحل مهم اولیه در آنالیز دادههای مختلف پزشکی توسط یادگیری ماشین، انتخاب ویژگیهای مهم و تأثیرگذار است. چرا که داشتن ویژگیهای زیاد میتواند بهجای یادگیری اساس واقعی یک تصمیم، منجر به چالش «بیشازحد برازش» شود. به فرآیند انتخاب زیرمجموعه ویژگیهایی که باید برای انجام بهترین پیشبینیها مورداستفاده قرار گیرد، «انتخاب ویژگی» میگویند. روشهای مختلفی در این زمینه وجود دارد. بهعنوان مثال، یکی از تکنیکهای انتخاب ویژگی، جستجوی همبستگی بین ویژگیها است: داشتن تعداد زیادی ویژگی همبسته احتمالاً به این معنی است که برخی از ویژگیها و تعداد ویژگیها را میتوان بدون از دست رفتن اطلاعات کاهش داد. اما این مورد نیز در مسائل پیچیده نمیتواند آنچنان مؤثر باشد از اینرو از روشهای مختلف دیگر استفاده میشود.
آموزش و آزمایش (فرآیند یادگیری و تست): یادگیری ماشین تحت نظارت به این دلیل نامیده میشود که نمونههایی از هر نوع چیزی که باید آموخته شود، مورد نیاز است. بهراحتی میتوان متوجه شد که داشتن مثالهای بسیار کم باعث میشود دقت پیشبینی کمتری داشته باشد. تعداد دقیق نمونهها در هر کلاس، بهشدت به متمایز بودن کلاسها بستگی دارد. بهعنوان مثال، اگر میخواهید سیستمی برای پیشبینی تومور در تصاویر پزشکی طراحی کنید برای تصاویر دارای تومور از کلاس 1 و برای تصاویر سالم از کلاس 2 استفاده کنید.
یکی از راههای رایج برای تخمین دقت سیستم یادگیری ماشین (زمانی که مجموعه داده محدودی وجود دارد)، استفاده از تکنیک اعتبارسنجی متقابل (K-Fold Cross Validation) است. با این تکنیک، ابتدا زیرمجموعهای از نمونهها برای آموزش انتخاب میشوند و نمونههای باقیمانده برای استفاده در مرحله تست کنار گذاشته میشوند. بدین معنا که آموزش ادامه مییابد و وضعیت آموخته شده تست میشود. سپس این فرآیند تکرار میشود اما با مجموعهای متفاوت از نمونههای آموزشی و تست که از مجموعه کامل نمونههای آموزشی انتخاب شدهاند. اگرچه اعتبارسنجی متقاطع روش خوبی برای تخمین دقت در دنیای واقعی است، اما یک محدودیت دارد که هر مجموعه از تکرارهای آموزشی و تست منجر به مدل متفاوتی میشود، بنابراین هیچ مدل واحدی وجود ندارد که بتوان در پایان از آن استفاده کرد.
ارزیابی عملکرد: این مرحله یکی از گامهای اساسی در انتخاب بهترین و کارآمدترین مدل پیشبینی است. معیارهای ماتریس درهمریختگی (Confusion Matrix)، دقت (Accuracy)، صحت (Precision)، حساسیت یا بازیابی (Sensitivity/Recall)، منحنی مشخصه عملکرد (ROC-AUC Curve)، و امتیاز اف (F1-Score) در حالت 10-Fold Cross Validation از جمله روشهای مرسوم ارزیابی در تحقیقات انجام یافته هستند که در پایین شرح داده شده است.
ماتریس درهمریختگی: این معیار دارای چهار مقدار اندازهگیری شامل True Positive, False Positive, True Negative و False Negative است. بهعنوان مثال، مقدار TP یعنی مراجعهکننده مشکوک یا محتمل و مدل بهدرستی همین را پیشبینی میکند. مقدار FP یعنی مراجعهکننده غیر مشکوک یا سالم اما مدل، مورد را مشکوک یا محتمل تشخیص میدهد. مقدار TN مراجعهکننده غیر مشکوک یا سالم است و مدل بهدرستی همین را پیشبینی میکند، و مقدار FN مراجعهکننده مشکوک یا محتمل است اما مدل، مورد را غیر مشکوک یا سالم شناسایی میکند. در مسائل پزشکی هر چه مقدار FN از FP کمتر باشد، مدل بهتری است.
دقت و صحت: این معیار بر اساس خروجی ماتریس درهمریختگی طبق فرمول 1 و فرمول 2 محاسبه میشود. هر چه خروجی به مقدار 100 نزدیکتر باشد، مدل بهتری است.
منحنی مشخصه عملکرد: این معیار بر اساس مقادیر Sensitivity و Specificity طبق فرمول 3 و فرمول 4 محاسبه میشود. هر چه منحنی به مقدار 100 نزدیکتر باشد، مدل بهتری است.
مقدار: F1-Score این معیار به مقادیر Precision و Sensitivity وابسته است و خروجی آن بین بازه [1 0] است که طبق فرمول 5 محاسبه میشود.
پس از آشنایی با مفاهیم ابتدایی یادگیری ماشین نوبت به فراگیری الگوریتمها و مدلهای یادگیری ماشین برای وظایفی چون طبقهبندی، ناحیه بندی و غیره میرسد. الگوریتمهای زیادی برای انتخاب بهترین وزنها برای ویژگیها وجود دارد که به دو دسته کلاسیک
(Traditional Machine Learning) و مدرن (Novel Machine Learning) یا یادگیری عمیق (Deep Learning) تقسیمبندی میشوند.
از جمله تکنیکهای مدرن یادگیری ماشین میتوان به الگوریتمهای یادگیری عمیق، بهعنوان مثال در آنالیز تصاویر پزشکی شبکههای عصبی پیچشی یا کانولوشنی ((Convolutional Neural Network (CNN) اشاره کرد (البته این موضوع خارج از بحث فعلی ما است). برخی از تکنیکهای کلاسیک یادگیری ماشین، شامل الگوریتمهای کا-نزدیکترین همسایه (K-Nearest Neighbor)، درخت تصمیم (Decision Tree)، بیزین (Naive Bayes)، ماشین بردار پشتیبان (Support Vector Machine)، رگرسیون لجستیک
(Logistic Regression) و شبکههای عصبی پیشخور
(Feed-Forward Neural Networks) است. که بهصورت زیر تعریف میشوند:
کا-نزدیک ترین همسایه: با این الگوریتم یک بردار ورودی (یعنی مجموعهای از ویژگیها برای یک شیء ناشناخته) با انتسابشی به مشابهترین کلاس یا کلاسها طبقهبندی میشود. تعداد همسایهها، یا اشیاء شناختهشدهای که به شیء نمونه نزدیکترین هستند، به کلاسهایی که شیء نمونه ممکن است به آنها تعلق داشته باشد، رأی میدهند. اگر «کا» برابر با 1 باشد، شیء مجهول بهسادگی به کلاس نزدیکترین همسایه اختصاص داده میشود. تابع تشابه، که تعیین میکند یک شیء نمونه تا چه حد به دیگری نزدیک است، میتواند فاصله اقلیدسی بین مقادیر بردار ورودی در مقابل مقادیر بردار برای نمونههای دیگر باشد. بااینحال، بسیار مهم است که نرمالسازی مقادیر در بردارهای ویژگی بهدرستی انجام شود.
الگوریتم درخت تصمیم: اکثر روشهای یادگیری ماشین یک نقطه ضعف مهم دارند: مقادیر استفادهشده در وزنها و توابع فعالسازی، معمولاً برای به دست آوردن اطلاعات تفسیرپذیر توسط انسان، قابل استخراج نیستند. درختان تصمیم مزیت قابل توجهی ارائه میدهند که قوانین قابل خواندن برای انسان را در مورد نحوه طبقهبندی یک نمونه ارائه میکنند. درختان تصمیم برای اکثر مردم آشنا هستند و معمولاً به شکل سؤالات بله یا خیر هستند. برای مثال، اینکه آیا یک مقدار عددی بالاتر از یک مقدار خاص است یا خیر؟. جنبه درخت تصمیم که برای یادگیری ماشین کاربرد دارد، جستجوی سریع بسیاری از ترکیبهای ممکن از نقاط تصمیم برای یافتن نقاطی است که در صورت استفاده، سادهترین درخت را با دقیقترین نتایج به دست میآورند. هنگامیکه الگوریتم اجرا میشود، حداکثر عمق (یعنی حداکثر تعداد نقاط تصمیمگیری) و حداکثر وسعتی که باید جستجو شود را تعیین میکند و مشخص میکند که داشتن نتایج صحیح در مقابل نقاط تصمیم بیشتر چقدر مهم است.
الگوریتم ماشین بردار پشتیبان: این الگوریتم دادههای ورودی را بهگونهای تبدیل میکند که وسیعترین صفحه یا بردار پشتیبان جداسازی بین دو کلاس را ایجاد کند. ماشینهای بردار پشتیبان امکان انتخاب انعطافپذیر درجهای را فراهم میکنند که فرد میخواهد صفحه جدایی وسیعی داشته باشد. این ماشینهای یادگیری اوایل دهه پیش اختراع شدند و دلیل محبوبیت بیشتر اخیر آنها اضافه کردن توابع پایه است که میتوانند با استفاده از روابط غیر خطی، نقاط را به ابعاد دیگر ترسیم کنند و در نتیجه نمونههایی را که بهصورت خطی نیستند، طبقهبندی کنند. قابلیت تفکیکپذیری الگوریتم ماشین بردار پشتیبان، مزیت بزرگی نسبت به سایر روشهای یادگیری ماشینی محسوب میشود.
الگوریتم رگرسیون لجستیک: این الگوریتم برای مسائل طبقهبندی استفاده میشود، در واقع یک تحلیل پیشبینی بر اساس مفهوم احتمال است. ما میتوانیم رگرسیون لجستیک را یک مدل رگرسیون خطی بنامیم، اما رگرسیون لجستیک از یک تابع هزینه پیچیدهتر استفاده میکند، این تابع هزینه را میتوان بهعنوان «تابع سیگموید» یا بهعنوان «تابع لجستیک» بهجای «تابع خطی» تعریف کرد.
الگوریتم بیزین: این الگوریتم یکی از قدیمیترین روشهای یادگیری ماشین است که بیانگر این است که احتمال یک رویداد، تابعی از رویدادهای مرتبط است. الگوریتم بیزین با اکثر الگوریتمهای یادگیری ماشین متفاوت است، زیرا از یک محاسبه برای تعریف رابطه بین مجموعه ویژگیهای ورودی و خروجی استفاده میشود. به اینترتیب، این روش شامل همان فرآیند آموزشی تکراری نیست که اکثر روشهای یادگیری ماشین دیگر شامل میشوند. این الگوریتم نیاز به آموزش و دادههای تست دارد، بنابراین مسائل مربوط به آموزش و تست دادهها همچنان اعمال میشود. از این الگوریتم بهجای الگوریتم بیزین ساده بهعنوان الگوریتم بیزین یاد میشود تا بر این نکته تأکید شود که همه ویژگیها مستقل از یکدیگر فرض میشوند.
الگوریتم شبکه عصبی پیشخور: یادگیری با شبکههای عصبی یک روش خوب الگوی یادگیری ماشین است. سه تابع زیر بخشهایی از طرح یادگیری این روش هستند. (الف) تابع خطا، میزان خوب یا بد بودن خروجی را برای مجموعهای از ورودیها اندازهگیری میکند. (ب) تابع جستجو، جهت و بزرگی را تعیین میکند. تغییر مورد نیاز برای کاهش تابع خطا. (ج) تابع بهروزرسانی، نحوه بهروزرسانی وزن شبکه را بر اساس مقادیر تابع جستجو تعریف میکند.
منابع علمی استناد شده:
1- “From $600 M to $6 billion, artificial intelligence systems poised for dramatic market expansion in healthcare,” Frost & Sullivan website, [Online]. Available: http://www.frost.com/news/press-releases/600-m-6-billion-artificial-intelligence-systems-poised-dramatic-market-expansion-healthcare/. [Accessed 02 09 2016].
2- U. J. Schoepf and P. Costello, “CT angiography for diagnosis of pulmonary embolism: state of the art,” Radiology, vol. 230, no. 2, p. 329–337, 2004.
3- U. J. Schoepf, A. C. Schneider, M. Das, S. A. Wood, J. I. Cheema and P. Costello, “Pulmonary embolism: computer-aided detection at multidetector row spiral computed tomography,” J. Thorac. Imaging, vol. 22, no. 4, p. 319–323, 2007.
4- M. M. Dundar, G. Fung, B. Krishnapuram and R. B. Rao, “Multiple-instance learning algorithms for computer-aided detection,” IEEE Trans. Biomed. Eng., vol. 55, no. 3, p. 1015–1021, 2008.
5- R. M. Summers, “Improving the accuracy of CTC interpretation: computer-aided detection,” Gastrointest. Endosc. Clin. N. Am., vol. 20, no. 2, p. 245–257, 2010.
6- H. Yoshida and J. Näppi, “CAD in CT colonography without and with oral contrast agents: progress and challenges,” Comput. Med. Imaging Graph., vol. 31, no. 4-5, p. 267–284, 2007.
7- S. Bauer, R. Wiest, L. P. Nolte and M. Reyes, “A survey of MRI-based medical image analysis for brain tumor studies,” Phys. Med. Biol., vol. 58, no. 13, p. R97–R129, 2013.
8- T. M. Mitchell, S. V. Shinkareva and A. Carlson, “Predicting human brain activity associated with the meanings of nouns,” Science, vol. 320, no. 5880, p. 1191–1195, 2008.
9- K. Suzuki, “Pixel-based machine learning in medical imaging,” Int. J. Biomed. Imaging, vol. 2012, p. 792079, 2012.
10- I. Kononenko, “Machine learning for medical diagnosis: history, state of the art and perspective,” Artif. Intell. Med., vol. 23, no. 1, p. 89–109, 2001.
11- P. Flach, Machine learning: the art and science of algorithms that make sense of data, Cambridge: Cambridge University Press, 2012.
12- N. Cristianini and J. Shawe-Taylor, An introduction to support vector machines and other kernel-based learning methods, Cambridge: Cambridge University Press, 2000.
13- J. R. Quinlan, “Induction of decision trees,” Mach. Learn., vol. 1, no. 1, p. 81–106, 1986.
14- G.-A. F. Seber and A. J. Lee, Linear regression analysis, 2nd ed., New York: Wiley, 2012.
15- D. W. Hosmer and L. Stanley, Applied logistic regression, 2nd ed., New York: Wiley, 2000.
16- C. Y. Zhou and Y. Q. Chen, “Improving nearest neighbor classification with cam weighted distance,” Pattern Recognit., vol. 39, no. 4, p. 635–645, 2006.
17- L. Breiman, “Random forest,” Mach. Learn., vol. 45, no. 1, p. 5–32, 2001.
18- K. Hornik, H. Kurt, S. Maxwell and W. Halbert, “Multilayer feedforward networks are universal approximators,” Neural Netw., vol. 2, no. 5, p. 359–366, 1989.
19- K. Krishna and M. M. Narasimha, “Genetic K-means algorithm,” IEEE Trans. Syst. Man. Cybern. B. Cybern., vol. 29, no. 3, p. 433–439, 1999.
20- D. Comaniciu and P. Meer, “Mean shift: a robust approach toward feature space analysis,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 24, no. 5, p. 603–619, 2002.
21- D. Dueck and B. J. Frey, Non-metric affinity propagation for unsupervised image categorization. IEEE 11th International Conference on Computer Vision, New York: Institute of Electrical and Electronics Engineers, 2007, p. 1–8.
22- D. Birant and A. Kut, “ST-DBSCAN: an algorithm for clustering spatial-temporal data,” Data Knowl. Eng., vol. 60, no. 1, p. 208–221, 2007.
23- S. J. Roberts, D. Husmeier, I. Rezek and W. Penny, “Bayesian approaches to Gaussian mixture modeling,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 20, no. 11, p. 1133–1142, 1998.
24- R. Chellappa and A. K. Jain, Markov random fields: theory and application, Boston: Academic Press, 1993.
25- J. C. Dunn, “A fuzzy relative of the ISODATA process and its use in detecting compact well-separated clusters,” J. Cybern., vol. 3, no. 3, p. 32–57, 1973.
26- J. C. Bezdek, R. Ehrlich and W. Full, “FCM: the fuzzy C-means clustering algorithm,” Comput. Geosci., vol. 10, no. 2-3, p. 191–203, 1984.
27- M. Nixon, M. S. Nixon and A. S. Aguado, Feature extraction & image processing for computer vision, London: Academic Press, 2012.
28- Y. Wang and W. Yuhang, Spatial feature extraction algorithms (master’s thesis), Hanover: Dartmouth College, 2005.
دیدگاه ها