این مقاله بهعنوان پنجمین نوشته آموزشی از مجموعه مقالات هوش مصنوعی در سلامت (AI-based Health)، با استناد به مراجع علمی معتبر با هدف آموزش دانشجویان، فارغالتحصیلان، شاغلان و علاقهمندان حوزه مهندسی پزشکی با رویکرد آنالیز تصاویر پزشکی نوشته شده است. ما در این مطالعه، با اقتباس از محتوای مقاله «یادگیری ماشین برای تصویربرداری پزشکی» (با برخورداری از 837 استناد از سال 2017 تاکنون) نوشته دکتر بردلی اریکسون از دانشگاه مایوکلینیک آمریکا (رتبه اول بیمارستانهای جهان طبق رتبه بندی معتبر USNEWS در سال 2022) به مفاهیم اولیه و کاربردی یادگیری ماشین در آنالیز دادههای پیکسلی پزشکی (تصاویر دوبعدی پزشکی) میپردازیم و در انتها، منابع معتبری که به آن استناد کردهایم را مورد بررسی قرار خواهیم داد تا در صورت تمایل به مطالعه بیشتر، به راحتی آدرس دهی شده و قابل دسترس باشند. هدف اصلی ورود به حوزه الگوریتمهای یادگیری ماشین در پیشگیری، خودارزیابی، غربالگری، شناسایی، تشخیص، پیشبینی و کنترل بیماریها از طریق سیستمهای تصویربرداری پزشکی در دنیای واقعی است. این مقاله با دسترسی آزاد در ماهنامه «مهندسی پزشکی و تجهیزات آزمایشگاهی» منتشر شده که طبق مفاد آن هرگونه استفاده غیر تجاری تنها در صورتی مجاز است که به اثر اصلی به نحو مقتضی (محمدرضا سرایی و صبا رحمانی، ماهنامه مهندسی پزشکی و تجهیزات آزمایشگاهی، 1401) استناد و ارجاع داده شده باشد.
یادگیری ماشین (Machine Learning) یک زمینه تخصصی هیجان انگیز در علوم و مهندسی کامپیوتر با کاربرد میانرشتهای است. این تخصص، یکی از شاخههای هوش مصنوعی (Artificial Intelligence) به شمار میرود، زیرا امکان استخراج الگوهای معنادار (Feature Extraction) از مثالها را فراهم میکند که جزو هوش انسانی است. جذابیت داشتن کامپیوتری که وظایف تکراری و بهخوبی تعریف شده را انجام میدهد واضح است. کامپیوترها یک وظیفه معین را بهطور مداوم و خستگیناپذیر انجام میدهند. با اینحال، این وظیفه در ابعاد و حجم بالا، کمتر برای انسان صادق است. اخیراً، ماشینها توانایی یادگیری و حتی تسلط بر کارهایی را نشان دادهاند که تصور میشد بسیار پیچیده هستند. این امر نشان میدهد که الگوریتمهای یادگیری ماشین اجزای بالقوه مفیدی از سیستمهای تشخیص و تصمیمگیری به کمک کامپیوتر هستند. حتی هیجانانگیزتر این است که در برخی موارد، به نظر میرسد کامپیوترها قادر به مشاهده الگوهایی هستند که فراتر از درک انسان است. این کشف منجر به علاقه قابل توجه و افزایش یافته زمینه یادگیری ماشین شده است، بهویژه اینکه چگونه میتوان آن را در تصاویر پزشکی اعمال کرد. از آنجایی که محصولات تجاری انحصاری هستند، تعیین اینکه چه تعداد از محصولات مجوز داده شده توسط سازمان غذا و دارو آمریکا (FDA) از الگوریتمهای یادگیری ماشین استفاده میکنند دشوار است، اما نتایج تحلیل بازار نشان میدهد که این یک حوزه در حال رشد بسیار مهم است. تشخیص به کمک کامپیوتر که با استفاده از الگوریتمهای یادگیری ماشین انجام میشود، میتواند به پزشکان در تفسیر یافتههای تصویربرداری پزشکی (Medical Imaging) و کاهش زمان تفسیر کمک کند. این الگوریتمها برای چندین وظیفه چالشبرانگیز نظیر بخشبندی آمبولی ریه با آنژیوگرافی توموگرافی کامپیوتری، تشخیص پولیپ با کولونوسکوپی مجازی درزمینه سرطان روده بزرگ، تشخیص سرطان سینه با ماموگرافی، بخشبندی تومور مغزی با تصویربرداری رزونانس مغناطیسی و تشخیص وضعیت شناختی مغز یا تشخیص بیماریهای عصبی با تصویربرداری تشدید رزونانس مغناطیسی عملکردی، استفاده شدهاند.
یادگیری ماشین به چه معناست و/یا چگونه میتوان از آن در تحلیل و تفسیر تصاویر پزشکی استفاده کرد. تعریف زیر یک تعریف کلی از یادگیری ماشین است:
اگر یک الگوریتم یادگیری ماشین برای مجموعهای از دادهها (در مثال ما، تصاویر تومور مغزی) و برخی اطلاعات درباره این دادهها (در مثال ما، تومورهای خوشخیم یا بدخیم) اعمال شود، سپس سیستم الگوریتم میتواند از دادههای آموزشی بیاموزد و آموختههای خود را برای پیشبینی اعمال کند؛ (در مثال ما، اینکه آیا یک تصویر متفاوت بافت تومور خوشخیم یا بدخیم را نشان میدهد- شکل ۱). اگر سیستم الگوریتم پارامترهای خود را طوری بهینه کند که عملکرد آن بهبود یابد (یعنی موارد تست بیشتری بهدرستی تشخیص داده شوند) آنگاه سیستم در حال یادگیری آن وظیفه در نظر گرفته میشود.
شکل 1 – توسعه مدل یادگیری ماشین و مدل کاربردی برای وظایف طبقهبندی تصاویر پزشکی. برای آموزش، سیستم الگوریتم یادگیری ماشین از مجموعهای از تصاویر ورودی برای شناسایی ویژگیهای تصویر استفاده میکند که در صورت استفاده، منجر به طبقهبندی صحیح تصویر (یعنی نشان دادن تومور خوشخیم یا بدخیم) در مقایسه با برچسبهای ارائه شده برای تصویر میشود. این تصاویر ورودی (ب) برای پیشبینی، زمانی که سیستم نحوه طبقهبندی تصاویر را آموخت، مدل آموختهشده روی تصاویر جدید اعمال میشود تا در شناسایی نوع تومور کمک کند.
یادگیری ماشین در حال حاضر در بسیاری از حوزههای خارج از پزشکی به کار میرود و نقشی محوری در وظایفی مانند تشخیص گفتار و ترجمه بین زبانها (Natural Language Processing)، مسیریابی خودکار وسایل نقلیه (Autonomous Driving System) و سیستمهای توصیهگر محصول به مشتری (Product Recommendation System) دارد. برخی از این وظایف پیشتر امکانپذیر نبودند و پیشرفتهای اخیر در یادگیری ماشین، آن را ممکن ساخته است. در گذشته، یادگیری ماشین به ورودی ساختاریافتهای نیاز داشت و برخی از تکنیکها در صورت عدم وجود یک نقطه از داده، امکان یادگیری موفقیتآمیزی را فراهم نمیکردند. الگوریتمهای جدیدتر میتوانند بهخوبی حذفیات در دادهها را بپذیرند و در برخی موارد، سیستم میتواند بهطور هدفمند حذفیات در دادهها را در مرحله یادگیری ایجاد کند تا الگوریتم قویتر شود. الگوریتمهای جدید، همراه با افزایش قابل توجه عملکرد محاسباتی و دادهها، منجر به علاقه مجدد به یادگیری ماشین شده است.
تعاریف اولیه
چندین اصطلاح رایج در یادگیری ماشین وجود دارد که ممکن است برای مخاطبین آشنا نباشد. فهرست عبارات کلیدی زیر ممکن است به درک نحوه عملکرد یادگیری ماشین کمک کند.
طبقهبندی یا دستهبندی یا کلاسبندی (Classification): تخصیص یک کلاس (Class) یا برچسب (Label/Target) به گروهی از دادههای ورودی نظیر پیکسلها در تصاویر پزشکی (در مثال ما، پیکسلهایی که بهعنوان تومور با استفاده از الگوریتم بخشبندی برچسبگذاری شدهاند). اگر بخشبندی برای علامتگذاری بخشی از تصویر بهعنوان «مغز غیرعادی» استفاده شده باشد، طبقهبندی کننده ممکن است سعی کند تعیین کند که آیا قسمت مشخصشده نشاندهنده بافت خوشخیم یا بدخیم است.
مدل (Model): مجموعهای از وزنها یا نقاط تصمیمگیری است که توسط یک سیستم یادگیری ماشین فراخوان میشود. پس از یادگیری، میتوان مدل را به یک مثال ناشناخته اختصاص داد تا پیشبینی کند که آن مثال متعلق به کدام کلاس است.
الگوریتم (Algorithm): مجموعهای از مراحل انجام شده برای ایجاد مدلی است که برای پیشبینی دقیقترین کلاسها از ویژگیهای نمونههای آموزشی استفاده میشود.
دادههای برچسبگذاری شده (Labeled Data): مجموعهای از مثالها (نظیر تصاویر پزشکی)، که هرکدام «پاسخ» صحیح دارند. برای برخی از کارها، این پاسخ ممکن است مرز صحیح یک تومور باشد، و در موارد دیگر، ممکن است این باشد که آیا سرطان وجود دارد یا نوع سرطانی که ضایعه نشان میدهد.
مجموعه داده آموزش (Train Data): مرحلهای که طی آن به سیستم الگوریتم یادگیری ماشین، دادههای نمونه برچسب دار با پاسخها (یعنی برچسبها) داده میشود. بهعنوان مثال، نوع تومور یا مرز صحیح یک ضایعه. مجموعه وزنها یا نقاط تصمیمگیری برای مدل تا زمانی که هیچ بهبود قابلتوجهی در عملکرد حاصل نشود، بروز رسانی میشود.
مجموعه داده اعتبار سنجی (Validation Data): مجموعه نمونههایی که در طول آموزش استفاده میشوند.
مجموعه داده تست (Test Data): در برخی موارد، مجموعه سومی از نمونهها برای آزمایش «دنیای واقعی» استفاده میشود. از آنجا که سیستم الگوریتم برای بهبود عملکرد (Performance-Boosting) با مجموعه داده اعتبار سنجی تکرار میشود، ممکن است ویژگیهای منحصربهفرد مجموعه آموزشی را بیاموزد. با عملکرد خوب در یک مجموعه تست «دیده نشده» میتوان اطمینان حاصل کرد که الگوریتم پاسخهای صحیح را در دنیای واقعی به دست میدهد. توجه داشته باشید که گروههای مختلف گاهی اوقات از اعتبارسنجی برای تست استفاده میکنند و بالعکس.
گره (Node): بخشی از یک شبکه عصبی که شامل دو یا چند ورودی و یک تابع فعالسازی (Activation Layer) است. تابع فعالسازی معمولاً ورودیها را جمع میکند و سپس از نوعی تابع (Function) و آستانه (Threshold) برای تولید خروجی استفاده میکند.
لایه (Layer): مجموعهای از گرهها که خروجیها (لایه بعدی مگر اینکه لایه خروجی باشد) را از یک یا چند ورودی (لایه قبلی مگر اینکه لایه ورودی باشد) محاسبه میکند.
وزن (Weight): هر ویژگی ورودی در مقداری یا وزن ضرب میشود. این مورد تحت عنوان «وزن دادن به ویژگی ورودی» نامیده میشود. در طول آموزش، وزنهها بهروز میشوند تا بهترین مدل پیدا شود. الگوریتمهای یادگیری ماشین را میتوان بر اساس سبکهای آموزشی طبقهبندی کرد:
یادگیری نظارتشده (Supervised Learning)، بدون نظارت (Unsupervised Learning) و یادگیری تقویتی (Reinforcement Learning).
در مثال ما، یادگیری نظارتشده شامل کسب تجربه با استفاده از تصاویر نمونههای تومور مغزی است که حاوی اطلاعات مهمی هستند (بهویژه برچسبهای «خوشخیم» و «بدخیم») و استفاده از تخصص بهدست آمده برای پیشبینی نئوپلازی خوشخیم و بدخیم روی دادههای آزمایشی تصاویر دیده نشده تومور مغزی). در این مورد، به سیستم، چندین تصویر تومور مغزی داده میشود که روی آن تومورها بهعنوان خوشخیم یا بدخیم برچسبگذاری شدهاند. سپس، سیستم با تلاش برای اختصاص برچسبهای خوشخیم و بدخیم به یافتههای روی تصاویر جدید (که مجموعه دادههای آزمایشی هستند)، تست میشود.
نمونههایی از الگوریتمهای یادگیری نظارتشده شامل ماشین بردار پشتیبان (Support Vector Machine)، درخت تصمیم (Decision Tree)، رگرسیون خطی (Linear Regression)، رگرسیون لجستیک (Logistic Regression)، بیز ساده (Naive Bayes)، نزدیکترین همسایه کا (K-Nearest Neighbors)، جنگل تصادفی (Random Forest)، گرادیان تقویتی (Gradient Descent) و شبکههای عصبی (Artificial Neural Networks) هستند.
با یادگیری بدون نظارت، دادهها (بهعنوان مثال، تصاویر تومور مغز) با هدف تفکیک تصاویر به گروهها پردازش میشوند (بهعنوان مثال، تصاویری که تومورهای خوشخیم و آنهایی که تومورهای بدخیم را نشان میدهند). تفاوت اصلی این است که این وظیفه بدون ارائه اطلاعات در مورد گروهها به سیستم، انجام میشود. سیستم تعیین میکند که چند گروه وجود دارد و چگونه آنها را تفکیک میکند.
نمونههایی از الگوریتم یادگیری بدون نظارت عبارتند از:
یادگیری تقویتی نظیر یادگیری نظارتشده، با طبقهبندی کنندهای شروع میشود که با استفاده از دادههای برچسبگذاری شده ساخته شده است. سپس به سیستم دادههای بدون برچسب داده میشود، و سعی میکند تا با توصیف بهتر این دادهها، طبقهبندی را بیشتر بهبود بخشد. نمونههایی از سیستمهای یادگیری تقویتی شامل سیستمهای Maja و Teaching-Box است.
بخشبندی یا ناحیه بندی یا تقسیمبندی (Segmentation): تقسیم تصویر به بخشهای مختلف؛ بهعنوان مثال، تقسیمبندی تومور فرآیندی است برای تعیین محل شروع و توقف تومور. با این حال، این لزوماً شامل تصمیمگیری در مورد اینکه آنچه تومور را در برمیگیرد، نمیشود. هدف این مرحله، این است که مشخص کنیم ضایعه از کجا شروع میشود و در کجا متوقف میشود. این تکنیک معمولاً با طبقهبندی به کار گرفته میشود که تعیین میکند بخشی از تصویر تومور تقویتکننده و بخش دیگری تومور غیر تقویتکننده را نشان میدهد.
شکل 2، نمودارهای کمتر و بیشازحد مناسب بودن را نشان میدهد. عدم تناسب، زمانی اتفاق میافتد که تناسب برای توضیح واریانس دادهها بسیار ساده باشد و الگو را نشان ندهد. یک تناسب مناسب، الگو را به تصویر میکشد، اما آنقدر انعطافناپذیر یا منعطف نیست که دادهها را جا دهد. تطبیق بیشازحد، زمانی اتفاق میافتد که تناسب بیشازحد خوب باشد که درست باشد و احتمالاً با نویز در دادهها تناسب داشته باشد. محورها بهطورکلی دارای برچسب ویژگی 1 و ویژگی 2 هستند تا دو عنصر اول بردار ویژگی را منعکس کنند.
بیش برازش (Overfitting): هنگامیکه یک طبقهبندی، برای مجموعه آموزشی بیشازحد مناسب است؛ در واقع این اتفاق مفید نیست زیرا تنها سیستم با آن نمونهها آشنا است. بهطورکلی، مجموعه آموزشی باید شامل مثالهای بسیار بیشتری از تعداد ضرایب یا متغیرهای استفادهشده توسط الگوریتم یادگیری ماشین باشد (شکل 2).
کم برازش (Underfitting): هنگامیکه یک طبقهبندی، برای مجموعه آموزشی کمتر از حد مناسب است. در واقع این اتفاق نیز همانند بیش برازش سودمند نمینی است زیرا سیستم با نمونههای کمتری آشنا است.
منابع علمی استناد شده:
1- “From $600 M to $6 billion, artificial intelligence systems poised for dramatic market expansion in healthcare,” Frost & Sullivan website, [Online]. Available: http://www.frost.com/news/press-releases/600-m-6-billion-artificial-intelligence-systems-poised-dramatic-market-expansion-healthcare/. [Accessed 02 09 2016].
2- U. J. Schoepf and P. Costello, “CT angiography for diagnosis of pulmonary embolism: state of the art,” Radiology, vol. 230, no. 2, p. 329–337, 2004.
3- U. J. Schoepf, A. C. Schneider, M. Das, S. A. Wood, J. I. Cheema and P. Costello, “Pulmonary embolism: computer-aided detection at multidetector row spiral computed tomography,” J. Thorac. Imaging, vol. 22, no. 4, p. 319–323, 2007.
4- M. M. Dundar, G. Fung, B. Krishnapuram and R. B. Rao, “Multiple-instance learning algorithms for computer-aided detection,” IEEE Trans. Biomed. Eng., vol. 55, no. 3, p. 1015–1021, 2008.
5- R. M. Summers, “Improving the accuracy of CTC interpretation: computer-aided detection,” Gastrointest. Endosc. Clin. N. Am., vol. 20, no. 2, p. 245–257, 2010.
6- H. Yoshida and J. Näppi, “CAD in CT colonography without and with oral contrast agents: progress and challenges,” Comput. Med. Imaging Graph., vol. 31, no. 4-5, p. 267–284, 2007.
7- S. Bauer, R. Wiest, L. P. Nolte and M. Reyes, “A survey of MRI-based medical image analysis for brain tumor studies,” Phys. Med. Biol., vol. 58, no. 13, p. R97–R129, 2013.
8- T. M. Mitchell, S. V. Shinkareva and A. Carlson, “Predicting human brain activity associated with the meanings of nouns,” Science, vol. 320, no. 5880, p. 1191–1195, 2008.
9- K. Suzuki, “Pixel-based machine learning in medical imaging,” Int. J. Biomed. Imaging, vol. 2012, p. 792079, 2012.
10- I. Kononenko, “Machine learning for medical diagnosis: history, state of the art and perspective,” Artif. Intell. Med., vol. 23, no. 1, p. 89–109, 2001.
11- P. Flach, Machine learning: the art and science of algorithms that make sense of data, Cambridge: Cambridge University Press, 2012.
12- N. Cristianini and J. Shawe-Taylor, An introduction to support vector machines and other kernel-based learning methods, Cambridge: Cambridge University Press, 2000.
13- J. R. Quinlan, “Induction of decision trees,” Mach. Learn., vol. 1, no. 1, p. 81–106, 1986.
14- G.-A. F. Seber and A. J. Lee, Linear regression analysis, 2nd ed., New York: Wiley, 2012.
15- D. W. Hosmer and L. Stanley, Applied logistic regression, 2nd ed., New York: Wiley, 2000.
16- C. Y. Zhou and Y. Q. Chen, “Improving nearest neighbor classification with cam weighted distance,” Pattern Recognit., vol. 39, no. 4, p. 635–645, 2006.
17- L. Breiman, “Random forest,” Mach. Learn., vol. 45, no. 1, p. 5–32, 2001.
18- K. Hornik, H. Kurt, S. Maxwell and W. Halbert, “Multilayer feedforward networks are universal approximators,” Neural Netw., vol. 2, no. 5, p. 359–366, 1989.
19- K. Krishna and M. M. Narasimha, “Genetic K-means algorithm,” IEEE Trans. Syst. Man. Cybern. B. Cybern., vol. 29, no. 3, p. 433–439, 1999.
20- D. Comaniciu and P. Meer, “Mean shift: a robust approach toward feature space analysis,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 24, no. 5, p. 603–619, 2002.
21- D. Dueck and B. J. Frey, Non-metric affinity propagation for unsupervised image categorization. IEEE 11th International Conference on Computer Vision, New York: Institute of Electrical and Electronics Engineers, 2007, p. 1–8.
22- D. Birant and A. Kut, “ST-DBSCAN: an algorithm for clustering spatial-temporal data,” Data Knowl. Eng., vol. 60, no. 1, p. 208–221, 2007.
23- S. J. Roberts, D. Husmeier, I. Rezek and W. Penny, “Bayesian approaches to Gaussian mixture modeling,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 20, no. 11, p. 1133–1142, 1998.
24- R. Chellappa and A. K. Jain, Markov random fields: theory and application, Boston: Academic Press, 1993.
25- J. C. Dunn, “A fuzzy relative of the ISODATA process and its use in detecting compact well-separated clusters,” J. Cybern., vol. 3, no. 3, p. 32–57, 1973.
26- J. C. Bezdek, R. Ehrlich and W. Full, “FCM: the fuzzy C-means clustering algorithm,” Comput. Geosci., vol. 10, no. 2-3, p. 191–203, 1984.
27- M. Nixon, M. S. Nixon and A. S. Aguado, Feature extraction & image processing for computer vision, London: Academic Press, 2012.
28- Y. Wang and W. Yuhang, Spatial feature extraction algorithms (master’s thesis), Hanover: Dartmouth College, 2005.
دیدگاه ها