معرفی پایگاه‌های داده در حوزه پزشکی، سلامت و بیولوژی

زنگ تحقیق

ورود یادگیری ماشین به حوزه پزشکی و بهداشت و درمان توجه زیادی را به خود جلب کرده است. همه جا صحبت از این است که یادگیری ماشین (Machine Learning) چطور موجب تحول و انقلاب در زمینه‌های گوناگون شده است. به لطف قدرت یادگیری و پردازش ماشین‌ها، حوزه مراقبت‌های بهداشتی و درمانی از آن زمینه‌هایی است که سرعت این تحول در آن به طرز چشمگیری بالاست. یافتن شغل در حوزه سلامت به عنوان متخصص این رشته احتمال بالایی دارد. در این تحقیق قصد داریم به معرفی پایگاه داده (دیتاست) در حوزه سلامت بپردازیم.
سازمان بهداشت جهانی بر اساس اولویت‌های حال حاضر حوزه سلامت در دنیا، داده‌های دیتاست را فراهم می‌کند. سازمان بهداشت جهانی امکان جستجوی آسان را برای مخاطبان خود به وجود آورده و علاوه بر داده‌هایی که در اختیار می‌گذارد، بینش خوبی نیز در مورد موضوعات گوناگون به دست می‌دهد.

CDC (مرکز کنترل و پیشگیری بیماری)
در این مرکز بهداشتی درمانی صرفاً داده‌های ایالات متحده قابل دسترس است. مرکز CDC از داده‌های دیتاست WONDER (داده آنلاین گسترده برای پژوهش‌های شیوع‌شناسی) استفاده می‌کند. قابلیت جستجو براساس موضوع، ایالت و عوامل دیگر در میان داده‌های این دیتاست وجود دارد.

Data.gov
این پایگاه داده، داده‌های حوزه بهداشت و درمان را در برمی‌گیرد، قابلیت جستجو داشته و مختص ایالات متحده است. داده‌های این دیتاست به منظور بهبود زندگی افرادی تنظیم شده‌اند که در ایالات متحده زندگی می‌کنند؛ با این حال اطلاعاتی که فراهم می‌آورد برای دیتاست‌های آموزشی دیگر که در حوزه تحقیقات یا سایر حوزه‌های بهداشت و درمان تعریف می‌شوند نیز مفید خواهد بود.

Re3Data
این دیتاست در حوزه بهداشت و درمان حاوی داده‌های بیش از ۲۰۰۰ موضوع پژوهشی در حوزه‌های مختلف است. با این‌که امکان استفاده از همه داده‌های دیتاست‌های موجود به صورت رایگان وجود ندارد، اما ساختارها به وضوح مشخص شده‌اند و جستجوی آسان (بر اساس این عوامل: قیمت، شرایط عضویت و محدودیت‌ها و موانع کپی‌رایت) در میان آن‌ها نیز امکان‌پذیر است.

CHDS (مطالعات بهداشت و رشد کودکی)
با استفاده از داده‌های دیتاست‌های CHDS می‌توان به تحقیق در مورد این موضوع پرداخت که سلامت و بیماری‌ها چگونه از نسلی به نسل دیگر منتقل می‌شوند. تحقیقاتی که بر اساس این داده‌ها انجام می‌گیرند تنها به بحث ژنتیکی این قضیه نمی‌پردازند و جنبه‌های اجتماعی، محیط زیستی و فرهنگی را نیز دربر می‌گیرند.

Kent Ridge
مجموعه‌ای از دیتاست‌های با ابعاد زیاد در حوزه زیست‌پزشکی را در برمی‌گیرد و بر داده‌های منتشرشده در مجلات (با موضوعات طبیعت، علم و …) متمرکز شده است.

Merck
داده‌های این دیتاست‌ها برای پرورش جریان یادگیری ماشین در حوزه کشف دارو (از طریق شبیه‌سازی نحوه تعامل مولکول‌ها با یکدیگر) به کار می‌روند.

SEER
در این مورد، داده‌های دیتاست‌ها که توسط دولت ایالات متحده فراهم شده‌اند، بر اساس گروه‌های جمعیت‌شناختی مرتب می‌شوند. قابلیت جستجو بر اساس سن، نژاد یا جنسیت در میان این داده‌ها وجود دارد.

1000 Genomes Project
این داده‌ها از ۲۵۰۰ نفر و ۲۶ گروه جمعیتی متفاوت به دست آمده‌اند. این دیتاست یکی از بزرگ‌ترین مخازن ژنوم در دسترس است و حاصل یک همکاری جهانی است. دسترسی به این داده‌ها از طریق سرویس‌های شبکه‌ای آمازون امکان‌پذیر خواهد بود.

Medicare
این سرویس دیتاست‌هایی را در اختیار قرار می‌دهد که مبتنی بر خدمات ارائه شده توسط مؤسسات طرف قرارداد Medicare هستند. می‌توان گفت بیشتر این داده‌ها مرتب بوده و بینش خوبی نسبت به بخش خدماتی و درمانی بیمارستان‌ها به دست می‌دهند.

HCUP
داده‌های مربوط به دیتاست‌های بیمارستان‌های ایالات متحده را در برمی‌گیرد و اطلاعاتی از این دست را شامل می‌شوند: بستری‌های بخش اورژانس، بستری‌های بیماران داخلی و آمار مربوط به آمبولانس‌ها. داده‌های دیتاست‌های این سرویس تمیز هستند و در مورد خدمات و مراقبت‌های درمانی ایالات متحده اطلاعات مفیدی فراهم می‌کنند.

OASIS
مجموعه قابل دسترس از مطالعات تصویربرداری است. OASIS به صورت رایگان تصاویر عصبی از مغز تولید می‌کند، به این امید که پژوهش‌های حوزه بهداشت و درمان و علم عصب‌شناختی کلینیکی (بالینی) را رشد داده و موجب پیشرفت و توسعه بیشتر آن‌ها شود.

OpenfMRI
حاوی داده‌های دیگری از دیتاست‌های تصویربرداری است که از دستگاه‌های MRI به دست می‌آیند تا پژوهش‌های مربوطه را تقویت و به تشخیص و آموزش باکیفیت‌تر کمک کنند. این سرویس شامل ۹۵ دیتاست حاوی ۳۳۷۲ مورد بوده و همچنان که محققان داده‌های خود را منتشر می‌کنند، به داده‌های این دیتاست افزوده می‌شود.

تصاویر پزشکی CT (پرتونگاری رایانه‌ای)
این دیتاست، دیتاست کوچکی است، اما منحصراً به بحث سرطان می‌پردازد. داده‌های این دیتاست شامل تصاویری می‌شوند که بر اساس سن، حالت و تگ‌های متضاد برچسب خورده‌اند. زمانی که این تصاویر باکیفیت با داده‌های آموزشی همراه شوند، می‌توانند به کشفیات و پیشرفت‌های بزرگی منجر شوند.

Deep Lesion
داده‌های دیتاست Deep Lesion متنوع و گسترده هستند و یکی از بزرگ‌ترین دیتاست‌های تصویری موجود در حال حاضر را تشکیل می‌دهند. تصاویر سی‌تی اسکن گرفته‌شده مؤسسات بهداشتی درمانی ملی (NIH) به منظور کمک به صحت بیشتر در تشخیص و مستندسازی جراحات در این دیتاست گردآوری شده تا مورد استفاده سایرین قرار گیرند. داده‌های این دیتاست اطلاعات مربوط به بیش از ۳۲۰۰۰ جراحت و آسیب مربوط به ۴۰۰۰ بیمار را در برمی‌گیرند.

Kaggle
این گردآورنده منبعی عالی است که در آن می‌توان دیتاست‌هایی را یافت که هم مربوط به حوزه بهداشت و درمان هستند و هم حوزه‌های دیگر را در برمی‌گیرند. اگر مطالعات شما در حوزه سلامت علاوه بر حوزه بهداشت و درمان، به دیتاست‌های زمینه‌های دیگر نیز برای آموزش نیاز دارد، Kaggle می‌تواند منبع خوبی برای شما باشد.

Physionet
این پایگاه داده دارای بخشی بنام Physio Bank است که یک بانک اطلاعاتی معتبر و وسیع در مورد سیگنال‌های فیزیولوژیکی است. قابلیت دانلود رایگان سیگنال‌ها و داده‌های موجود در این سایت یکی از نقاط قوت و منحصر بفرد آن است. پایگاه داده فیزیونت (physionet.org) پایگاه داده از سیگنال‌های ECG ،EEG ،PCG و … است که سالانه بر اساس مجموعه داده‌های ارسالی، مسابقاتی را بین محققین و دانشجویان سراسر جهان در زمینه پردازش سیگنال و داده برگزار می‌کنند که جوایز مختلفی نیز دارد.

Subreddit
با این‌که کار با subreddit ممکن است نسبت به موارد دیگر کمی دشوارتر به نظر بیاید، می‌توانید با جستجو در گفتگوهای موجود در داده‌های دیتاست‌های رایگان آن به یافته‌های ارزشمندی دست یابید. به خصوص در مواقعی که سؤال مهمی دارید که پاسخش را در داده‌های دیگر دیتاست‌ها پیدا نکرده‌اید، این گردآورنده به احتمال زیاد می‌تواند مفید واقع شود.

Healthcare.ai
این مورد را نمی‌توان دقیقاً یک گردآورنده در نظر گرفت، بلکه یک نرم‌افزار متن‌باز و حتی یک جامعه محسوب می‌شود که وقف آموزش، جنبش‌های اجتماعی و … و گسترش استفاده از یادگیری ماشین در حوزه‌های مختلف بهداشت و درمان شده است.
یادگیری ماشین در حوزه بهداشت و درمان
امروزه دنیا بیشتر از هر زمان دیگری نیاز به پاسخ دارد. اگر در علوم داده‌ها تخصص دارید و در سازمان‌های بهداشتی درمانی مشغول به کار هستید یا وقت خود را به پژوهش و یافتن پاسخ سؤالات اساسی اختصاص داده‌اید می‌دانید که داشتن دسترسی رایگان و آسان به داده‌ها بسیار حیاتی است و می‌توانید از دیتاست های مفید در حوزه بهداشت و درمان که معرفی شدند استفاده کنید.

MIMICII
مجموعه داده باز توسعه یافته توسط آزمایشگاه MIT برای فیزیولوژی محاسباتی، شامل داده‌های سلامت شناسایی نشده مرتبط با نزدیک به ۴۰۰۰۰ بیمار مراقبت‌های ویژه است. این مجموعه داده شامل اطلاعات جمعیت‌شناسی، علائم حیاتی، تست‌های آزمایشگاهی، داروها و دیگر موارد می‌شود.

NeuroPype
NeuroPype یک پلت فرم قدرتمند برای رابط مغز و رایانه، تصویربرداری عصبی و پردازش سیگنال زیستی/عصبی است.
NeuroPype مجموعه‌ای از برنامه‌های کاربردی است که علاوه بر NeuroPype، شامل یک طراح خط لوله تصویری منبع باز و ابزارهایی برای ارتباط با سخت‌افزارهای حسگر مختلف، ضبط داده‌ها و سایر عملکردها است.

UniProt
UniProt مخفف شده Universal Protein Resource یک بانک اطلاعاتی جامع برای توالی‌های پروتئینی و اطلاعات مربوط به پروتئین‌ها است. بانک‌های اطلاعاتی سایت UniProt با عناوین:

(UniProt Knowledgebase (UniProtKB

(UniProt Reference Clusters (UniRef

(UniProt Archive (UniParc
شناخته می‌شود. سایت UniProt با همکاری سه موسسه شامل موسسه بیوانفورماتیک اروپا
(EMBL-EBI)، موسسه بیوانفورماتیک سوئیس (SIB) و منبع اطلاعات پروتئینی (PIR) شکل گرفته است. با همکاری سه موسسه بیش از 100 نفر با عناوین مسئول پایگاه داده، توسعه نرم افزار و پشتیبانی مشغول به کار هستند. هرکدام از مؤسسات مذکور وظایف مختلفی را بر عهده دارد. بدین صورت که EMBL-EBI و SIB باهم به تولید محتوی Swiss-Prot و TrEMBL (کتابخانه و مرکز داده توالی‌های نوکلئوتیدی ترجمه شده) می‌پردازند. همچنین موسسه PIR مسئول تهیه بانک اطلاعاتی توالی پروتئین (PIR-PSD) است. مجموع داده‌های تهیه شده توسط این مؤسسات که مربوط به توالی‌های مختلف پروتئینی هستند، بخش اعظمی را پوشش می‌دهند. TrEMBL با همکاری Swiss-Prot با سرعت بالایی به تولید محتوی می‌پردازند. مجموعه PIR نیز به همین ترتیب مجموعه بانک اطلاعاتی توالی پروتئین‌ها را تهیه و نگهداری می‌کند. در سال 2002 سه موسسه مذکور منابع خود را با هم ادغام کرده و UniProt را شکل دادند.

EMBL-EBI
EMBL-EBI اطلاعات عمومی زیست شناسی جهان را به رایگان در اختیار دانشمندان قرار داده و محدوده‌ای شامل آموزش حرفه‌ای بیوانفورماتیک، انجام تحقیقات پایه‌ای و اشتراک گذاری سرویس‌ها و ابزارهای مرتبط فعالیت می‌کند. سایت EBI عضو آزمایشگاه زیست شناسی مولکولی اروپا است و واژه EMBL اختصار European Molecular Biology Laboratory است که یک مرکز تحقیقاتی بین المللی و بین رشته ایست که توسط 23 کشور عضو و دو کشور وابسته پایه گذاری شده است. این مرکز در Wellcome Genome Campus هینکستون دانشگاه کمبریج انگلستان واقع شده است. محلی که بیشترین تعداد دانشمندان و تکنسین‌های در حوزه ژنومیک را در خود جای داده است. مرکز EBI بانک اطلاعاتی و سرویس‌های بیوانفورماتیک خود را برای جامعه دانشمندان به شکل رایگان ارائه می‌دهد.
طیف گسترده‌ای از منابع اطلاعات مولکولی موجود در جهان، در این مرکز نگهداری می‌شود. اطلاعات و ابزار این مرکز که توسط همکاران آن در سراسر جهان تکمیل شده است، به دانشمندان کمک می‌کند اطلاعات خود را به درستی به اشتراک گذاشته و نتایج را با روش‌های مختلفی آنالیز کنند. مرکز EBI از هزاران دانشمندی که در سراسر جهان در آزمایشگاه‌های زیست شناسی و بیوانفورماتیک در زمینه‌های مختلف علوم طبیعی، از پزشکی گرفته تا تنوع زیستی و تحقیقات کشاورزی کار کرده و مشغول هستند، حمایت کرده و نیازهای آن‌ها را پوشش می‌دهد. مرکز EBI حامی محققان در پروژه‌های زیست شناسی تحقیق محور است. محیط آزمایشگاهی منحصر به فرد و طیف گسترده‌ای از تحقیقات به تکمیل بانک اطلاعاتی مرکز EBI کمک شایانی کرده است.
در عصر ژنومیک تحقیقات این مرکز در حیطه بررسی پزشکی و محیط زیست است. این مرکز فرصت‌های زیادی را برای دانشجویان پست دکتری به وجود آورده و به آموزش نسل بعدی زیست شناسان بر اساس برنامه درسی دکتری EMBL می‌پردازد. مرکز EBI دوره‌های بیوانفورماتیک پیشرفته برای دانشمندان در سطوح مختلف برگزار می‌کند. این مرکز آموزش دوره‌های بیوانفورماتیک را جهت کمک به زیست شناسان برای بهره برداری حداکثری از بانک اطلاعاتی این مرکز برگزار می‌کند. مرکز EBI دوره‌های کارآموزی خود را در دیگر مؤسسات سراسر جهان برگزار می‌کند. همچنین خدمات بیوانفورماتیکی توسط این مرکز برای علاقه مندان به شکل آنلاین نیز ارائه می‌شود. برنامه‌های صنعتی این مرکز ماحصل ارتباط بین «EMBL-EBI» و «بخش تحقیق و توسعه در صنعت» است. اعضای فعال این مرکز که شامل بخش‌های داروسازی و کشاورزی هستند، با کمک بخش بیوانفورماتیک EBI در بخش صنعت فعالیت می‌کنند. همچنین مرکز EBI با شرکت‌ها کوچک صنعتی مرتبط در پروژه‌های مشترک سرمایه گذاری می‌کند.

LncRNAdb
سایت LncRNAdb یک پایگاه داده با اطلاعات جامع در زمینه Lng Non-coding RNA ها است. اطلاعات در رابطه با lncRNA‌ ها اولین بار در سال 2011 در این سایت درج شده است. سایت lncRNAdb در نگهداری اطلاعات خود بسیار کوشا است و در ماه می سال 2014 عضو RNACentral شده است. در حال حاضر مرکز سایت LncRNAdb در استرالیا، موسسه تحقیقات پزشکی گارون، مرکز سرطان Kinghorn مستقر شده است.
این مرکز نسبت به نظر کاربران خود در رابطه با کارکرد سایت اهمیت ویژه‌ای قائل است و همچنین جهت بروزرسانی مطالب سایت از مخاطبان خود دعوت به همکاری کرده است. اطلاعاتی در رابطه با lncRNA ها که توسط سایت lncRNAdb ارائه می‌شوند، شامل آن دسته از lncRNA ها هستند که ثابت شده است در فرآیندهای زیستی نقش دارند. همچنین اطلاعات سایت شامل mRNA هایی است که نقش تنظیمی دارند و lncRNA هایی که عملکردشان هنوز کامل شناخته نشده است.
همه اطلاعات سایت به شکل دستی وارد شده و شامل منابع RNA نیز است. منظور از منابع RNA مطالبی مثل توالی، اطلاعات ساختاری، محتوای ژنومیک، بیان، محلش در سلول، حفاظت، شواهدی از عملکرد و … است. بیشتر lncRNA های فهرست شده (تقریباً 75 درصد) متعلق به پستانداران است که شامل lncRNA هایی است که به میزان بسیار زیادی رونویسی و تولید شده و بیشتر از همه توسط دانشمندان مورد مطالعه قرار گرفته‌اند. بقیه اطلاعات شامل lncRNA هایی از مهره داران گرفته تا تک سلولی‌های یوکاریوتی است. علاوه بر همه این‌ها، سایت lncRNAdb به سایت‌هایی مثل UCSC Genome Browser جهت تجسم هرچه بهتر ژن وIllumina Body Atlas data جهت بررسی بیان، لینک شده است.

پایگاه داده ClinVar
ClinVar یک آرشیو عمومی و قابل دسترس است که روابط بین تغییرات یا variation ها و فنوتیپ‌های انسانی را گزارش می‌دهد. بنابراین ClinVar دسترسی و ارتباط در مورد روابط بیان شده بین تنوع انسانی و وضعیت سلامت مشاهده شده و تاریخچه آن تفسیر را تسهیل می‌کند.
ClinVar انواع گزارش‌های ارسالی موجود در نمونه‌های بیمار، ادعاهای مطرح شده در مورد اهمیت بالینی آن‌ها، اطلاعات مربوط به ارسال کننده و سایر داده‌ها را پردازش می‌کند. آلل های شرح داده شده در موارد ارسالی به ژنوم مرجع Map می‌شوند و طبق استاندارد HGVS گزارش می‌شوند. سپس ClinVar داده‌ها را برای کاربران تعاملی و همچنین کسانی که مایل به استفاده از ClinVar در گردش کار روزانه و سایر برنامه‌های Local هستند ارائه می‌دهد.
ClinVar با همکاری سازمان‌های علاقه‌مند، برای برآوردن نیازهای جامعه ژنتیک پزشکی تا حد امکان کارآمد و مؤثر عمل می‌کند.
ClinVar از موارد ارسالی با سطوح مختلف پیچیدگی پشتیبانی می‌کند. موارد ارسالی ممکن است به سادگی نمایش یک آلل و تفسیر آن باشد، یا به جزئیات انواع شواهد مشاهده‌ای ساختاریافته در سطح Case یا تجربی در مورد تأثیر تغییر بر فنوتیپ هدف اصلی، اشاره کند. هدف اصلی پشتیبانی از ارزیابی محاسباتی ژنوتیپ ها و فعال کردن تکامل و توسعه مداوم دانش در مورد تغییرات و فنوتیپ های مرتبط است. ClinVar شریک فعال پروژه ClinGen است که داده‌ها را برای ارزیابی و آرشیو نتایج تفسیر توسط پانل‌های متخصص شناخته شده و ارائه دهندگان دستورالعمل‌های عملی ارائه می‌دهد. ClinVar اطلاعات ارسال شده را بایگانی می‌کند و شناسه‌ها و سایر داده‌هایی را که ممکن است در مورد یک variant از سایر منابع عمومی در دسترس باشد، اضافه می‌کند. با این حال
ClinVar نه محتوی را مدیریت می‌کند و نه تفسیرها را مستقل از ارسال صریح تغییر می‌دهد. اگر داده‌هایی دارید که با آنچه در حال حاضر در ClinVar ارائه می‌شود متفاوت است، ما شما را تشویق می‌کنیم که داده‌های خود و شواهدی را که تفسیر شما را پشتیبانی می‌کند، ارسال کنید.

پایگاه داده dbSNP
تغییرات توالی در موقعیت‌های تعریف شده در ژنوم وجود دارد و مسئول ویژگی‌های فنوتیپی فردی، از جمله استعداد فرد به اختلالات پیچیده مانند بیماری قلبی و سرطان است. از پایگاه داده dbSNP می‌توان به عنوان ابزاری برای درک تنوع انسانی و ژنتیک مولکولی، تغییرات توالی برای نقشه برداری ژن، تعریف ساختار جمعیت و انجام مطالعات عملکردی استفاده کرد. پایگاه داده پلی مورفیسم تک نوکلئوتیدی یا dbSNP یک آرشیو با دامنه عمومی برای مجموعه وسیعی از چندشکلی‌های ژنتیکی ساده است.
این مجموعه از پلی‌مورفیسم‌ها شامل جانشینی‌های تک نوکلئوتیدی که همچنین با عنوان پلی‌مورفیسم‌های تک نوکلئوتیدی یا SNP شناخته می‌شوند، حذف و اضافه‌های چند نوکلئوتیدی در مقیاس کوچک که همچنین پلی‌مورفیسم‌های حذف و اضافه یا DIPs نیز نامیده می‌شوند و ریزماهواره ها که با نام تکرارهای پشت سر هم کوتاه یا STR شناخته می‌شوند، است. هر ورودی dbSNP شامل توالی پلی مورفیسم و همچنین توالی‌های اطراف آن، فراوانی وقوع پلی مورفیسم بر اساس جمعیت یا فرد، و روش‌های تجربی، پروتکل‌ها و شرایط مورد استفاده برای سنجش تنوع است. پایگاه داده dbSNP موارد ارسالی را برای تغییرات در هر گونه و از هر بخشی از ژنوم می‌پذیرد. این سند گزینه‌هایی را برای یافتن SNP ها درdbSNP، بحث در مورد محتوی و سازمان dbSNP و دستورالعمل‌هایی را ارائه می‌دهد تا به شما کمک کند کپی خود را از dbSNP ایجاد کنید.

معرفی پایگاه داده dbGaP
dbGaP پایگاه داده ژنوتیپ ها و فنوتیپ ها است که تحت حمایت موسسه ملی بهداشت با عنوان NIH است که مسئول آرشیو، سرپرستی و توزیع اطلاعات تعاملی بین ژنوتیپ و فنوتیپ است. پایگاه داده dbGap در سال 2006 در راستای سیاست گذاری‌های مطالعات توسعه گسترده ژنوم یا GWAS راه اندازی شد و دسترسی بی‌سابقه‌ای به پایگاه داده‌های مرتبط با ژنوتیپ و فنوتیپ ها فراهم کرد.

دانشمندان جامعه تحقیقات جهانی ممکن است به همه داده‌های عمومی دسترسی داشته باشند و همچنین درخواست کنترل داده‌های قابل دسترس را داشته باشند. اطلاعات مربوط به مطالعات ارسالی، اسناد و داده‌های مربوط به مطالعات قابل دسترسی به صورت رایگان در وب سایت dbGaP به آدرس http://www.ncbi.nlm.nih قابل دسترس است. داده‌های فردی تنها پس از تائید برنامه دسترسی کنترل شده، با بیان اهداف تحقیق و نشان دادن توانایی حفاظت کافی از داده‌ها، قابل دسترس هستند.
اطلاعات موجود در dbGaP شامل داده‌های مولکولی و فنوتیپ در سطح فردی، نتایج تجزیه و تحلیل، تصاویر پزشکی، اطلاعات کلی در مورد مطالعات و اسنادی است که متغیرهای فنوتیپی را زمینه سازی می‌کند؛ مانند پروتکل‌های تحقیقاتی و پرسشنامه‌ها. داده‌های ارسالی پیش از انتشار برای عموم، تحت کنترل کیفی و نظارت توسط کارکنان dbGaP قرار می‌گیرند. اطلاعات در dbGaP به عنوان یک ساختار سلسله مراتبی سازماندهی شده است و شامل اشیاء الحاق شده، فنوتیپ ها به عنوان متغیرها و مجموعه داده‌ها، داده‌های مختلف سنجش مولکولی شامل SNP و آرایه بیان، نشانه‌های توالی و اپی ژنومیک، آنالیزها و اسناد است.

پایگاه داده dbVar
dbVar یک پایگاه داده از تغییرات ساختاری ژنومی انسان است که در آن کاربران می‌توانند داده‌های مطالعات ارسالی را جستجو، مشاهده و دانلود کنند. dbVar پشتیبانی از داده‌های ارگانیسم‌های غیر انسانی را در یک نوامبر 2017 متوقف کرد. با این حال داده‌های غیر انسانی موجود از طریق دانلود FTP در دسترس باقی می‌مانند. مطابق با تعریف متداول تغییرات ساختاری، بیشتر واریانت ها بیش از 50 جفت باز طول دارند با این حال ممکن است تعداد انگشت شماری از انواع کوچکتر نیز یافت شود. پایگاه داده dbVar دسترسی به داده‌های خام و همچنین پیوندهایی به منابع اضافی مانند NCBI را فراهم می‌کند. پایگاه داده dbVar یک منبع رایگان است که توسط مرکز ملی اطلاعات بیوتکنولوژی یا NCBI در کتابخانه ملی پزشکی ایالات متحده NLM واقع در مؤسسه ملی بهداشت NIH، توسعه و نگهداری می‌شود.

پایگاه داده OMIM
OMIM یک مجموعه جامع و معتبر از ژن‌های انسانی و فنوتیپ های ژنتیکی است که به راحتی در دسترس عموم قرار داشته و پیوسته بروزرسانی می‌شود. OMIM شامل اطلاعات مربوط به همه اختلالات شناخته شده مندلی و بیش از 15000 ژن است. OMIM بر رابطه بین فنوتیپ و ژنوتیپ تمرکز داشته و دارای لینک‌های مرتبط به منابع ژنتیکی دیگر نیز است. این بانک اطلاعاتی در اوایل دهه ۱۹۶۰ توسط دکتر ویکتور مک کیوسیک به عنوان بانک غنی از صفات و اختلالات مندلی تحت عنوان وراثت مندلی در انسان یا MIM راه اندازی شد. دوازده نسخه از کتاب بین سال‌های ۱۹۶۶ و ۱۹۹۸ منتشر شد تا اینکه نسخه آنلاین آن در سال ۱۹۸۵ با همکاری کتابخانه ملی پزشکی و کتابخانه پزشکی William H. Welch تأسیس شد. در سال ۱۹۹۵، OMIM توسط NCBI مرکز ملی اطلاعات بیوتکنولوژی، برای شبکه جهانی وب تهیه شد.

پایگاه داده تشخیص چهره
تشخیص چهره یکی از حوزه‌های مهم تحقیق به شمار می‌آید و در سال‌های گذشته مورد توجه دولت‌ها و سازمان‌های بسیاری قرار گرفته است. تولیدکنندگان برجسته گوشی‌های هوشمند از قبیل اپل و سامسونگ این فناوری را در گوشی‌های هوشمند خود به کار برده‌اند تا بالاترین سطح امنیت را برای کاربران فراهم کنند. پیش‌بینی‌ها حاکی از آن است که فناوری تشخیص چهره با رشد قابل توجهی همراه شود و سال جاری به ارزشی بالغ بر 6/9 میلیارد دلار برسد.
در ادامه، تعدادی دیتاست چهره معرفی می‌شوند که علاقمندان می‌توانند از آن‌ها برای آغاز پروژه‌های تشخیص چهره استفاده کنند.

دیتاست Flickr-Faces-HQ یا FFHQ
دیتاست Flickr-Faces-HQ یا FFHQ از چهره انسان‌ها تشکیل شده و تنوع آن به لحاظ سن، قومیت و پس‌زمینه تصویری بیشتر از دیتاست CELEBA-HQ است. علاوه بر این، ابزارهای بیشتری از قبیل عینک، کلاه و غیره را نیز تحت پوشش قرار می‌دهد. تصاویر از Flickr به دست آمده و سپس به صورت خودکار همتراز و بریده شده‌اند. این دیتاست از ۷۰,۰۰۰ تصویر باکیفیت PNG با رزرولوشن ۱۰۲۴×۱۰۲۴ تشکیل یافته و تنوع کم‌نظیری به لحاظ سن، قومیت و پس‌زمینه تصویری دارد.

دیتابیس Tufts-Face-DATABASE
دیتابیس Tufts-Face-Database جامع‌ترین نمونه در نوع خود است که ۷ الگوی تصویر دارد: تصاویر مرئی، نزدیک به فروسرخ، گرمایی، نمایش رایانه‌ای، LYTRO، ویدئوی ضبط شده و تصاویر سه‌بعدی. این دیتاست حاوی بیش از ۱۰۰۰۰ تصویر است. ۷۴ جنس مؤنث و ۳۸ جنس مذکر از بیش از ۱۵ کشور جهان با دامنه سنی ۴ تا ۷۰ سال در این دیتاست گنجانده شده‌اند. این پایگاه داده‌ای با این هدف در دسترس محققان سرتاسر جهان قرار خواهد گرفت تا الگوریتم‌های تشخیص چهره را در موارد تشخیص چهره سه‌بعدی، گرمایی، NIR و غیره محک بزنند.

تشخیص چهره واقعی و ساختگی
این دیتاست حاوی تصاویر چهره باکیفیتی است که به صورت حرفه‌ای با فتوشاپ دستکاری شده‌اند. این تصاویر ترکیبی از چهره‌های مختلف هستند که به لحاظ چشم، بینی، دهان یا کل چهره تفکیک شده‌اند و برای تفکیک تصاویر واقعی و ساختگی مورد استفاده قرار می‌گیرد.

دیتاست مقایسه حالت چهره گوگل
این دیتاست گوگل به نوعی دیتاست بزرگ ‌مقیاس حالت چهره اطلاق می‌شود که از سه مورد تصویر چهره تشکیل یافته است. البته حاشیه‌نویسی‌هایی نیز در کنار این تصاویر قرار داده شده که نشان می‌دهد کدام جفت چهره بیشترین شباهت را به لحاظ حالت چهره دارند.
این دیتاست دربردارنده ۵۰۰ هزار تصویر سه‌تایی و ۱۵۶ هزار تصویر چهره است. محققانی که روی موضوعاتی مانند تحلیل حالت چهره (از قبیل بازیابی تصویر بر اساس حالت چهره، خلاصه آلبوم تصویر با اساس حالت چهره، طبقه‌بندی احساسات، ترکیب حالت چهره و غیره) کار می‌کنند می‌توانند از این دیتاست استفاده کنند.

تصاویر چهره با نقاط کلیدی علامت‌گذاری شده
از این دیتاست برای پیش‌بینی موقعیت نقاط کلیدی در تصاویر چهره استفاده می‌شود. این دیتاست، حاوی ۷۰۴۹ تصویر چهره و ۱۵ نقطه کلیدی علامت‌گذاری شده در تصاویر است که می‌تواند به عنوان یک جزء اصلی در موارد مختلف به کار برده شود؛ از جمله کاربردهای آن می‌توان به ردیابی چهره در تصاویر و ویدئوها، تجزیه و تحلیل حالت‌های چهره، شناسایی نشانه‌های ناهنجار چهره در تشخیص پزشکی و بیومتریک یا بازشناسی چهره اشاره کرد.

دیتاست چهره‌های برچسب زده شده در Wild Home
این دیتاست به پایگاه داده‌ای از تصاویر چهره گفته می‌شود که برای مطالعه مسئله «تشخیص چهره بدون قید و محدودیت» طراحی شده است. دیتاست LFW ابزاری عمومی برای تأیید چهره است که با عنوان مطابق‌سازی جفت هم شناخته می‌شود. این دیتاست از ۱۳.۰۰۰ تصویر چهره تشکیل شده است. این تصاویر از وب جمع‌آوری شده‌اند. امکان استفاده از این دیتاست در زمینه تأیید چهره و سایر اَشکال تشخیص چهره وجود دارد.

دیتاست چهره بزرگ ‌مقیاس UTKFace
UTKFace یک دیتاست چهره بزرگ‌مقیاس با دامنه سنی طویل است که صفر تا ۱۱۶ سالگی را دربرمی‌گیرد. تصاویر این دیتاست موارد گوناگونی از قبیل حالت چهره، حالت ایستادن، روشنایی، انسداد، رزولوشن و غیره را پوشش می‌دهند. این دیتاست متشکل از بیش از ۲۰ هزار تصویر با مشخصات سن، جنسیت و نژاد است. می‌توان از این دیتاست در امور گوناگونی نظیر تشخیص چهره، تخمین سن، پیشرفت سن، کاهش سن و مکان‌یابی نقاط کلیدی استفاده کرد.

دیتاست چهره یوتویوب با نقاط کلیدی چهره
این دیتاست نسخه پردازش یافته «دیتاست چهره یوتیوب» است که اساساً حاوی ویدئوهای کوتاه از شخصیت‌های شناخته شده است. این ویدئوها از سرویس یوتیوب دانلود شده‌اند. ویدئوهای مختلفی از هر سلبریتی یا شخصیت معروف موجود است. این دیتاست شامل ۱۲۹۳ ویدئو است که برای تشخیص چهره در ویدئوها مورد استفاده قرار می‌گیرد.

Large-scale CelebFaces Attributes یا به اختصار CelebA
این دیتاست بیش از ۲۰۰.۰۰۰ تصویر سلبریتی یا شخصیت‌های معروف را در خود جای داده است. هر کدام از تصاویر هم ۴۰ مورد از مشخصات این افراد را دربردارد. تصاویر موجود در این دیتاست، درهم‌ریختگی‌های پس‌زمینه و تنوع ژستی را نیز پوشش می‌دهند. این دیتاست شامل ۱۰.۱۷۷ شماره شناسایی، ۲۰۲.۵۹۹ تصویر چهره و ۵ موقعیت است و به عنوان مجموعه آموزشی و آزمایشی در امور بینایی رایانه‌ای (شناسایی ویژگی‌های چهره، تشخیص چهره، ویرایش چهره و ترکیب چهره) از آن استفاده می‌شود.

10 Yale
این دیتابیس حاوی ۱۶۵ تصویر مقیاس خاکستری از ۱۵ فرد در فرمت GIF است. ۱۱ عکس برای هر موضوع وجود دارد که حالات مختلف چهره (خواب‌آلود، شاداب، با عینک، بدون عینک و غیره) را نیز دربرمی‌گیرد. این دیتاست ۵۷۶۰ تصویر از ۱۰ موضوع دارد که در تشخیص چهره، مقایسه چهره و غیره نیز کاربرد دارد.

منابع:
https://hooshio.com
https://www.geniranlab.ir
http://shirazbme.ir
https://physionet.org
https://kaggle.com

0/5 (0 دیدگاه)

برچسب ها:

شماره 263 - اسفند 1401

آخرین خبر

معرفی پایگاه‌های داده در حوزه پزشکی، سلامت و بیولوژی

دیدگاه ها

دیدگاهتان را بنویسید لغو پاسخ

جدیدترین مقالات علمی و فنی

گزارش ویژه‌ی این ماه

گزارش های کوتاه ماهنامه

لینک های مرتبط

ثبت نام

بازیابی رمز عبور