مقایسه رویکردهای انقباضی و یادگیری ماشین در انتخاب متغیر و پیش بینی در تحلیل داده های زیستی

Comparison of Regularization and Machine Learning Approaches in Variable Selection and Prediction and its Application in Biological Data Analysis

چاپ صفحه

صفحه نخست سامانه

مجری و همکاران

اطلاعات تفضیلی

دانشگاه علوم پزشکی تبریز

مجریان: ندا گیلانی

خلاصه روش اجرا: در تجزیه و تحلیل داده های باابعاد بالا تعداد قابل ملاحظه ای از متغیرها روی پیامد، چندان ویژگی مهم و معنی داری ندارند که این خود موجب اختلال در روند مدل سازی می شود که ازآن به عنوان بیش برازش یاد می شود. روشهای انتخاب متغیر روش های مناسبی برای مقابله با این مشکل است. در ایت تحقیق ابتدا با استفاده از شبیه سازی به مقایسه دقت انتخاب متغیر و پیش بینی یادگیری ماشین و روشهای انقباضی در سناریوهای مختلف پرداخته خواهد شد تا مشخص شود کدام روش و تحت چه شرایطی بر روش دیگر برتری دارد. در ادامه این مطالعه با استفاده از رویکردهای انقباضی و یادگیری ماشین به طبقه بندی سرطان تخمدان که از داده های تولید شده توسط فناوری ریزارایه بدست امده با در نظر گرفتن تعداد متغیر (ژن) های پیش بین بسیار زیاد همراه با اثرات متقابل آنها پرداخته خواهد شد. در ابتدا پایش اولیه اطلاعات اعم از پاکسازی، یکپارچه سازی و حذف داده های تکراری صورت خواهد گرفت. سپس در رویکرد یادگیری ماشین از الگوریتم بروتا و در رویکرد انقباضی از روشهایی همچون رگرسیون لاسو استفاده خواهد شد. داده های مورد استفاده در این پژوهش که از مشخصات یکپارچه میکرو RNA خارج سلولی برای غربالگری سرطان تخمدان خواهد بود ، بر اساس پروفایل های miRNAسرمی از نمونه های آزمایشگاهی 4046 زن بدست آمده است. داده ها شامل 320 سرطان تخمدان، 95تومور خوش خیم و بدخیم ، 2459 شاهد غیر سرطانی و 872 مورد سایر سرطانی (Brest cancer colorectal cancer, Esophageal cancer, gastric cancer , lung cancer) میباشد. لازم به ذکر است تعداد ژن (متغیرهای مستقل در این مطالعه حدودا برابر با 2500 ژن است. جمع آوری اطلاعات مربوطه از تاریخ سیزدهم نوامبر 2017 در شهر کاناگاوا ژاپن آغاز شده است و تا بیست و سوم اکتبر 2019 ادامه یافته است. این اطلاعات از پایگاه داده https://www.ncbi.nlm.nih.gov/geo/ استخراج خواهد شد. برازش مدلها با استفاده از رویکردهای انقباضی و یادگیری ماشین از پکیج هایی همچون glmnet ،Boruta، CARET، Hdglm، .... در نرم افزار R انجام خواهد گرفت. و در گام آخر از معیارهای دقت، حساسیت و اختصاصیت AUC ،ارزش اخباری مثبت ، ارزش اخباری منفی و youden’s J index جهت مقایسه میان مدل ها استفاده خواهد شد.

اطلاعات کلی طرح

مرحله جاری طرح	خاتمه قرارداد و اجرا
کد طرح	66567
عنوان فارسی طرح	مقایسه رویکردهای انقباضی و یادگیری ماشین در انتخاب متغیر و پیش بینی در تحلیل داده های زیستی
عنوان لاتین طرح	Comparison of Regularization and Machine Learning Approaches in Variable Selection and Prediction and its Application in Biological Data Analysis
نوع طرح	طرح - پایان نامه
اولویت طرح	اطلاعات سلامت (health information)
نوع مطالعه	بررسی مقطعی ( Cross Sectional)
تحقیق در نظام سلامت	بلی
آیا طرح پایان‌نامه دانشجویی است؟	بله
مقطع پایان نامه	کارشناسی ارشد
مدت اجرا - ماه	17
نوآوری و ضرورت انجام تحقیق	در مواقعی که متغیرهای یک مجموعه داده، زیاد باشد؛مسئله ی بیش برازش موجب اختلال در روند مدل سازی و در نهایت موجب عدم اطمنیان به نتایج خاصل از مدلسازی میشود. از روش های آماری جهت مواجهه با مسئله بیش برازش در داده های آموزشی، استفاده از روش های انقباضی است. روش های انقباضی به انتخاب مدلی که تعمیم پذیری مناسب و در عین حال پیچیدگی کمتری داشته باشد؛ کمک مینماید. مطالعات متعددی هم در مقابله با مسئله ی بیش برازش در رویکرد یادگیری ماشین وجود دارد اما باتوجه به اینکه "انتخاب متغیر" به کمک روشهای یادگیری ماشین و روشهای اماری تاکنون در سناریوهای مختلف باهم مقایسه نشده اند ونیز باتوجه به اینکه در داده های بزرگ مشکلاتی چون همبستگی و داده ی پرت وجود دارد لذا روشهای اماری مانند لاسو و... که مبتنی بر توزیع اماری هستند ممکن است به انتخاب دقیق متغیرها نینجامد درحالیکه روشهای یادگیری ماشین چون ازاد توزیع هستند و به پیش فرض های اشاره شده در روشهای اماری ممکن است حساس نباشند لذا مقایسه این دو به کمک شبیه سازی با تولید داده ی زیاد میتواند راهگشای مناسب تری برای مسئله ی "انتخاب متغیر" باشند. رویکردهای انقباضی و یادگیری ماشین، بر خلاف روش های قدیمی که تنها مطالعه ژن های محدود را میسر می-نمودند، امکان بررسی بیان هزاران ژن را در حداقل زمان ممکن فراهم می سازند. بنابراین تشخیص دقیق سرطان می تواند با طبقه بندی داده های microRNA عملی باشد. هدف این مطالعه با توجه به مرور متون صورت پذیرفته توسط محققین، مطالعاتی که هدفشان انتخاب ژن های موثر در سرطان تخمدان بود مقایسه ای میان عملکرد این دو رویکرد انقباضی و یادگیری ماشین انجام نداده اند. از دید زیستی نیز انتخاب موثرترین زیست نشانگرها به طور قابل توجهی موجب بهبود دقت پیش بینی پیامد بیماری ها از جمله سرطان تخمدان می شود. بنابراین با توجه به اهمیت مطالعات سرطان شناسی در بخش های اقتصادی و سلامتی جامعه، تبیین و مقایسه الگوهای بیان ژن در دونمونه سالم و سرطانی، فرصتی را به وجود می آورد که بتوان به شناخت مناسب تری از بیماری سرطان تخمدان دست یافت
اهداف اختصاصی	مدلسازی رویکرد انقباضی در انتخاب متغیر و پیش بینی داده های سرطان تخمدان - مدلسازی رویکرد یادگیری ماشین در انتخاب متغیروپیش بینی دادههای سرطان تخمدان - مقایسه و ارزیابی عملکرد رویکردهای انقباضی و یادگیری ماشین در پیش بینی و انتخاب متغیرهای دادههای سرطان تخمدان
چکیده انگلیسی طرح	Ovarian cancer will be classified using regularization approaches and machine learning, that there is a large number of predictor variables (Genes) along with their interactions. in the preprocessing stage, including clearing, integrating, and deleting duplicate data, will be performed. Then, in the machine learning approach, the Boruta algorithm will be used, and in the regularization approach, some methods such as Lasso regression will be used. An extensive simulation study will be conducted to evaluate the accuracy of veraible selection and prediction. The data used in this study will be Serum microRNA profiles of 4046 woman samples, which consist of 333 of ovarian cancers, 66 of borderline ovarian tumours, 29 of benign ovarian diseases, 2759 of non-cancer controls, and 859 of the other solid cancers (Brest cancer colorectal cancer, Esophageal cancer, gastric cancer, lung cancer). It should be noted that the number of genes (independent variables in this study is approximately equal to 2500 genes. The collection of relevant data began on November 13, 2017, in Kanagawa, Japan and continued until October 23, 2019. This information from The https://www.ncbi.nlm.nih.gov/geo/ database will be extracted, and the models will be fitted using regularization approaches and machine learning from packages such as glmnet and Boruta in R and MATLAB software and the last step, the criteria of accuracy, sensitivity and specificity will be used to compare between models.
کلمات کلیدی	یادگیری ماشین(ML): تعریف نظری:یادگیری ماشین، مطالعه‌ی علمی الگوریتم‌ها و مدل‌های آماری مورد استفاده‌ی سیستم‌های کامپیوتری است که بجای استفاده از دستورالعمل‌های واضح از الگوها و استنباط برای انجام وظایف سود می‌برند. به عنوان زیر مجموعه‌ای از هوش مصنوعی، الگوریتم‌های یادگیری ماشین یک مدل ریاضی بر اساس داده‌های نمونه یا "داده‌های آموزش" به منظور پیش‌بینی یا تصمیم‌گیری بدون برنامه‌ریزی آشکار، ایجاد می‌کنند (27). تعریف عملی: در این مطالعه منظور استفاده از روشهای MLبر روی داده های ریزآرایه از پکیج هایی همچون Glmnet در نرم افزار R استفاده خواهد شد (28). ژن تعریف نظری: دنباله‌ای از نوکلوئوتیدهاست که در برگیرنده اطلاعات لازم جهت تولید مولوکول‌های RNA و یا پروتئین‌های لازم برای سلول هستند. هر ژن در بخشی از DNA سلول وجود دارد (29). بیان ژن تعریف نظری: بیان ژن فرایندی است که در آن اطلاعات درون ژن استفاده می‌شود تا یک محصول کاربردی از آن بدست آید. محصول ژن‌ها عمدتاً آمینو اسیدی هستند و از محصولات غیر آمینو اسیدی می‌توان به rRNA،tRNA،snRNA اشاره کرد. فرایند بیان ژن به وسیله تمام یوکاریوت‌ها و پروکاریوت‌ها (باکتری‌ها و..) انجام می شود (30). سرطان تخمدان تعریف نظری: به رشد بدخیم و غیرطبیعی سلول های تخمدان، سرطان تخمدان گفته می شود. تعریف عملی: در این مطالعه از داده های سرطان تخمدان تحت عنوان مججوعه داده های ریزآرایه خارج سلولی برای غربالگری سرطان تخمدان (Integrated extracellular microRNA profiling for ovarian cancer screening) استفاده شده است (31).
ذینفعان نتایج طرح	ذینفعان نتایج این طرح، برنامه ریزان و متخصصان حوزه سرطان شناسی هستند. با استفاده از نتایج این طرح تبیین و مقایسه الگوهای بیان ژن در دو بافت سالم و سرطانی، فرصتی را به وجود می آورد که بتوان به شناخت مناسب-تری از بیماری سرطان تخمدان دست یافت و با تولید داروهای آنتی ژن موثر به درمان به هنگام این بیماری کمک نمود. از آنجاییکه یک مانع عمده برای بهبود پیش آگهی در سرطان تخمدان ، عدم وجود روش های غربالگری موثر برای تشخیص زود هنگام است، لذا میکرو RNA ها(miRNA ها) به عنوان تعیین گر نشانگرهای زیستی امیدوار کننده شناخته شده اند که می توانند منجر به کاربردهایی در gynecological وکاربردهای بالینی شوند درنهایت کاهش هزینه های شیمی درمانی ، و افزایش بقای بیماران مبتلا به سرطان تخمدان میشود

اطلاعات مجری و همکاران

نام و نام‌خانوادگی	سمت در طرح
ندا گیلانی	استاد راهنمای اول (آموزشی )
رضا عربی بلاغی	مشاور
پروین سربخش	مشاور
فرزانه حمیدی	دانشجوی مالک پایان نامه

اطلاعات تفضیلی

حوزه خبر	خبر
رسانه ها و مردم	عنوان خبر متن خبر
متخصصان و پژوهشگران	عنوان خبر استفاده از روش های یادگیری ماشین جهت دستیابی به زیست نشانگرهای بالقوه در شناسایی سرطان تخمدان دقت و عملکرد بالایی داشت. متن خبر باتوجه به اهمیت مطالعات سرطان شناسی و تجزیه و تحلیل داده های ریزارایه ای به سبب ابعاد بالای این اطلاعات مستلزم بکارگیری تکنیک های مختلف در یادگیری ماشین و روش‌های آماری می باشد. در انتخاب زیست نشانگرهای مرتبط با سرطان تخمدان و نیز مقایسه ای میان عملکرد دو رویکرد اماری و یادگیری ماشین در انتخاب متغیر میتوان دید تازه ای در تعیین و تبیین روش های کاهش ابعاد و مدلسازی در پیش بینی وتشخیص سرطان تخمدان داشت. یافته‌های این مطالعه طبق معیارهای ارزیابی روی مجموعه داده مورد مطالعه و نیز در 2 مجموعه داده دیگر شواهد قابل‌توجهی مبنی بر پتانسیل تشخیصی امیدوارکننده مجموعه استخراجی از پروفایل miRNA سرمی برای سرطان تخمدان ارائه کرد. در بخش روش شناختی فاز شبیه سازی جهت مقایسه بین روشهای مطالعه، در اکثر سناریوهای انجام گرفته تحت شرایطی یادگیری ماشین عملکرد مطلوب‌تری نسبت به روشهای آماری دارد. پیشنهادات:1) بررسی استفاده از روش های تعمیم یافته ی لاسو و الاستیکنت برای انتخاب متغیر در داده های ابعاد بالا 2)بررسی روابط غیر خطی در شبیه سازی3) ارزیابی یافته ها در داده های مشابه که دارای اطلاعاتی مانند سن، مرحله سرطان، نژاد و سایر عوامل مرتبط با حوزه مطالعاتی سرطان باشد.
سیاستگذاران درمانی	عنوان خبر متن خبر
سیاستگذاران پژوهشی	عنوان خبر متن خبر
لینک (URL) مقاله انگلیسی مرتبط منتشر شده 1	frontiersin.org/articles/10.3389/fgene.2021.724785/full?