| مرحله جاری طرح | خاتمه قرارداد و اجرا |
| کد طرح | 66567 |
| عنوان فارسی طرح | مقایسه رویکردهای انقباضی و یادگیری ماشین در انتخاب متغیر و پیش بینی در تحلیل داده های زیستی |
| عنوان لاتین طرح | Comparison of Regularization and Machine Learning Approaches in Variable Selection and Prediction and its Application in Biological Data Analysis |
| نوع طرح | طرح - پایان نامه |
| اولویت طرح | اطلاعات سلامت (health information) |
| نوع مطالعه | بررسی مقطعی ( Cross Sectional) |
| تحقیق در نظام سلامت | بلی |
| آیا طرح پایاننامه دانشجویی است؟ | بله |
| مقطع پایان نامه | کارشناسی ارشد |
| مدت اجرا - ماه | 17 |
| نوآوری و ضرورت انجام تحقیق | در مواقعی که متغیرهای یک مجموعه داده، زیاد باشد؛مسئله ی بیش برازش موجب اختلال در روند مدل سازی و در نهایت موجب عدم اطمنیان به نتایج خاصل از مدلسازی میشود. از روش های آماری جهت مواجهه با مسئله بیش برازش در داده های آموزشی، استفاده از روش های انقباضی است. روش های انقباضی به انتخاب مدلی که تعمیم پذیری مناسب و در عین حال پیچیدگی کمتری داشته باشد؛ کمک مینماید. مطالعات متعددی هم در مقابله با مسئله ی بیش برازش در رویکرد یادگیری ماشین وجود دارد اما باتوجه به اینکه "انتخاب متغیر" به کمک روشهای یادگیری ماشین و روشهای اماری تاکنون در سناریوهای مختلف باهم مقایسه نشده اند ونیز باتوجه به اینکه در داده های بزرگ مشکلاتی چون همبستگی و داده ی پرت وجود دارد لذا روشهای اماری مانند لاسو و... که مبتنی بر توزیع اماری هستند ممکن است به انتخاب دقیق متغیرها نینجامد درحالیکه روشهای یادگیری ماشین چون ازاد توزیع هستند و به پیش فرض های اشاره شده در روشهای اماری ممکن است حساس نباشند لذا مقایسه این دو به کمک شبیه سازی با تولید داده ی زیاد میتواند راهگشای مناسب تری برای مسئله ی "انتخاب متغیر" باشند. رویکردهای انقباضی و یادگیری ماشین، بر خلاف روش های قدیمی که تنها مطالعه ژن های محدود را میسر می-نمودند، امکان بررسی بیان هزاران ژن را در حداقل زمان ممکن فراهم می سازند. بنابراین تشخیص دقیق سرطان می تواند با طبقه بندی داده های microRNA عملی باشد. هدف این مطالعه با توجه به مرور متون صورت پذیرفته توسط محققین، مطالعاتی که هدفشان انتخاب ژن های موثر در سرطان تخمدان بود مقایسه ای میان عملکرد این دو رویکرد انقباضی و یادگیری ماشین انجام نداده اند. از دید زیستی نیز انتخاب موثرترین زیست نشانگرها به طور قابل توجهی موجب بهبود دقت پیش بینی پیامد بیماری ها از جمله سرطان تخمدان می شود. بنابراین با توجه به اهمیت مطالعات سرطان شناسی در بخش های اقتصادی و سلامتی جامعه، تبیین و مقایسه الگوهای بیان ژن در دونمونه سالم و سرطانی، فرصتی را به وجود می آورد که بتوان به شناخت مناسب تری از بیماری سرطان تخمدان دست یافت |
| اهداف اختصاصی | مدلسازی رویکرد انقباضی در انتخاب متغیر و پیش­ بینی داده ­های سرطان تخمدان -مدلسازی رویکرد یادگیری ماشین در انتخاب متغیروپیش بینی داده­های سرطان تخمدان -مقایسه و ارزیابی عملکرد رویکردهای انقباضی و یادگیری ماشین در پیش بینی و انتخاب متغیرهای داده­های سرطان تخمدان |
| چکیده انگلیسی طرح | Ovarian cancer will be classified using regularization approaches and machine learning, that there is a large number of predictor variables (Genes) along with their interactions. in the preprocessing stage, including clearing, integrating, and deleting duplicate data, will be performed. Then, in the machine learning approach, the Boruta algorithm will be used, and in the regularization approach, some methods such as Lasso regression will be used. An extensive simulation study will be conducted to evaluate the accuracy of veraible selection and prediction. The data used in this study will be Serum microRNA profiles of 4046 woman samples, which consist of 333 of ovarian cancers, 66 of borderline ovarian tumours, 29 of benign ovarian diseases, 2759 of non-cancer controls, and 859 of the other solid cancers (Brest cancer colorectal cancer, Esophageal cancer, gastric cancer, lung cancer). It should be noted that the number of genes (independent variables in this study is approximately equal to 2500 genes. The collection of relevant data began on November 13, 2017, in Kanagawa, Japan and continued until October 23, 2019. This information from The https://www.ncbi.nlm.nih.gov/geo/ database will be extracted, and the models will be fitted using regularization approaches and machine learning from packages such as glmnet and Boruta in R and MATLAB software and the last step, the criteria of accuracy, sensitivity and specificity will be used to compare between models. |
| کلمات کلیدی | یادگیری ماشین(ML): تعریف نظری:یادگیری ماشین، مطالعهی علمی الگوریتمها و مدلهای آماری مورد استفادهی سیستمهای کامپیوتری است که بجای استفاده از دستورالعملهای واضح از الگوها و استنباط برای انجام وظایف سود میبرند. به عنوان زیر مجموعهای از هوش مصنوعی، الگوریتمهای یادگیری ماشین یک مدل ریاضی بر اساس دادههای نمونه یا "دادههای آموزش" به منظور پیشبینی یا تصمیمگیری بدون برنامهریزی آشکار، ایجاد میکنند (27). تعریف عملی: در این مطالعه منظور استفاده از روشهای MLبر روی داده های ریزآرایه از پکیج هایی همچون Glmnet در نرم افزار R استفاده خواهد شد (28). ژن تعریف نظری: دنبالهای از نوکلوئوتیدهاست که در برگیرنده اطلاعات لازم جهت تولید مولوکولهای RNA و یا پروتئینهای لازم برای سلول هستند. هر ژن در بخشی از DNA سلول وجود دارد (29). بیان ژن تعریف نظری: بیان ژن فرایندی است که در آن اطلاعات درون ژن استفاده میشود تا یک محصول کاربردی از آن بدست آید. محصول ژنها عمدتاً آمینو اسیدی هستند و از محصولات غیر آمینو اسیدی میتوان به rRNA،tRNA،snRNA اشاره کرد. فرایند بیان ژن به وسیله تمام یوکاریوتها و پروکاریوتها (باکتریها و..) انجام می شود (30). سرطان تخمدان تعریف نظری: به رشد بدخیم و غیرطبیعی سلول های تخمدان، سرطان تخمدان گفته می شود. تعریف عملی: در این مطالعه از داده های سرطان تخمدان تحت عنوان مججوعه داده های ریزآرایه خارج سلولی برای غربالگری سرطان تخمدان (Integrated extracellular microRNA profiling for ovarian cancer screening) استفاده شده است (31). |
| ذینفعان نتایج طرح | ذینفعان نتایج این طرح، برنامه ریزان و متخصصان حوزه سرطان شناسی هستند. با استفاده از نتایج این طرح تبیین و مقایسه الگوهای بیان ژن در دو بافت سالم و سرطانی، فرصتی را به وجود می آورد که بتوان به شناخت مناسب-تری از بیماری سرطان تخمدان دست یافت و با تولید داروهای آنتی ژن موثر به درمان به هنگام این بیماری کمک نمود. از آنجاییکه یک مانع عمده برای بهبود پیش آگهی در سرطان تخمدان ، عدم وجود روش های غربالگری موثر برای تشخیص زود هنگام است، لذا میکرو RNA ها(miRNA ها) به عنوان تعیین گر نشانگرهای زیستی امیدوار کننده شناخته شده اند که می توانند منجر به کاربردهایی در gynecological وکاربردهای بالینی شوند درنهایت کاهش هزینه های شیمی درمانی ، و افزایش بقای بیماران مبتلا به سرطان تخمدان میشود |
| نام و نامخانوادگی | سمت در طرح |
|---|---|
| ندا گیلانی | استاد راهنمای اول (آموزشی ) |
| رضا عربی بلاغی | مشاور |
| پروین سربخش | مشاور |
| فرزانه حمیدی | دانشجوی مالک پایان نامه |
| حوزه خبر | خبر |
|---|---|
| رسانه ها و مردم | عنوان خبر متن خبر |
| متخصصان و پژوهشگران | عنوان خبر استفاده از روش های یادگیری ماشین جهت دستیابی به زیست نشانگرهای بالقوه در شناسایی سرطان تخمدان دقت و عملکرد بالایی داشت.متن خبر باتوجه به اهمیت مطالعات سرطان شناسی و تجزیه و تحلیل داده های ریزارایه ای به سبب ابعاد بالای این اطلاعات مستلزم بکارگیری تکنیک های مختلف در یادگیری ماشین و روشهای آماری می باشد. در انتخاب زیست نشانگرهای مرتبط با سرطان تخمدان و نیز مقایسه ای میان عملکرد دو رویکرد اماری و یادگیری ماشین در انتخاب متغیر میتوان دید تازه ای در تعیین و تبیین روش های کاهش ابعاد و مدلسازی در پیش بینی وتشخیص سرطان تخمدان داشت. یافتههای این مطالعه طبق معیارهای ارزیابی روی مجموعه داده مورد مطالعه و نیز در 2 مجموعه داده دیگر شواهد قابلتوجهی مبنی بر پتانسیل تشخیصی امیدوارکننده مجموعه استخراجی از پروفایل miRNA سرمی برای سرطان تخمدان ارائه کرد. در بخش روش شناختی فاز شبیه سازی جهت مقایسه بین روشهای مطالعه، در اکثر سناریوهای انجام گرفته تحت شرایطی یادگیری ماشین عملکرد مطلوبتری نسبت به روشهای آماری دارد. پیشنهادات:1) بررسی استفاده از روش های تعمیم یافته ی لاسو و الاستیکنت برای انتخاب متغیر در داده های ابعاد بالا 2)بررسی روابط غیر خطی در شبیه سازی3) ارزیابی یافته ها در داده های مشابه که دارای اطلاعاتی مانند سن، مرحله سرطان، نژاد و سایر عوامل مرتبط با حوزه مطالعاتی سرطان باشد. |
| سیاستگذاران درمانی | عنوان خبر متن خبر |
| سیاستگذاران پژوهشی | عنوان خبر متن خبر |
| لینک (URL) مقاله انگلیسی مرتبط منتشر شده 1 |