در این کارگاه که در روز جمعه ۱۷ دی ماه با شرکت تعدای از اعضای محترم هیئت علمی دانشگاه بر گزار شد دکتر رضاپور در خصوص داده کاوی گفت : “داده کاوی” یا “DATA MINING ” به زبان ساده فرایندی برای تبدیل داده های خام به اطلاعات مفید است. از طریق داده کاوی می توان حجم عظیم داده ها را جستجو کرد و از اطلاعات بدست آمده، دانش درون آن را کشف کرد.
وی اشاره کرد: ویژگی های اصلی داده کاوی کشف اتوماتیک الگوها در انجام پروژه های داده کاوی، پیش بینی احتمالی نتایج ، خروجی ها و تولید اطلاعات اجرایی و مفید است.
سخنران مراحل داده کاوی را اینگونه برشمرد:
مرحله اول: با استفاده از فهم کسب و کار داده ها جمع آوری می شوند. (Business Conception & Data Collecting)
مر حله دوم: پیش پردازش داده ها (Pre-Processing)
مرحله سوم: با استفاده از الگوریتم ها استخراج دانش صورت می گیرد (Running Algoritms & Extract Knowledge).
مرحله چهارم: ارزیابی نتایج به همراه اثبات صحت و دقت نتایج (Evaluation the Results).
مرحله پنجم: استفاده از دانش کشف شده (Using Discovered Knowledge)
وی در ادامه با اشاره به اینکه(Cross-Industry Standard Process for Data Mining) “CRISP” یکی از متداولترین فرآیندهای استاندارد برای انجام پروژه داده کاوی است افزود: . این فرآیند شامل شش مرحله است: درک کسب و کار، درک داده ها، آماده سازی داده ها، ارزیابی و استقرار نتایج که این مراحل متو ا لی نیست و امکان تغییر مراحل رفت و برگشت آنها وجود ارد.
ایشان وظایف داده کاوی را از دو بعد اینگونه بیان کرد:
الف) پیش بینی(Predictive): دسته بندی، رگرسیون، تحلیل سری زمالنی، پیش بینی
ب) توصیفی (Descriptive): خوشه بندی، خلاصه سازی، قواعد ارتباطی، کشف دنباله ها
استاد دانشکده کامپیوتر در ادامه الگوریتم های داده کاوی و یادگیری ماشین را به دو دسته کلی تقسیم کرد:
• یادگیری با ناظر (Supervised Learning)با استفاده از برچسب یا label ، برچسب داده های مشاهده نشده را تشخیص می دهد. در این روش داده ها هم دسته بندی و هم پیش بینی می شوند و به دو شکل رایج دسته بندی(Classification) و رگرسیون (Regression) مشاهده می شود.
• یادگیری بدون ناظر (Unsupervised Learning) معمولا برچسب داده ها موجود نیست و به دو شکل رایج پردازش مداوم (K-Mean Cluster) و درخت واره یا سلسله مراتبی (Hierarchical Cluster) مشاهده می شود.
وی مهمترین بخش داده کاوی را دسته بندی داده ها بوسیله درخت تصمیم گیری (Decision Tree) دانست و با ذکر مثال اینگونه توضیح داد: در بررسی تاثیر روش درمان یک بیماری بیماری در یک طرح مطالعاتی، مهمترین ریسک فاکتورها مثل جنسیت که در بروز آن بیماری تاثیر بیشتری دارد در اولین لایه ( در ریشه درخت) تصمیم گیری گذاشته می شود. ریسک فاکتورهای بعدی مثل سن، سواد، شغل، دیابت که اهمیت کمتری در بروز اان بیماری دارند در سطح دوم یا همان لایه های بعدی قرار می گیرند و در سطح سوم یا برگ های درخت نتایج درمان بیماری با توجه به آن ریسک فاکتورها قرار می گیرند.
دکتر رضاپور ماتریس پیش بینی (Confusion Matrix) را برای ارزیابی و پیش بینی نهایی لازم دانست و اضافه کرد از طریق معیارهای دقت یا صحت (Precision)، معیار پوشش یا فراخوان (Recall)و یا معیار حساسیت (Sensitivity) پیش بینی های واقعی و غیرواقعی نمایان می شود.
وی خاطر نشان کرد ابزارهای بسیاری برای داده کاوی در دسترس قرار دارد مثل Rapid Miner ، SQL و … که پس از یادگیری فرایند استفاده از آنها می توان در داده کاوی استفاده کرد. در پایان کارگاه دکتر رضاپور به سوالات همکاران پاسخ داد.
توضیح اینکه کارگاه افزایش کیفیت زندگی یکشنبهها، کارگاه دانشگاه نسل سوم و چهارم و نقش آن در اشتغال در روزهای پنج شنبه و کارگاه موضوعات در ارتباط با پژوهش در روزهای جمعه از ساعت ۲۰ تا ۲۱ برگزار می شود.
علاقهمندان میتوانند در فضای اسکای روم هر هفته این مباحث را پیگیری و برای شرکت در کارگاه روی لینک زیر کلیک کنند.
skyroom.online/ch/tums3/isargaran