مولفه هایی مانند هدف تحلیل، دقت و صحت، سرعت و دادگان نامتوازن در انتخاب یک الگوریتم مناسب و بهینه در پروژه های داده کاوی Data Mining تاثیرگذار می باشند.
انتخاب الگوریتم بهینه در پروژه های Data Mining
یکی از چالش های مهم در پروژه های داده کاوی انتخاب الگوریتم مناسب و بهینه بنا به نیازمندی های مسئله است. در ادامه برخی از مؤلفه های کلیدی جهت انتخاب الگوریتم های یادگیری ماشین در یک پروژه داده کاوی ذکر خواهد گردید.
مؤلفه های کلیدی جهت گزینش الگوریتم مناسب در پروژه های داده کاوی!
هدف تحلیل (متغیرهدف): هدف تحلیل و نوع متغیر هدف (Target) از مهم ترین مؤلفه های انتخاب الگوریتم و تکنیک موردنیاز خواهد بود. هر یک از تحلیل های توصیفی، پیش بینانه و... توسط الگوریتم های مشخصی پشتیبانی خواهند شد. بهصورت کلی بنا به نوع متغیر هدف و تحلیل موردنیاز به الگوریتم های مختلفی همانند خوشه بندی، طبقه بندی، پیش بینی، کاهش بعد، قوانین انجمنی و... نیاز خواهد شد.
دقت و صحت: در برخی از مسائل که هدف کسب دقت بالاتر می باشد برخی از الگوریتم ها همانند SVM، شبکه های عصبی، Random Forest و... به نسبت سایر الگوریتم ها پیشنهاد می شود.
سرعت: در مسائلی که هدف سرعت بیشتر در مدل سازی است برخی الگوریتم ها همانند Naive Bayes، رگرسیون لوجستیک، رگرسیون خطی، درختهای تصمیم گیری و... عملکرد به مراتب بهتری نسبت به سایر الگوریتم ها دارند.
دادگان نامتوازن: یکی از چالش های اساسی در پروژه های داده کاوی وجود دادگان نامتوازن در کلاس متغیر هدف است. جهت مدیریت دادگان نامتوازن روش های متعددی همانند OverSampling یا UnderSampling وجود دارد اما برخی از الگوریتم ها نیز توانایی مدیریت این قبیل دادگان را دارند. از مهمترین الگوریتم هایی که توانایی مدیریت دادگان نامتوازن را دارند می توان به الگوریتمهای Random Forset, C4.5, C5.0, CART و... اشاره کرد.
انتخاب یک الگوریتم به سایر مؤلفه ها همانند وجود تخصص لازم در تیم تحلیل داده و توانایی پیاده سازی آن، لزوم مشخص بودن یا نبودن قوانین کشف شده همانند روش های BlackBox در مقابل روش های Rule Base بستگی دارد.
ارائه راه حل های کلی معمولاً کارآمد نخواهد بود اما در حوزه الگوریتم های یادگیری ماشین طبق تجربیات موجود در پروژه های مختلف دو الگوریتم SVM و Random Forest معمولاً دارای نتایج کارآمدتری هستند.
نویسنده:
مهندس محمدرضا محتاط