خانه > داده کاوی (DataMining) > داده کاوی (Data Mining) و روش ها به زبان ساده

داده کاوی (Data Mining) و روش ها به زبان ساده

 مقدمه ای بر داده کاوی :

امروزه داده کاوی به عنوان پایه و مبنای تصمیم های مهم محسوب می‌شود. داده کاوی به ما کمک می‌کند که سامانه هایی را توسعه دهیم که قادر است از میان میلیون‌ها یا میلیاردها رکورد، روابط غیر آشکار را شناسایی کند. داده کاوی در حال تغییر دادن جهانی است که در آن زندگی می‌کنیم. به بیانی دیگر داده کاوی استخراج اطلاعات نهان و یا الگوها و روابط نهفته و غیر آشکار در حجم زیادی از داده‌ها در مخازن اطلاعاتی است.

داده کاوی ترجمه ی عبارت لاتین Data Mining و به معنای تحت الفظی “کاویدن داده” است. کلمه ی Mining در معنای تحت الفظی خود یعنی «استخراج از معدن» بکار می رود. در واقع عبارت Data Mining نشان می دهد که حجم انبوه اطلاعات مانند یک معدن عمل می کند و از ظاهر آن مشخص نیست چه عناصر گرانبهایی در عمق این معدن وجود دارد. تنها با کند و کاو و استخراج این معدن است که می توان به آن عناصر گرانبها دست پیدا کرد.

تفاوت داده کاوی و تحلیل های آماری

تفاوت اصلی داده کاوی و علم آمار، در حجم داده های مورد تحلیل، روش مدلسازی داده ها و استفاده از هوش مصنوعی است. داده کاوی شاخه ی توسعه یافته و پیچیده ی علم آمار است. داده کاوی یک روش حل مسئله مبتنی بر داده های موجود است. بر اساس استاندارد جهانی کریسپ دی ام (CRISP-DM) این فرایند حل مسئله را به اجرا می گذارد. داده کاوی در محل تلاقی سه رشته علمی قرار گرفته است:

۱٫ آمار (مطالعه عددی روابط داده‌ها)
۲٫ هوش مصنوعی (هوش انسان‌ مانند که توسط نرم‌افزار و یا ماشین ظهور می‌یابد)
۳٫ یادگیری ماشین (الگوریتم‌هایی که می‌تواند با آموزش دیدن از داده‌ها، آینده را پیش‌بینی کند)

داده کاوی با آنالیز های متداول آماری متفاوت است؛ در زیرمی توان برخی از اصلی ترین تفاوت های داده کاوی و آنالیز آماری را مشاهده نمود. 

آنالیز آماری:

•  آمار شناسان همیشه با یک فرضیه شروع به کار می کنند.

•  آنها از داده های عددی استفاده می کنند.

•   آمارشناسان باید رابطه هایی را ایجاد کنند که به فرضیه آنها مربوط است.

•  آنها می توانند داده های نابجا و نادرست را در طول آنالیز مشخص کنند.

•  آنها می توانند نتایج کار خود را تفسیر و برای مدیران بیان کنند.

داده کاوی:

•  به فرضیه احتیاجی ندارد.

•  ابزارهای داده کاوی از انواع مختلف داده ، نه تنها عددی می توانند استفاده کنند.

•  الگوریتمهای داده کاوی به طور اتوماتیک روابط را ایجاد می کنند.

•  داده کاوی به داده های صحیح و درست نیاز دارد.

•  نتایج داده کاوی نسبتا پیچیده می باشد و نیاز به متخصصانی جهت بیان آنها به مدیران دارد.

تفاوت داده کاوی و تحلیل های آماری
تفاوت داده کاوی و تحلیل های آماری

روش تحلیل آماری:

یک مفسر ممکن است متوجه الگوی رفتاری شود که سبب کلاهبرداری بیمه گردد. بر اساس این فرضیه، مفسر به طرح یک سری سوال می پردازد تا این موضوع را بررسی کند. اگر نتایج حاصله مناسب نبود، مفسر فرضیه را اصلاح می کند و یا با انتخاب فرضیه دیگری مجددا شروع می کند.

این روش نه تنها وقت گیر است بلکه به قدرت تجزیه و تحلیل مفسر نیز بستگی دارد. مهمتر از همه اینکه این روش هیچ وقت الگوهای کلاهبرداری دیگری را که مفسر به آنها مظنون نشده و در فرضیه جا نداده ، پیدا نمی کند.

روش داده کاوی:

یک مفسر  سیستم های داده کاوی را ساخته  و  پس از طی مراحلی از جمله  جمع آوری داده ها،  یکپارچه سازی داده ها به انجام عملیات داده کاوی می پردازد. داده کاوی تمام الگوهای غیرعادی را که از حالت عادی و نرمال انحراف دارند و ممکن است منجر به کلاهبرداری شوند را پیدا می کند.

نتایج داده کاوی حالت های مختلفی را که مفسر باید در مراحل بعدی تحقیق کند، نشان می دهند. در نهایت مدل های به دست آمده می توانند مشتریانی را که امکان کلاهبرداری دارند، پیش بینی نمایند.

ویژگی های اصلی داده کاوی:

  • کشف اتوماتیک الگوها
  • پیش بینی احتمالی نتایج و خروجی ها
  • ایجاد اطلاعات اجرایی و مفید
  • تمرکز بر روی داده های بزرگ و مجموعه پایگاه های داده

نمونه کاربردهای داده کاوی

استفاده تجاری

یکی از نمونه های بارز داده کاوی را می توان در فروشگاه های زنجیره ای مشاهده نمود، که در آن سعی می شود ارتباط محصولات مختلف هنگام خرید مشتریان مشخص گردد. فروشگاه های زنجیره ای مشتاقند بدانند که چه محصولاتی با یکدیگر به فروش می روند. برای مثال طی یک عملیات داده کاوی گسترده در یک فروشگاه زنجیره ای در آمریکای شمالی که بر روی حجم عظیمی از داده های فروش صورت گرفت، مشخص گردید که مشتریانی که تلویزیون خریداری می کنند، غالبا گلدان کریستالی نیز می خرند.

نمونه دیگر از استفاده تجاری

نمونه مشابه عملیات داده کاوی را می توان در یک شرکت بزرگ تولید و عرضه پوشاک در اروپا مشاهده نمود، به شکلی که نتایج داده کاوی مشخص می کرد که افرادی که کراوات های ابریشمی خریداری می کنند، در همان روز یا روزهای آینده گیره کراوات مشکی رنگ نیز خریداری می کنند. به روشنی این مطلب قابل درک است که این نوع استفاده از داده کاوی می تواند فروشگاه ها را در برگزاری هوشمندانه فستیوال های فروش و نحوه ارائه اجناس به مشتریان یاری رساند.

نمونه دیگر استفاده از داده کاوی در زمینه فروش را می توان در یک شرکت بزرگ دوبلاژ و تکثیر و عرضه فیلم های سینمایی در آمریکای شمالی مشاهده نمود که در آن عملیات داده کاوی، روابط مشتریان و هنرپیشه های سینمایی و نیز گروه های مختلف مشتریان بر اساس سبک فیلم ها (ترسناک، رمانتیک، حادثه ای و …) مشخص گردید.بنابراین آن شرکت به صورت کاملاً هوشمندانه می توانست مشتریان بالقوه فیلم های سینمایی را بر اساس علاقه مشتریان به هنرپیشه های مختلف و سبک های سینمایی شناسایی کند.

استفاده پزشکی

از دیگر زمینه های به کارگیری داده کاوی، استفاده بیمارستان ها و کارخانه های داروسازی جهت کشف الگوها و مدلهای ناشناخته تأثیر داروها بر بیماری های مختلف و نیز بیماران گروه های سنی مختلف را می توان نام برد.

استفاده در بانک داری

استفاده از داده کاوی در زمینه های مالی و بانکداری به شناخت مشتریان پر خطر و سودجو براساس معیارهایی از جمله سن، درآمد، وضعیت سکونت، تحصیلات، شغل و غیره می انجامد.

Michael Schrage کارشناس و تحلیلگر هاروارد می‎گوید: اگر داده کاوی و تحلیل‌های پیشگویانه (predictive analytics) به گونه‌ای درست و اصولی انجام شود، تحلیل‌ها فقط وسیله‌ای برای پیش‌بینی نیستند بلکه این پیش‎بینی‌ها به ابزاری برای به دست آوردن بینش‌های تحلیلی تبدیل خواهد شد.

مراحل اصلی در داده کاوی

معمولا داده کاوی در شش گام زیر صورت می گیرد. که در ادامه هر کدام شرح داده می شود.

  1. درک کسب و کار
  2. بررسی و درک داده ها
  3. آماده سازی داده ها
  4.  مدل سازی
  5. تست و ارزیابی مدل
  6. توسعه مدل نهایی و استقرار
داده کاوی
مراحل داده کاوی

مرحله اول: درک کسب و کار

کاربران برای اتخاذ تصمیم های مناسب در هنگام ایجاد مدل های داده کاوی باید به درک صحیحی از داده ها برسند. در این مرحله مواردی همچون الزامات مربوط به کسب کار، تعریف چارچوب مساله، تعریف معیارهای مورد استفاده برای ارزیابی مدل و تعریف اهداف مشخص برای پروژه ی داده کاوی صورت می پذیرد.

این فعالیت ها در قالب سوالات متعددی بیان میشود که پاسخ به این سوالات ممکن است مستلزم انجام تحقیق و بررسی در خصوص دسترس پذیری داده ها باشد. به عبارتی نیاز کاربران با توجه به داده های دردسترس تامین گردد. در صورتی که داده ها قادر به تامین نیازهای کاربران نباشند، ممکن است نیاز به تعریف مجدد پروژه باشد.

مرحله دوم: بررسی و درک داده ها

متخصص داده کاوی، داده های ثبت شده در کسب و کار کارفرما را از وی درخواست می کند و به بررسی داده ها می پردازد. متخصص داده کاوی با توجه به حجم و کیفیت داده ها مسئله ی طرح شده در مرحله ی قبل را تعدیل می کند تا نتیجه ی پروسه ی داده کاوی واقع بینانه تر بشود.

ماهیت مجموعه داده:

برای هر تحلیلی در دنیای داده کاوی می بایست دیتاست مناسب آن را فراهم آوریم. فرض کنید تحلیلی که می‌خواهید انجام شود در مورد رده‌بندی (Classification) است. درنتیجه ما باید به دنبال دیتاستی باشیم که Lable یا برچسب خورده باشد. یا در مثال دیگر، فرض کنید ما به دنبال ایجاد یا ارتقاء روشی برای کاهش ابعاد دیتا هستیم در این صورت نیز ما باید مجموعه داده ای را انتخاب کنیم که دارای بُعد زیاد باشد. یا فرض کنید که ما به دنبال تحلیل متن فارسی هستیم. پس بدیهی است که باید یک مجموعه داده به زبان فارسی پیدا کنیم. با این که فرض کنید میخواهیم تست فشار برای یک سیستم بزرگ مقیاس انجام دهیم پس باید به دنبال داده های حجیم باشم. گونه های مختلفی در دیتاست‌ها وجود دارد به‌طور خلاصه می‌توان دیتاست ها را به موارد زیر تقسیم‌بندی کنیم:

«کمی» (Quantitative): اندازه‌گیری‌ها یا شمارش‌هایی که به صورت مقادیر عددی ذخیره شده‌اند، داده‌های کمی هستند. از جمله این موارد می‌توان به درجه حرارت و قد افراد اشاره کرد.

«کیفی» (Qualitative): گروه یا دسته‌ها، برای مثال دسته مدارک تحصیلی (دیپلم، فوق دیپلم، لیسانس، فوق لیسانس و دکترا) یا گروه رنگ‌ها (زرد، قرمز و آبی) از این جمله‌اند.

«ترتیبی» (Ordinal): چنین داده‌هایی دارای یک ترتیب طبیعی هستند. اندازه پیراهن (XL ،L ، M ،S و XXL) و مدارج تحصیلی (دبستان، راهنمایی، دبیرستان، کارشناسی، کارشناسی ارشد و دکترا) از این جمله‌اند.

«اسمی» (Nominal): اسامی دسته‌ها، مانند وضعیت تاهل، جنسیت و رنگ‌ها از انواع داده‌های اسمی هستند.

«عددی» (Numeric): داده‌های عددی خود به دو دسته فاصله‌ای و نسبتی تقسیم می‌شوند. داده‌های فاصله‌ای بر اساس مقیاس واحدهایی با اندازه برابر اندازه‌گیری می‌شوند. مقادیر ویژگی‌های عددی دارای ترتیب هستند و می‌توانند مثبت، صفر و یا منفی باشند. یک داده نسبتی، خصیصه عددی دارای یک صفر مطلق است. اگر اندازه‌ها نسبتی باشند، می‌توان از نسبت مقادیر با یکدیگر سخن گفت. به علاوه، مقادیر قابل مرتب‌سازی شدن هستند و می‌توان تفاضل بین آن‌ها، میانگین، میانه و مُد را محاسبه کرد.

ماهیت مجموعه داده
انواع داده

داده ساختاریافته (Structured) با غیرساختاریافته (Unstructured) 

در بسیاری از مباحثِ داده‌کاوی، یادگیری‌ماشین و کلان‌داده‌ها (Big Data)، داده‌ها را می‌توان به دو دسته تقسیم‌بندی کرد:

۱. داده‌های ساختاریافته (Structured Data)
۲. داده‌های غیرساختاریافته (Unstructured Data)

این دو نوع داده تفاوت‌های اساسی با هم دارند و معمولا در عملیات داده‌کاوی و یادگیری‌ماشین سعی بر این است که داده‌های غیرساختاریافته را به داده‌های ساختاریافته تبدیل کنند تا برای ماشین (کامپیوتر) قابل فهم باشد.

حتماً با پایگاه داده‌هایی مانند Excel یا Sql Server کار کرده‌اید. این پایگاه‌داده‌ها معمولا سعی بر این دارند که داده‌ها را برای کامپیوتر قابل فهم کنند. در واقع داده‌های ساختاریافته که در Excel یا پایگاه‌داده‌های رابطه‌ای مانندِ Sql Server داریم، داده‌هایی هستند که می‌توان بر روی آن‌ها عملیات مختلف را با الگوریتم‌های شناخته‌شده‌ی کامپیوتری انجام داد. به این صورت است که می‌گوییم داده‌ها برای ماشین قابل فهم شده است.

داده ساختاریافته (Structured) با غیرساختاریافته (Unstructured) 
داده ساختاریافته (Structured) با غیرساختاریافته (Unstructured)

مرحله سوم: آماده سازی یا پیش پردازش داده ها

این امکان وجود دارد که داده ها در سراسر سازمان توزیع شده و در قالب های مختلف ذخیره گردند و یا اینکه ممکن است شامل تناقضات و ناسازگاری هایی از جمله ورودی های نادرست یا از دست رفته باشند.

مراحل Data Cleansing یا تمیزسازی داده (با تلفظ: دیتا کلینزینگ)

۱- مجتمع کردن داده ها
۲- بازسازی داده های گم شده
۳- استانداد سازی یا یک شکل کردن داده
۴- نرمال سازی داده

پاک سازی داده
پاک سازی داده

فرآیند پاکسازی داده ها (Data Cleansing) تنها به حذف داده های نامناسب یا وارد کردن مقادیر از دست رفته خلاصه نمی شود. پاکسازی کشف روابط پنهان شده ی میان داده ها، شناسایی دقیق ترین منابع داده و تعیین مناسب ترین ستون ها برای استفاده در آنالیز را نیز دربر میگیرد. لازم به ذکر است که داده های ناقص، داده های نادرست و داده های ورودی به ظاهر مجزا اما در حقیقت بسیار به هم پیوسته و مرتبط با یکدیگر، می توانند تاثیری فراتر از حد انتظار بر روی نتایج داشته باشند.

یک داده با کیفیت برای تحلیل معمولا شش ویژگی زیر را دارد:
۱- ارزش یا اعتبار داده
۲- دقت و صحت داده
۳- دوام یا پایداری داده
۴- یکپارچگی ارتباطات و بخش های مختلف داده
۵- بردار زمانی داده

اعتبارسنجی داده
اعتبارسنجی داده

تذکر:

الزامی در رابطه با ذخیره ی داده های مورد استفاده در داده کاوی بر روی یک پایگاه داده ی Cube OLAP و یا پایگاه های داده ی رابطه ای (Relational Database) وجود ندارد، اگرچه میتوان از هردوی آنها به عنوان منبع های داده استفاده نمود. بنابراین فرآیند داده کاوی را میتوان با استفاده از هر منبع داده ای که به عنوان منبع داده ی Analysis Services تعریف شده باشد، انجام داد. این منابع داده ممکن است شامل فایل های متنی (Text) و Workbookهای Excel یا داده های سایر منابع خارجی باشد. 

نمونه برداری…

قابل جستجو کردن داده ها

 از جمله تکنیک های جستجو میتوان به محاسبه ی حداقل و حداکثر مقادیر، محاسبه ی میانگین و انحراف معیار و توجه به توزیع داده ها اشاره نمود. به طور مثال، این امکان وجود دارد تا با بازنگری حداقل، حداکثر و میانگین مقادیر به این نتیجه گیری دست یافت که داده ها قادر به نمایش فرآیندهای مرتبط با مشتریان یا کسب و کار نبوده و از همین رو نیاز به کسب داده های متوازن تر یا بازنگری فرضیاتی است که انتظارات بر مبنای آن شکل گرفته است.

با توجه به انحراف معیار و سایر مقادیر توزیعی می توان به اطلاعات مفیدی درباره ی ثبات و دقت نتایج دست یافت. انحراف معیار بالا ممکن است نشانه ی آن باشد که افزایش میزان داده ها میتواند به بهبود مدل کمک نماید. داده هایی که انحراف زیادی از توزیع استاندارد داشته باشند احتمالا خطا دارند، بدین معنا که تصویر دقیقی از یک مسئله در دنیای واقعی ارائه میدهند اما تناسب و هماهنگی مدل با داده ها را دشوار می نمایند.

مرحله چهارم: مدل سازی

قدم چهارم مدلسازی داده های آماده سازی شده است. با توجه به متدهای متفاوت، مدل های متفاوتی ساخته می شود و بهترین مدل ها از نظر متخصص داده کاوی انتخاب می شود. ستون هایی از داده ها که برای استفاده در نظر گرفته شده اند را میتوان با ایجاد یک ساختار داده کاوی (Mining Structure)، تعریف نمود.

هرچند ساختار داده کاوی، به منبع داده ها مرتبط میگردد اما در واقع تا قبل از پردازش، شامل هیچ داده ای نمی شود و در هنگام پردازش نمودن ساختار داده کاوی، Analysis Services میتواند اطلاعات گردآوری شده و سایر اطلاعات آماری مورد استفاده برای آنالیز را ارائه نماید.

ضمن اینکه این اطلاعات در هر مدل داده کاوی ساختاریافته نیز مورد استفاده قرار میگیرد. پیش از پردازش ساختار و مدل، مدل داده کاوی نیز تنها یک ظرفیت خالی محسوب میشود که مشخص کننده ی ستون های مربوط به داده های ورودی، صفات یا Attribute های پیش بینی شده و پارامترهایی میباشد که نحوه ی پردازش داده ها توسط الگوریتم را معین میکند.

پردازش یک مدلِ اغلب Training یا آموزشی نامیده میشود و در واقع فرآیندی است جهت به کارگیری یک الگوریتم ریاضی خاص برای داده های یک ساختار و هدف آن، استخراج الگوها میباشد. نوع الگوهای یافت شده در روند Training به مواردی همچون انتخاب داده های Training، الگوریتم انتخاب شده و چگونگی پیکربندی الگوریتم بستگی دارد.

چگونه روش مناسب داده کاوی را تشخیص دهیم؟

تصویر زیر یک فلوچارتِ راهنمایِ بسیار خوب جهت تشخیص الگوریتم های داده کاوی در چهار حوزه طبقه بندی (یادگیری ماشین)، خوشه بندی، کاهش ابعاد و رگرسیون را ارائه میدهد. این تصویر راهنما، بر اساس مقدار دیتاستی که در دسترس است و نوع تحلیلی که قرار است رو آن انجام شود مسیر مطلوب را نمایش میدهد. مربع های سبز رنگ نشان دهنده نام الگوریتم ها و بیضی های آبی رنگ شرایط مورد نظر مبیاشد.

مرحله پنجم: تست و ارزیابی مدل

پیش از پیاده سازی مدل در محیط عملیاتی باید نحوه عملکرد آن مورد بررسی قرار گیرد. به علاوه در هنگام تهیه مدل معمولا باید چندین مدل با پیکربندی های متفاوت ارائه شوند تا پس از تست نمودن آنها بتوان به مدلی دست یافت که بهترین نتیجه را در ارتباط با مشکلات و داده ها فراهم می آورد.

مدل های ساخته شده تست و ارزیابی می شوند و بهترین مدل از نظر مسئله ی طرح شده در مرحله ی یک، انتخاب می شود. سپس در تبادل نظر با کارفرما، موثر بودن مدل انتخاب شده بررسی می شود. در صورتی که مدل انتخاب شده کمکی در حل مسئله نمی کند کل فرایند از مرحله ی یک دوباره انجام می شود.

CRISP-DM
مدل داده کاوی CRISP-DM

مرحله ششم: توسعه مدل نهایی و استقرار

پس از استقرار Mining Model در یک محیط عملیاتی میتوان عملکرد های بسیاری را با توجه به نیازها اجرا نمود. در زیر به برخی از این عملکردها اشاره می شود. استفاده از مدلها برای فرآیندهای پیش بینی که ممکن است در مراحل بعدی برای اتخاذ تصمیمات در کسب و کار نیز به کار گرفته شود.
انجام Query های محتوا به منظور بازیابی اطلاعات آماری، قواعد یا فرمولهای مربوط به مدل ها 
جایگذاریِ مستقیم عملکرد داده کاوی در برنامه های کاربردی
ارائه گزارشی که امکان Query نمودن مستقیم در مدل داده کاوی موجود را برای کاربران فراهم میکند.

انواع داده کاوی :

در داده کاوی از الگوریتم‌ها و شیوه‌های مختلفی استفاده می‌شود. روش‌های اصلی داده کاوی به سه دسته کلی تقسیم می‌شوند: توصیفی و پیشگویی و تجویزی. این سه گروه، بیانگر اهداف و عملکرد روش‌های داده کاوی نیز هستند.

انواع داده کاوی
انواع داده کاوی

مدل‌سازی توصیفی

آشکارسازی موارد مشابه یا گروه‌های مشترک در داده‌های موجود، با هدف تشخیص دلایل موفقیت یا شکست؛ از قبیل دسته‌بندی مشتریان بر اساس ترجیحات محصول یا احساسات آنها.

برخی تکنیک‌های مورد استفاده در این روش عبارتند از:

  • خوشه‌بندی (Clustering): گروه‌بندی رکوردهای مشابه
  • کشف ناهنجاری (Anomaly detection): تشخیص الگوهای چندبعدی نامتعارف.
  • یادگیری قانون وابستگی (Association rule learning): شناسایی روابط میان رکوردها.
  • تحلیل مولفه‌های اصلی (Principal component analysis): شناسایی روابط میان متغیرها.
  • گروه‌بندی شباهت (Affinity grouping): گروه‌بندی افراد با علایق مشترک یا اهداف مشابه. (مثال: مردمی که الف را می‌خرند، معمولاً ب را نیز می‌خرند و احتمال دارد که ج را نیز خرید کنند).

مدل‌سازی پیش‌بینانه

این مدل به گونه‌ای عمیق‌تر، به دسته‌بندی رویدادها در آینده می‌پردازد و می‌کوشد نتایج ناشناخته را پیشاپیش برآورد کند. به عنوان مثال، با استفاده از امتیاز اعتباری یک فرد، میزان احتمال بازپرداخت اقساط وام او را تخمین می‌زند. مدل پیش‌بینانه همچنین در دستیابی به بینش‌های مرتبط با اموری همچون رویگردانی مشتری، پاسخ به کمپین یا افول اعتبار کمک می‌کند. برخی تکنیک‌های مورد استفاده در این روش عبارتند از:

  • رگرسیون (Regression): اندازه‌گیری شدت رابطه‌ی میان یک متغیر وابسته و مجموعه‌ای از متغیرهای مستقلشبکه‌های عصبی (Neural networks): برنامه‌های رایانه‌ای که می‌تواند الگوها را شناسایی کند، دست به پیش‌بینی بزند و آموزش ببیند.
  • درخت‌های تصمیم‌گیری (Decision trees): نمودارهایی به شکل درخت که هر شاخه آن نشان‌دهنده یک رویداد احتمالی است.
  • ماشین‌های بردار پشتیبان (Support vector machines): مدل‌هایِ یادگیریِ تحت نظارت، در هماهنگی با الگوریتم‌های یادگیری.

مدل‌سازی تجویزی

پا به پای رشد داده‌های بدون ساختار در وب، فیلدهای اظهار نظر، کتاب‌ها، ایمیل‌ها، فایل‌های پی‌دی‌اف، منابع متنی و فایل‌های صوتی، متن کاوی (text mining) نیز که یکی از شاخه‌های داده کاوی محسوب می‌شود، افزایش قابل توجهی داشته است. انواع تکنیکهای مرتبط با تحلیل متن:
– علامت گذاری متن
– متن کاوی
– طبقه بندی متن
– خوشه بندی متن
– نمایه گذاری متن
– مدل کردن پیشبینی
– تحلیل ارتباطات
– خلاصه سازی متن
– بصری سازی متن

 در ادامه برخی از موارد فوق تشریح می شود.

دسته بندی

 دسته بندی یا طبقه بندی در واقع ارزشیابی ویژگی‌های مجموعه‌ای از داده‌ها و سپس اختصاص دادن آن‌ها به مجموعه‌ای از گروه‌های از پیش تعریف شده است. این متداول‌ترین قابلیت داده کاوی می‌باشد. در دسته بندی، به دنبال مدلی هستیم که با تشخیص دسته‌ها می‌تواند دسته ناشناخته اشیاء دیگر را پیش بینی کند.

دسته بندی جهت پیشگویی مقادیر گسسته و اسمی مورد استفاده قرار می‌گیرد. دسته بندی نوعی یادگیری است که به کمک نمونه‌ها صورت می‌گیرد و طبقه بندی بر اساس مجموعه‌های از پیش تعریف شده انجام می‌شود لذا می‌توان گفت دسته بندی یادگیری با نظارت (هدایت شده) است.

دسته بندی فرآیندی دو مرحله‌ای می‌باشد. در گام اول، یک مدل بر اساس مجموعه داده‌های آموزشی موجود در پایگاه داده‌ها ساخته می‌شود. این مدل‌ها به فرم‌هایی از درخت تصمیم، یا فرمول‌های ریاضی نمایش داده می‌شود. مجموعه داده‌های آموزشی از رکوردها، نمونه‌ها، مثال‌ها و یا اشیائی که شامل مجموعه‌ای از صفات یا جنبه‌ها می‌باشد، تشکیل شده‌اند.

رگرسیون

 رگرسیون بهترین مدلی است که می‏تواند متغیرهای خروجی را با متغیرهای ورودی متعدد ارتباط دهد. ساده‌ترین حالت آن، مدل به ارزش خطی است، یعنی ارتباط بین متغیرهای ورودی و خروجی را به صورت خطی برقرار می‌کند. از نقطه نظر کلی، دسته بندی و رگرسیون دو نوع اصلی از مسائل پیشگویی هستند، که دسته بندی، جهت پیشگویی مقادیر گسسته و اسمی مورد استفاده قرار می‌گیرد، در حالی که رگرسیون جهت پیشگویی مقادیر پیوسته مورد استفاده قرار می‌گیرد.

انواع مدل‌های یکسانی را می‌توان هم برای رگرسیون و هم برای دسته بندی استفاده کرد. برای مثال الگوریتم درخت تصمیم CART را می‌توان هم برای ساخت درخت‌های دسته بندی و هم درخت‌های رگرسیون استفاده کرد. شبکه‌های عصبی را نیز می‌توان برای هر دو مورد استفاده کرد.

  

سری‌های زمانی

تحلیل سری‌های زمانی تکنیکی دیگر در داده‌کاوی که هدف از آن، یافتن خصوصیات جالب توجه و نظم‌های مشخص در حجم بالای داده است. یکی از  سری های زمانی دنباله‌ای مرتب شده از مشاهدات است که،ارزش یک شیء را به عنوان تابعی از زمان در مجموعه داده‌های جمع آوری شده توصیف می‌کند. رخداد وقایع متوالی در اصل مجموعه‌ی وقایعی است که بعد از یک واقعه‌ی مشخص به وقوع می‌پیوندند.

تکنیک های روش توصیفی

در روش‌های توصیفی، خواص عمومی داده‌ها بیان می‌شود. هدف از توصیف، یافتن الگوهایی در مورد داده‌هاست که برای انسان قابل تفسیر باشد. روش توصیفی نیز شامل تکنیک‌های: خوشه بندی، خلاصه سازی، کشف توالی (تحلیل دنباله) ، قوانین انجمنی می‌باشد.

خوشه بندی

خوشه بندی، گروه بندی نمونه‌های مشابه با هم، در یک حجم داده می‌باشد. خوشه بندی یک دسته بندی بدون نظارت (هدایت نشده) است. دسته‌ها از قبل تعریف نشده اند. در خوشه‌بندی -بر خلاف طبقه‌بندی که هر داده به یک طبقه‌ی (کلاس) از پیش مشخص شده تخصیص می‌یابد- هیچ اطلاعی از کلاس‌های موجود درون داده‌ها وجود ندارد. به عبارتی خود خوشه‌ها نیز از داده‌ها استخراج می‌شوند.

هدف از خوشه بندی این است که داده‌های موجود، به چند گروه  تقسیم  شوند. در این تقسیم بندی داده‌های گروه‌های مختلف حداکثر تفاوت ممکن را به هم داشته باشند و داده‌های موجود در یک گروه باید بسیار به هم شبیه باشند. (تشابه یا عدم تشابه بر اساس معیارهای اندازه گیری فاصله تعریف می‌شود.) پس از اینکه داده‌ها به چند گروه منطقی و توجیه پذیر تقسیم شدند از این تقسیم بندی می‌توان برای کسب اطلاعات در مورد داده‌ها یا تقسیم داده‌ها جدید استفاده کنیم.

  

قوانین انجمنی

استخراج قواعد انجمنی، نوعی عملیات داده کاوی است که به جستجو برای یافتن ارتباط بین ویژگی‌ها در مجموعه داده‌ها می‌پردازد. نام دیگر این روش، تحلیل سبد بازار است. این روش به دنبال استخراج قواعد، به منظور کمی کردن ارتباط میان دو یا چند خصوصیت می‌باشد. قواعد انجمنی ماهیتی احتمالی دارد و به شکل اگر و آنگاه و به همراه دو معیار پشتیبان و اطمینان تعریف می‌شوند. این دو شاخص به ترتیب مفید بودن و اطمینان از قواعد مکشوفه را نشان می‌دهند.

معیار اطمینان: میزان وابستگی یک کالای خاص را به دیگری بیان می‌کند. یعنی درجه وابستگی بین دو مجموعه X و Y را محاسبه می‌کند و به عنوان شاخصی برای اندازه گیری توان یک قاعده در نظر گرفته می‌شود. معیار پشتیبان (X,Y): نشان دهنده درصد یا تعداد تراکنش هایی (زیرمجموعه‌هایی از اقلام خریداری شده) است که شامل هر دوی اقلام (مجموعه اقلام)X  و Y باشند.

مثال‌هایی از کاربرد قوانین انجمنی می‌تواند این گونه باشد:

بررسی اینکه چه اقلامی در یک فروشگاه با هم خریداری می‌شوند و اینکه چه اقلامی هیچ گاه خریداری نمی‌شوند.
بررسی ارتباط بین توانایی خواندن کودکان با خواندن داستان توسط والدین برای آن‌ها.
اگر مجموعه‌ای از عناصر، حداقل پشتیبانی را داشته باشند، “مکرر” خوانده می‌شوند.
“قواعد قوی” قواعدی هستند که به طور توامان دارای مقدار پشتیبان و اطمینان بیش از آستانه باشند.
با استفاده از این مفاهیم پیدا کردن قواعد انجمنی در دو گام خلاصه می‌شود،: پیدا کردن مجموعه‌های مکرر و استخراج قواعد قوی.

خلاصه سازی (تلخیص)

در برگیرنده روش‌هایی برای یافتن یک توصیف فشرده از زیر مجموعه‌ای از داده‌ها است. به عنوان مثالی ساده می‌توان اشاره داشت به: تهیه‌ی جدول میانگین و انحراف معیار برای تمام فیلدها. روش‌های پیچیده‌تر شامل استنتاج قواعد خلاصه، فنون مصورسازی چند متغیره و کشف رابطه تابعی بین متغیرهاست. کاربرد فنون تلخیص معمولاً در تحلیل اکتشافی داده‌ها و تولید گزارش خودکار به کار برده می‌شوند.

مدل‌سازی وابستگی (تحلیل لینک)

شامل یافتن مدلی برای توصیف وابستگی‌های معنی دار بین متغیرهاست. مدل‌های وابستگی در  دو سطح وجود دارند: سطح ساختاری و سطح کمّی. در سطح ساختاری، مدل از طریق رسم شکل مشخص می‌کند که کدام متغیرها به طور محلی به دیگری وابسته‌اند. در سطح کمّی، مدل قدرت وابستگی‌ها را با مقیاس عددی مشخص می‌کند.
 وابستگی‌ها به صورت A->B نمایش داده می‌شوند که به A مقدم و به B موخر یا نتیجه گفته می‌شود. مثلاً اگر یک قانون به صورت زیر داشته باشیم:
” اگر افراد چکش بخرند، آنگاه آن‌ها میخ خواهند خرید”
در این قانون مقدم، خرید چکش و نتیجه، خرید میخ می‌باشد.

 نمودار انواع روش های یادگیری ماشین همراه با مورد استفاده (Use Case):

  •  روش های یادگیری بی نظارت مانند:

خوشه بندی

کاهش ابعاد

  • روش های یادگیری با نظارت مانند:

 رده بندی

رگرسیون

  • روش های یادگیری تقویتی

نرم افزارها و ابزار هایی داده کاوی

بدون شک، زبان برنامه نویسی و بسته نرم افزاری R یکی از مهم ترین و کارآمدترین ابزارها در زمینه تحلیل و استنتاج آماری و انجام انواع محاسبات است. زبان برنامه نویسی R، امکانات فراوانی نیز، برای انجام عملیات داده کاوی و پیاده سازی الگوریتم های مربوط به آن است. این بسته نرم افزاری، کاملا رایگان و متن باز است. برای داده کاوی از نرم افزار های مختلفی میشود استفاده کرد از جمله:

یکی دیگر از ابزارهای مهم و کاربردی در زمینه داده کاوی، نرم افزار اکسل (Microsoft Excel) است، که به صورت پیش فرض و بعضا با افزودن برخی افزونه های تجاری، امکان انجام عملیات داده کاوی را فراهم می آورد.

نرم افزار رپیدماینر (RapidMiner) 

نیز، یکی دیگر از نرم افزارهای تخصصی داده کاوی است که امکانات متعددی را برای انجام انواع عملیات داده کاوی، یادگیری ماشین، پردازش متن، پیش بینی و تحلیل اقتصادی-مالی، تدارک دیده است. نسخه های قدیمی تر این نرم افزار به صورت متن باز منتشر شده اند؛ اما نسخه جدید آن، به صورت تجاری در دسترس قرار گرفته است.

بسته نرم افزاری Weka

یکی دیگر از مجموعه های نرم افزاری متن باز است که به زبان جاوا پیاده سازی شده است، و گروهی مستقر در دانشگاه وایکاتو (Waikato) در کشور نیوزلند، مسئولیت توسعه و نگهداری این بسته نرم افزاری را بر عهده دارند. این مجموعه نرم افزاری به صورت اختصاصی برای انجام عملیات یادگیری ماشین پیاده سازی شده است، که طبعا کاربردهای فراوانی را می تواند در حوزه داده کاوی داشته باشند. این بسته نرم افزاری به صورت رایگان و متن باز توزیع شده است.

نرم افزار و زبان برنامه نویسی متلب (MATLAB)

به عنوان یک نرم افزار بسیار پر کاربرد، دارای امکانابت بسیار زیادی برای رشته های مختلف است، که از آن جمله می توان به موضوع تحلیل و استنتاج آماری، یادگیری ماشینی، سیستم های فازی، شبکه های عصبی مصنوعی، مدل سازی، بهینه سازی و پیش بینی اشاره کرد، که همگی دارای کاربردهای گسترده در داده کاوی هستند.

در کنار قابلیت های موجود در نرم افزار متلب، می توان با استفاده از زبان برنامه نویسی متلب نیز، الگوریتم های جدید و مورد نیاز را نیز پیاده سازی کرد. هسته اصلی نرم افزار متلب به صورت تجاری توزیع شده است. اما برخی کتابخانه ها و جعبه ابزارهای رایگان نیز برای انجام عملیات داده کاوی توسط گروه های پژوهشی و دانشگاهی مختلف قابل استفاده هستند.

مجموعه نرم افزارهای IBM SPSS

برای تحلیل آماری (IBM SPSS Statistics)، و داده کاوی و مدل سازی (IBM SPSS Modeler)، مجموعه ای قدرتمند از ابزارها را برای انجام عملیات مختلف داده کاوی فراهم کرده اند. این نرم افزار ها، به صورت تجاری ارائه شده اند.

 

آدرس کانال تلگرام سایت بیگ دیتا:

t.me/bigdata_channel

آدرس کانال سروش ما:
https://sapp.ir/bigdata_channel

جهت دیدن سرفصل های دوره های آموزشی بر روی اینجا کلیک کنید.

 

 

منابع:

http://scikit-learn.org/

http://www.iranresearches.ir/دانلود-رایگان-خبرخوان-2/1772-همه-آنچه-درباره-داده-کاوی-باید-بدانیم.html

.http://blog.vla.ir/داده-کاوی-چیست-و-چه-فایده-ای-دارد؟.html/

http://aminaramesh.ir/1397/12/12/معرفی-شغل-داده-کاوی/

https://education.systemgroup.net/blog/داده-کاوی-چیست-و-چرا-مهم-است؟/

.http://www.dayche.com/data-mining-definition/

https://www.parsdata.com/articles/what-is-data-mining

http://www.iranresearches.ir/دانلود-رایگان-خبرخوان-2/1772-همه-آنچه-درباره-داده-کاوی-باید-بدانیم.html

http://amnhak.blog.ir/1393/05/26

 

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *