خانه > داده کاوی (DataMining)

داده کاوی (DataMining)

روش ها و معیار‌های ارزیابی الگوریتم های هوش مصنوعی، مدل ها، داده کاوی و یادگیری ماشین

معیار‌های ارزیابی الگوریتم

معیار‌های ارزیابی مدل یا الگوریتم جهت تشخیص دقت و صحت در این مبحث می‌خواهیم تعدادی از معیار‌های ارزیابی هوش مصنوعی را بررسی کنیم. یکی از مهم‌ترین مراحل پس از طراحی و ساخت یک مدل یا یک الگوریتم، ارزیابی کارآیی (performance) آن است. در ادامه با روس هایی برای ارزیابی مدل آشنا می‌شویم. تعریف حساسیت (sensitivity) و …

ادامه مطلب

داده کاوی (Data Mining) و روش ها به زبان ساده

داده کاوی

 مقدمه ای بر داده کاوی : امروزه داده کاوی به عنوان پایه و مبنای تصمیم های مهم محسوب می‌شود. داده کاوی به ما کمک می‌کند که سامانه هایی را توسعه دهیم که قادر است از میان میلیون‌ها یا میلیاردها رکورد، روابط غیر آشکار را شناسایی کند. داده کاوی در حال تغییر دادن جهانی است که …

ادامه مطلب

پیشبینی ارتباط (لینک) در شبکه گراف های اجتماعی (link prediction)

پیشبینی لینک

پیشبینی لینک وجود ارتباط در شبکه گراف های اجتماعی (link prediction) پیشبینی لینک یا وجود ارتباط میان دو موجودیت بر اساس ویژگی‌های موجودیت‌ها و دیگر لینک‌های مشاهده شده در گراف را پیشبینی لینک[1] می‌گویند . یا به عبارت دیگر اگر در زمان n0  یک تصویر لحظه‌ای از مجموعه لینک‌ها داشته باشیم، هدف پیش‌بینی لینک‌ها در …

ادامه مطلب

سینگولاریتی و پیش بینی آینده SINGULARITY

پیش بینی آینده

  قبل از هر چیز باید با پیش بینی آینده (پیش بینی آینده) و روند تصاعدی تکنولوژی آشنا بشویم.  سه مرحله اساسی دیدن آینده در گذر تاریخ شامل موارد ذیل می باشد: موفق شدن بشر درطی کردن چرخه های تکرار شونده مثل فصول و رویش گیاهان که نتیجه آن کشاورزی بود پیش بینی چرخه هایی …

ادامه مطلب

جستجوی دیتاست گوگل سرویس بسیار کاربردی از گوگل

دیتاست گوگل

دیتاست (Dataset) یا مجموعه داده چیست؟ دیتاست یا مجموعه داده یا DataSet به مجموعه‌ای از داده‌ها می‌گویند که با موضوعیت واحد، جهت انجام کارها و پروژه‌های مربوط به علم داده استفاده می‌شوند. البته یک کاربرد دیگر دیتاست ها نیز برای مقایسه بین روش‌های مختلف هست، به این صورت که به‌طور نمونه بر روی دیتاست A، …

ادامه مطلب

یکسان سازی یا نرمال سازی متن با استفاده از کتابخانه JHazm

نرمال سازی متن

در متن کاوی منظور از پردازش زبان طبیعی (NLP)، قابل‌دسترس کردن زبان طبیعی برای ماشین است. پردازش زبان طبیعی، اسناد متنی بدون ساختار را دریافت و درنهایت به شکلی ساختاریافته تبدیل می‌کنند. در این حالت امکان استخراج اطلاعات از این اسناد وجود دارد. پردازش‌های متنی شامل تحلیل‌های صرفی و نحوی و معنایی متن ورودی است. …

ادامه مطلب

مثالی از داده کاوی و تحلیل گراف خطوط هوایی شبکه جهانی حمل و نقل

تحلیل گراف خطوط هوایی

در این پست یک تحلیل و بصری سازی خوب از گراف 60،000 پرواز در بین 3,275 فرودگاه جهان توسط 531 خطوط هوایی در 37،153 مسیر یکتا همراه با تحلیل خوشه بندی و تشخیص Centerality ارائه شده است. هر نود نشان دهنده یک فرودگاه است و اندازه گره نشان دهنده تعداد مسیرهای پرواز (مجموع 37153 مسیر) …

ادامه مطلب

آموزش CytoScape ابزاری برای تحلیل و بصری سازی گراف شبکه

آموزش CytoScape

معرفی و آموزش cytoscape  در پست های قبل برنامه cytoscape را با نرم افزار گفی مقایسه (اینجا) کردیم. همچنین نرم افزار گفی را (در اینجا) به طور تقریبا کامل آموزش دادیم در این مبحث میخواهیم به آموزش CytoScape بپردازیم. سایتواسکیپ یک نرم افزار برای آنالیز و تجسم سازی شبکه های اجتماعی است و در حوزه …

ادامه مطلب

معرفی DataStax پلتفرمی برای بیگ دیتا و داده کاوی

DataStax چیست؟

معرفی DataStax: شرکت دیتا استکس،  یک فروشنده نرم افزار های مدیریت داده است و با محصولات پایگاه داده RDBMS از اوراکل رقابت می کند. کارکنان DataStax همکاری کلیدی با پروژه آپاچی کاساندرا منبع باز دارند. این شرکت دارای بیش از 400 کارمند و دفاتر متعدد در خارج از کشور است. در نوامبر سال 2016، این …

ادامه مطلب

تعریف پیکره واژگان یا WordNet چیست؟

پیکره واژگان یا WordNet

پیکره واژگان یا WordNet یک مجموعه ی نسبتا بزرگ از لغات و ارتباط آن ها در ساختار متون است. وردنت در حقیقت رابطه معنایی بین دو کلمه را بیان میکند. به عنوان مثال کبوتر از نوع پرنده است و پرنده یک نوع حیوان است و حیوان یک نوع جاندار است. از پیکره برای متن کاوی، …

ادامه مطلب

روش‏ های تشخیص زبان در متن

روش‏ هاي تشخيص زبان

تشخیص زبان یک متن، یکی از اولین گام ها به سوی متن کاوی است. مخصوصا در فضای بزرگ سایبر که تنوع بسیار زیادی از داده ها وجود دارد. حتی ممکن است گاهی در اسناد سازمانی هم با تنوع متفاوتی از زبان ها در اسناد مواجه شویم. در بیشتر موارد مخصوصا اگر رنج تنوع زبان ها …

ادامه مطلب

نمونه برداری گراف شبکه های اجتماعی

نمونه برداری گراف

نمونه برداری گراف: شبکه های اجتماعی معمولا شامل تعداد زیادی نود هستند. در نتیجه گراف ناشی از این شبکه‌ها بسیار بزرگ بوده و طبیعتا گرافهای بزرگ این چنینی هزینه پردازش زیادی دارند. در این گونه گرافها حتی الگوریتمهای از مرتبه O(n2)  هم دارای پیچیدگی بالایی محسوب میشوند. زیرا بعنوان مثال گرافی حاوی یک میلیون نود …

ادامه مطلب

اصطلاحات علمی در حوزه تحلیل شبکه های اجتماعی(terminology)

اصطلاحات علمی تحلیل شبکه های اجتماعی

اصطلاحات علمی تحلیل شبکه های اجتماعی: ظهور و شناسایی شبکه‌های مختلف در پیرامون ما، از شبکه‌ی ژن‌هایی که خصوصیاتمان را تعیین می‌کنند تا شبکه‌های اجتماعی برخط که بیشترین بازدیدکنندگان در اینترنت را به خود اختصاص داده‌اند، منجر به نام‌گذاری این عصر به عصر شبکه‌ها گردیده است. با وجود تفاوت بسیار زیاد در ساختار این شبکه‌ها …

ادامه مطلب

مقایسه Neo4j با OrientDB با Titan

مقایسه Neo4j با OrientDB با Titan

 در رابطه با مقایسه سه پایگاه داده معروف مبنی بر گراف  Neo4j و  OrientDB و Titan خصیصه های زیر مورد بررسی قرار گرفته است. هدف کلی این مقایسه بررسی کارایی آن ها است. خصیصه های زیر برای مقایسه انتخاب شده و هر کدام از آنها بر روی هر سه بانک اطلاعاتی بررسی شده و زمان …

ادامه مطلب

ایندکس معکوس (inverted index) چیست؟

ایندکس معکوس

در قسمت های قبل روشهای شاخص گذاری بر روی داده ها را بررسی نمودیم. اکنون در بخش ایندکس معکوس (inverted index) مورد مطالعه قرار میدهیم. شاخص­ گذاری معکوس، یک مکانیزم مبتنی بر کلمه است که برای جستجوی سریع اسناد شامل یک کلمه­ خاص به کار می­رود. در اینجا منظور از سند، دنباله محدودی از کاراکترها است …

ادامه مطلب

محصولات و تکنولوژی های آپاچی در حوزه کلان داده و داده کاوی

تکنولوژی های آپاچی

یکی از موسسات مطرح در زمینه پشتیبانی از داده های حجیم، بنیاد آپاچی می باشد. لذا شناخت محصولات و تکنولوژی های نرم افزاری آپاچی بسیار لازم است. معمولا از مجموعه ی این تکنولوژی ها تحت عنوان اکوسیستم هدوپ یاد میشود. در این مبحث تکنولوژی های آپاچی بررسی خواهد. ActiveMQ این نرم افزار محبوب و قدرتمند …

ادامه مطلب