خانه --> داده کاوی (DataMining)

داده کاوی (DataMining)

جستجوی دیتاست گوگل سرویس بسیار کاربردی از گوگل

دیتاست گوگل

دیتاست (Dataset) یا مجموعه داده چیست؟ دیتاست یا مجموعه داده یا DataSet به مجموعه‌ای از داده‌ها می‌گویند که با موضوعیت واحد، جهت انجام کارها و پروژه‌های مربوط به علم داده استفاده می‌شوند. البته یک کاربرد دیگر دیتاست ها نیز برای مقایسه بین روش‌های مختلف هست، به این صورت که به‌طور نمونه بر روی دیتاست A، …

ادامه نوشته »

یکسان سازی یا نرمال سازی متن با استفاده از کتابخانه JHazm

نرمال سازی متن

در متن کاوی منظور از پردازش زبان طبیعی (NLP)، قابل‌دسترس کردن زبان طبیعی برای ماشین است. پردازش زبان طبیعی، اسناد متنی بدون ساختار را دریافت و درنهایت به شکلی ساختاریافته تبدیل می‌کنند. در این حالت امکان استخراج اطلاعات از این اسناد وجود دارد. پردازش‌های متنی شامل تحلیل‌های صرفی و نحوی و معنایی متن ورودی است. …

ادامه نوشته »

مثالی از داده کاوی و تحلیل گراف خطوط هوایی شبکه جهانی حمل و نقل

تحلیل گراف خطوط هوایی

در این پست یک تحلیل و بصری سازی خوب از گراف ۶۰،۰۰۰ پرواز در بین ۳,۲۷۵ فرودگاه جهان توسط ۵۳۱ خطوط هوایی در ۳۷،۱۵۳ مسیر یکتا همراه با تحلیل خوشه بندی و تشخیص Centerality ارائه شده است. هر نود نشان دهنده یک فرودگاه است و اندازه گره نشان دهنده تعداد مسیرهای پرواز (مجموع ۳۷۱۵۳ مسیر) …

ادامه نوشته »

آموزش CytoScape ابزاری برای تحلیل و بصری سازی گراف شبکه

آموزش CytoScape

معرفی و آموزش cytoscape  در پست های قبل برنامه cytoscape را با نرم افزار گفی مقایسه (اینجا) کردیم. همچنین نرم افزار گفی را (در اینجا) به طور تقریبا کامل آموزش دادیم در این مبحث میخواهیم به آموزش CytoScape بپردازیم. سایتواسکیپ یک نرم افزار برای آنالیز و تجسم سازی شبکه های اجتماعی است و در حوزه …

ادامه نوشته »

معرفی DataStax پلتفرمی برای بیگ دیتا و داده کاوی

DataStax چیست؟

معرفی DataStax: شرکت دیتا استکس،  یک فروشنده نرم افزار های مدیریت داده است و با محصولات پایگاه داده RDBMS از اوراکل رقابت می کند. کارکنان DataStax همکاری کلیدی با پروژه آپاچی کاساندرا منبع باز دارند. این شرکت دارای بیش از ۴۰۰ کارمند و دفاتر متعدد در خارج از کشور است. در نوامبر سال ۲۰۱۶، این …

ادامه نوشته »

تعریف پیکره واژگان یا WordNet چیست؟

پیکره واژگان یا WordNet

پیکره واژگان یا WordNet یک مجموعه ی نسبتا بزرگ از لغات و ارتباط آن ها در ساختار متون است. وردنت در حقیقت رابطه معنایی بین دو کلمه را بیان میکند. به عنوان مثال کبوتر از نوع پرنده است و پرنده یک نوع حیوان است و حیوان یک نوع جاندار است. از پیکره برای متن کاوی، …

ادامه نوشته »

روش‏ های تشخیص زبان در متن

روش‏ هاي تشخيص زبان

تشخیص زبان یک متن، یکی از اولین گام ها به سوی متن کاوی است. مخصوصا در فضای بزرگ سایبر که تنوع بسیار زیادی از داده ها وجود دارد. حتی ممکن است گاهی در اسناد سازمانی هم با تنوع متفاوتی از زبان ها در اسناد مواجه شویم. در بیشتر موارد مخصوصا اگر رنج تنوع زبان ها …

ادامه نوشته »

نمونه برداری گراف شبکه های اجتماعی

نمونه برداری گراف

نمونه برداری گراف: شبکه های اجتماعی معمولا شامل تعداد زیادی نود هستند. در نتیجه گراف ناشی از این شبکه‌ها بسیار بزرگ بوده و طبیعتا گرافهای بزرگ این چنینی هزینه پردازش زیادی دارند. در این گونه گرافها حتی الگوریتمهای از مرتبه O(n2)  هم دارای پیچیدگی بالایی محسوب میشوند. زیرا بعنوان مثال گرافی حاوی یک میلیون نود …

ادامه نوشته »

پیشبینی ارتباط (لینک) در شبکه گراف های اجتماعی (link prediction)

پیشبینی لینک

پیشبینی لینک وجود ارتباط در شبکه گراف های اجتماعی (link prediction) پیشبینی لینک یا وجود ارتباط میان دو موجودیت بر اساس ویژگی‌های موجودیت‌ها و دیگر لینک‌های مشاهده شده در گراف را پیشبینی لینک[۱] می‌گویند . یا به عبارت دیگر اگر در زمان  یک تصویر لحظه‌ای از مجموعه لینک‌ها داشته باشیم، هدف پیش‌بینی لینک‌ها در زمان …

ادامه نوشته »

اصطلاحات علمی در حوزه تحلیل شبکه های اجتماعی(terminology)

اصطلاحات علمی تحلیل شبکه های اجتماعی

اصطلاحات علمی تحلیل شبکه های اجتماعی: ظهور و شناسایی شبکه‌های مختلف در پیرامون ما، از شبکه‌ی ژن‌هایی که خصوصیاتمان را تعیین می‌کنند تا شبکه‌های اجتماعی برخط که بیشترین بازدیدکنندگان در اینترنت را به خود اختصاص داده‌اند، منجر به نام‌گذاری این عصر به عصر شبکه‌ها گردیده است. با وجود تفاوت بسیار زیاد در ساختار این شبکه‌ها …

ادامه نوشته »

مقایسه Neo4j با OrientDB با Titan

مقایسه Neo4j با OrientDB با Titan

 در رابطه با مقایسه سه پایگاه داده معروف مبنی بر گراف  Neo4j و  OrientDB و Titan خصیصه های زیر مورد بررسی قرار گرفته است. هدف کلی این مقایسه بررسی کارایی آن ها است. خصیصه های زیv برای مقایسه انتخاب شده و هر کدام از آنها بر روی هر سه بانک اطلاعاتی بررسی شده و زمان …

ادامه نوشته »

ایندکس معکوس (inverted index) چیست؟

ایندکس معکوس

در قسمت های قبل روشهای شاخص گذاری بر روی داده ها را بررسی نمودیم. اکنون در بخش ایندکس معکوس (inverted index) مورد مطالعه قرار میدهیم. شاخص­ گذاری معکوس، یک مکانیزم مبتنی بر کلمه است که برای جستجوی سریع اسناد شامل یک کلمه­ خاص به کار می­رود. در اینجا منظور از سند، دنباله محدودی از کاراکترها است …

ادامه نوشته »

محصولات و تکنولوژی های آپاچی در حوزه کلان داده و داده کاوی

تکنولوژی های آپاچی

یکی از موسسات مطرح در زمینه پشتیبانی از داده های حجیم، بنیاد آپاچی می باشد. لذا شناخت محصولات و تکنولوژی های نرم افزاری آپاچی بسیار لازم است. معمولا از مجموعه ی این تکنولوژی ها تحت عنوان اکوسیستم هدوپ یاد میشود. در این مبحث تکنولوژی های آپاچی بررسی خواهد. ActiveMQ این نرم افزار محبوب و قدرتمند …

ادامه نوشته »

روش تحلیل و پردازش گراف های بزرگ

پردازش گراف های بزرگ با مپ ردیوس

در قسمت های پیشین با تئوری گراف و تئوری شبکه اجتماعی آشنا شدیم. در این قسمت به روشهای معمول که در پردازش گراف های بزرگ مورد استفاده قرار میگیرد میپردازیم. این موارد را برای این بررسی میکنیم تا در زمان بررسی ابزار ها و فناوری های پردازش گراف های بزرگ مانند گرافچی و تایتان با …

ادامه نوشته »

گرافچی (GraphChi) روشی برای پردازش و تحلیل گرافهای بزرگ

گرافچی (GraphChi)

گرافچی (GraphChi) روشی برای پردازش و تحلیل گراف های بزرگ بر روی یک کامپیوتر است. این پروژه با سه زبان C, java و Scala بازنویسی شده است. که پروژه اصلی به زبان C است. سیستم های امروزی محاسبات بر روی گراف برای برخورد با  مسائل واقعی (Real World Problems)، نیاز به یک خوشه محاسبتی توزیع …

ادامه نوشته »