مروری بر کتابخانه های جاوا اسکریپت برای بصری سازی گراف شبکه پیچیده پویا در مباحث قبل به موضوع علمی بازنمایی و بصری سازی گراف پرداختیم. در این مبحث مروری بر کتابخانه های جاوا اسکریپت برای بصری سازی گراف شبکه پیچیده پویا می پردازیم. SigmaJS: …
ادامه مطلبداده کاوی (DataMining)
نحوه استفاده برنامههای کاربردی از TOR
نحوه استفاده برنامههای کاربردی از TOR میر سامان تاجبخش https://mstajbakhsh.ir در پست های قبل با مبانی شبکه TOR و همچنین وب تاریک آشنا شدید. شبکه TOR به مانند شبکههای گمنام سازی دیگر به جهت پنهان ماندن آدرس آی پی استفاده کننده به کار میرود. …
ادامه مطلبجستجو در اینترنت با استفاده از زبان طبیعی فارسی
جستجو در اینترنت با استفاده از زبان طبیعی فارسی دکتر محسن کاهانی گروه مهندسی کامپیوتر دانشگاه فردوسی مشهد kahani@um.ac.ir http www.um.ac.ir ~kahani عناوین اصلی استخراج شده از این فایل پاورپوینت عناوین اصلی استخراج شده از این فایل پاورپوینت ● جستجو در اینترنت با استفاده …
ادامه مطلبجستجوی دیتاست گوگل سرویس بسیار کاربردی از گوگل
دیتاست (Dataset) یا مجموعه داده چیست؟ دیتاست یا مجموعه داده یا DataSet به مجموعهای از دادهها میگویند که با موضوعیت واحد، جهت انجام کارها و پروژههای مربوط به علم داده استفاده میشوند. البته یک کاربرد دیگر دیتاست ها نیز برای مقایسه بین روشهای مختلف …
ادامه مطلبمجموعه داده برای تشخیص و ردیابی موضوع (TDT)
مجموعه داده برای تشخیص و ردیابی موضوع (TDT) برای انجام فرآیند متن کاوی به منظور تشخیص و ردیابی موضوع(Topic detection & Tracking) در محیط آزمایشگاه، چند نمونه از مجموعه داده[1]ها که برای این منظور در زبان انگلیسی و فارسی ایجاد شدهاند به شرح زیر …
ادامه مطلبدیتاست اسامی فارسی برای تشخیص موجودیت های اسمی
دیتاست اسامی فارسی برای تشخیص موجودیت های اسمی با بیش از چهار هزار کلمه که بر اساس پر استفاده ترین ها مرتب شده اند. یکی از روش های تشخیص موجودیت های نامدار استفاده از دیتاست اسامی فارسی است. این مرتب شدن اسامی به جهت …
ادامه مطلباستاپ ورد های فارسی مرتب شده با طول کلمات
یکی از مهمترین و کلیدی ترین مسائل در حذف کلمات ایستا (stop word) که معمولا اکثر متخصصین متن کاوی از آن بیخبر هستند این است که برای حذف ایست واژه ها (StopWord) در متن اصلی میبایست ایست واژه ها را به صورت یک لیست …
ادامه مطلبفایل دیکشنری فارسی با فرمت csv (قابل بارگذاری بر روی تمامی دیتابیس ها)
فایل دیکشنری با فرمت csv: معمولا خیلی ار محققان برای برخی از مباحث تحلیل به فرهنگ لغات نیاز پیدا میکنند. به همین منظور یک فایل دیکشنری فارسی به انگلیسی (و حتما انگلیسی به فارسی) با بیش از هفتاد هزار لغت برای استفاده پژوهشگران آماده …
ادامه مطلبدانلود دیتاست (Data Set) مسیرهای پروازی
در این پست دیتاست مسیرهای پروازی از گراف ۶۰،۰۰۰ پرواز در بین ۳,۲۷۵ فرودگاه جهان توسط ۵۳۱ خطوط هوایی در ۳۷،۱۵۳ مسیر یکتا ارائه شده است. هر نود نشان دهنده یک فرودگاه است و اندازه گره نشان دهنده تعداد مسیرهای پرواز (مجموع ۳۷۱۵۳ مسیر) بر اساس …
ادامه مطلبقطعه بندی متون فارسی (tokenize) با استفاده از جی هضم (Jhazm)
قطعه بندی متن (Tokenizer) در بخش های قبلی به روش های تشخیص زبان در متون اشاره کردیم و همچنین به نقش واحد ساز (Tokenizer) در پردازش متن پرداختیم. در این مبحث با استفاده از جی هضم (Jhazm) به قطعه بندی متون میپردازیم. Tokenizer ابزاری …
ادامه مطلبپردازش متن با Jhazm نسخه جاوا کتابخانه هضم برای پردازش زبان فارسی
jHazm نسخه جاوایی هضم از کتابخانه پایتون برای پردازش زبان فارسی است. کتابخانه HAZM برای انجام پردازش های لازم بر روی زبان فارسی توسط دانشجویان دانشگاه علم و صنعت در سال 1392 به صورت متن باز و با استفاده از کتابخانه NLTK منتشر شد. لایسنس …
ادامه مطلبآموزش عملی گراف کاوی و تحلیل شبکه های اجتماعی با پایتون (NetworkX)
در این پست به آموزش عملی گراف کاوی و تحلیل شبکه های اجتماعی با پایتون میپردازیم. networkx یک بسته پایتون برای ایجاد، دستکاری و مطالعه ساختار، پویایی و عملکرد شبکه های پیچیده است. امکانات networkx ساختار داده ها برای نمودارها، گراف ها و چند …
ادامه مطلباستخراج عبارات کلیدی (KeyPhrase) از متن با روش Ngram
منظور از عبارات کلیدی اسامی ترکیبی هستند که بیانگر معنای واحدی هستند. مثل عبارت “مجلس شورای اسلامی” یا “فرودگاه مهرآباد”. همان طور که میدانید فرایند استخراج عبارات کلیدی با کلمات کلیدی متفاوت است. فرایند استخراج عبارات کلیدی منجر به کشف مجموعهای از عبارات (KeyPhrase) …
ادامه مطلبیکسان سازی یا نرمال سازی متون فارسی با استفاده از کتابخانه JHazm
در متن کاوی منظور از پردازش زبان طبیعی (NLP)، قابلدسترس کردن زبان طبیعی برای ماشین است. پردازش زبان طبیعی، اسناد متنی بدون ساختار را دریافت و درنهایت به شکلی ساختاریافته تبدیل میکنند. در این حالت امکان استخراج اطلاعات از این اسناد وجود دارد. پردازشهای …
ادامه مطلبتجزیه گر یا پارسر متون و تشخیص زبان با آپاچی تیکا (Apache Tika)
آپاچی تیکا: آپاچی تیکا يکي از پروژههاي متن باز Apache است که کلاسي براي شناسايي زبان متون دارد. Tika براي استخراج متن اصلی از فایل های متنی و تجزیه کردن قسمت های مختلف فایل با توجه به متا دیتای آن کاربرد دارد. تیکا برای …
ادامه مطلبمثالی از داده کاوی و تحلیل گراف خطوط هوایی شبکه جهانی حمل و نقل
در این پست یک تحلیل و بصری سازی خوب از گراف 60،000 پرواز در بین 3,275 فرودگاه جهان توسط 531 خطوط هوایی در 37،153 مسیر یکتا همراه با تحلیل خوشه بندی و تشخیص Centerality ارائه شده است. هر نود نشان دهنده یک فرودگاه است …
ادامه مطلبروش محاسبه تعداد کلمات کلیدی (key word) در اسناد متنی
محاسبه تعداد کلمات کلیدی در اسناد متنی بر حسب تعداد کل کلمات هر سند محاسبه تعداد کلمات کلیدی در مطالب قبل به برخی از تکنیک های پردازش متن اشاره کردیم . در این مبحث به روش انتخاب تعداد کلمات کلیدی در اسناد متنی میپردازیم. …
ادامه مطلبآموزش CytoScape ابزاری برای تحلیل و بصری سازی گراف شبکه
معرفی و آموزش cytoscape در پست های قبل برنامه cytoscape را با نرم افزار گفی مقایسه (اینجا) کردیم. همچنین نرم افزار گفی را (در اینجا) به طور تقریبا کامل آموزش دادیم در این مبحث میخواهیم به آموزش CytoScape بپردازیم. سایتواسکیپ یک نرم افزار برای …
ادامه مطلبمعرفی DataStax پلتفرمی برای بیگ دیتا و داده کاوی
معرفی DataStax: شرکت دیتا استکس، یک فروشنده نرم افزار های مدیریت داده است و با محصولات پایگاه داده RDBMS از اوراکل رقابت می کند. کارکنان DataStax همکاری کلیدی با پروژه آپاچی کاساندرا منبع باز دارند. این شرکت دارای بیش از 400 کارمند و دفاتر …
ادامه مطلبمجموعه داده (data set) گراف فیس بوک
مجموعه داده گراف فیس بوک: این دیتاست شامل “حلقه ها” (یا “لیست دوستان”) از شبکه اجتماعی فیس بوک است. داده های فیس بوک از شرکت کنندگان بررسی شده با استفاده از یک App فیس بوک جمع آوری شده است. مجموعه داده شامل ویژگی های …
ادامه مطلب