خانه --> وب کاوی

وب کاوی

خزشگر crawler4j و مقایسه با دیگر خزشگرها

خزشگر crawler4j

جستجوی واژگان در صفحات و URLهای وب توسط خزشگر crawler4j  مقدمه: Crawl crawl در لغت به معنای “خزیدن” می باشد. بررسی و جمع آوری اطلاعات کامل یک وب سایت اعم از مطالب و لینک های درون وب سایت را که توسط ربات های موتور های جستجو  انجام می شود،crawl می گویند. Crawler بررسی و خواندن کلیه …

ادامه نوشته »

انواع User Agent برای خزش در وب به صورت مودبانه (politeness)

انواع User Agent

پروتکل  HTTP یک پروتکل درخواست و پاسخ  است که بین یک کلاینت و یک سرور برقرار می شود . در اینجا کلاینت همان  User Agent (مرورگر شما) است و منظور از سرور یک وب سایت اینترنتی می باشد . نکته : User agent نوع مرورگر و سیستم عامل سرویس گیرنده را مشخص می نماید و …

ادامه نوشته »

جمع آوری اطلاعات در اینستاگرام (Instagram)

جمع آوری اطلاعات در اینستاگرام

تهبه کننده: صابر کاظمی رودی جهت ارائه در درس شبکه های پیچیده پویا (تحلیل شبکه های اجتماعی) جمع آوری اطلاعات در اینستاگرام : در مباحث قبل به جمع آوری اطلاعات از شبکه اجتماعی توییتر اشاره کردیم. در این مبحث به جمع آوری اطلاعات در اینستاگرام می پردازیم. اینستاگرام در حال حاضر پس از تلگرام دومین …

ادامه نوشته »

نحوه استفاده برنامه‌های کاربردی از TOR

نحوه استفاده برنامه‌های کاربردی از TOR

نحوه استفاده برنامه‌های کاربردی از TOR میر سامان تاجبخش https://mstajbakhsh.ir در پست های قبل با مبانی شبکه TOR آشنا شدید. شبکه TOR به مانند شبکه‌های گمنام سازی دیگر به جهت پنهان ماندن آدرس آی پی استفاده کننده به کار می‌رود. البته استفاده کننده برای استفاده از اینترنت بصورت گمنام، می‌بایست از مرورگر ارائه شده توسط …

ادامه نوشته »

جستجو در اینترنت با استفاده از زبان طبیعی فارسی

جستجو در اینترنت با استفاده از زبان طبیعی فارسی دکتر محسن کاهانی گروه مهندسی کامپیوتر دانشگاه فردوسی مشهد kahani@um.ac.ir http www.um.ac.ir ~kahani عناوین اصلی استخراج شده از این فایل پاورپوینت عناوین اصلی استخراج شده از این فایل پاورپوینت ● جستجو در اینترنت با استفاده از زبان طبیعی فارسی ● فهرست مطالب ● مقدمه ● راه …

ادامه نوشته »

جستجوی دیتاست گوگل سرویس بسیار کاربردی از گوگل

دیتاست گوگل

دیتاست (Dataset) یا مجموعه داده چیست؟ دیتاست یا مجموعه داده یا DataSet به مجموعه‌ای از داده‌ها می‌گویند که با موضوعیت واحد، جهت انجام کارها و پروژه‌های مربوط به علم داده استفاده می‌شوند. البته یک کاربرد دیگر دیتاست ها نیز برای مقایسه بین روش‌های مختلف هست، به این صورت که به‌طور نمونه بر روی دیتاست A، …

ادامه نوشته »

قطعه بندی متون فارسی (tokenize) با استفاده از جی هضم (Jhazm)

قطعه بندی متون

قطعه بندی متن (Tokenizer) در بخش های قبلی به روش های تشخیص زبان در متون اشاره کردیم و همچنین  به نقش واحد ساز (Tokenizer) در پردازش متن پرداختیم. در این مبحث با استفاده از جی هضم (Jhazm) به قطعه بندی متون میپردازیم. Tokenizer ابزاری برای شکستن یک متن بر اساس واحدهای با معنی مانند کلمه، …

ادامه نوشته »

استخراج کلمات کلیدی از متن فارسی با روش های آماری

استخراج کلمات کلیدی

بعد از مراحل نرمال سازی، حذف کلمات ایستا، تکه کردن کلمات درون متن و ریشه یابی کردن واژه ها، یکی از مهمترین مراحل در پردازش متن استخراج کلمات کلیدی میباشد. در ابتدا به تعاریفی از کلمات کلیدی یا Key word ها پرداخته میشود. کلمات کلیدی مجموعه‌ای از لغات مهم در یک سند هستند که توصیفی از …

ادامه نوشته »

پردازش متن با Jhazm نسخه جاوا کتابخانه هضم برای پردازش زبان فارسی

پردازش متن با Jhazm

jHazm نسخه جاوایی هضم از کتابخانه پایتون برای پردازش زبان فارسی است. کتابخانه HAZM برای انجام پردازش­ های لازم بر روی زبان فارسی توسط دانشجویان دانشگاه علم و صنعت در سال ۱۳۹۲ به صورت متن­ باز و با استفاده از کتابخانه NLTK منتشر شد. لایسنس این ابزار MIT میباشد. هضم، ابتدا برای زبان پایتون و بر …

ادامه نوشته »

آموزش عملی گراف کاوی و تحلیل شبکه های اجتماعی با پایتون (NetworkX)

فیلم آموزشی تحلیل شبکه های اجتماعی

در این پست به آموزش عملی گراف کاوی و تحلیل شبکه های اجتماعی با پایتون میپردازیم. networkx یک بسته پایتون برای ایجاد، دستکاری و مطالعه ساختار، پویایی و عملکرد شبکه های پیچیده است. امکانات networkx ساختار داده ها برای نمودارها، گراف ها و چند گرافیک بسیاری از الگوریتم های مربوط به گراف ساختار شبکه و …

ادامه نوشته »

استخراج عبارات کلیدی (KeyPhrase) از متن با روش Ngram

استخراج عبارات کلیدی

منظور از عبارات کلیدی اسامی ترکیبی هستند که بیانگر معنای واحدی هستند. مثل عبارت “مجلس شورای اسلامی” یا “فرودگاه مهرآباد”.  همان طور که میدانید فرایند استخراج عبارات کلیدی با کلمات کلیدی متفاوت است. فرایند استخراج عبارات کلیدی منجر به کشف مجموعه‌ای از عبارات (KeyPhrase) مهم در یک سند میشود که توصیفی از محتوای سند را …

ادامه نوشته »

یکسان سازی یا نرمال سازی متن با استفاده از کتابخانه JHazm

نرمال سازی متن

در متن کاوی منظور از پردازش زبان طبیعی (NLP)، قابل‌دسترس کردن زبان طبیعی برای ماشین است. پردازش زبان طبیعی، اسناد متنی بدون ساختار را دریافت و درنهایت به شکلی ساختاریافته تبدیل می‌کنند. در این حالت امکان استخراج اطلاعات از این اسناد وجود دارد. پردازش‌های متنی شامل تحلیل‌های صرفی و نحوی و معنایی متن ورودی است. …

ادامه نوشته »

تجزیه گر یا پارسر متون و تشخیص زبان با آپاچی تیکا (Apache Tika)

آپاچی تیکا

آپاچی تیکا: آپاچی تیکا یکی از پروژه‌های متن باز Apache است که کلاسی برای شناسایی زبان متون دارد. Tika برای استخراج متن اصلی از فایل های متنی و تجزیه کردن قسمت های مختلف فایل با توجه به متا دیتای آن کاربرد دارد. تیکا برای تعیین زبان (که در مبحث تشخیص نوع زبان به آن پرداخته …

ادامه نوشته »

آموزش CytoScape ابزاری برای تحلیل و بصری سازی گراف شبکه

آموزش CytoScape

معرفی و آموزش cytoscape  در پست های قبل برنامه cytoscape را با نرم افزار گفی مقایسه (اینجا) کردیم. همچنین نرم افزار گفی را (در اینجا) به طور تقریبا کامل آموزش دادیم در این مبحث میخواهیم به آموزش CytoScape بپردازیم. سایتواسکیپ یک نرم افزار برای آنالیز و تجسم سازی شبکه های اجتماعی است و در حوزه …

ادامه نوشته »

جستجو در وب تاریک (دارک وب) و وب عمیق (دیپ وب)

وب تاریک (دارک وب) و وب عمیق (دیپ وب)

مروری بر وب تاریک و وب عمیق: شاید برایتان جالب باشد که بدانید، تمام آن‌چیزی که ما در اینترنت می‌بینیم، کمتر از ۵ درصد آن چیزی‌ست که در دنیای وب وجود دارد. مابقی این آن را دوب تاریک (دارک وب) و وب عمیق (دیپ وب) تشکیل می‌دهد؛ دیپ وب فضایی‌ست که توسط موتورهای جستجو (مانند …

ادامه نوشته »