جستجوی واژگان در صفحات و URLهای وب توسط خزشگر crawler4j مقدمه بر خزشگر: Crawl crawl در لغت به معنای “خزیدن” می باشد. بررسی و جمع آوری اطلاعات کامل یک وب سایت اعم از مطالب و لینک های درون وب سایت را …
ادامه مطلبانواع User Agent برای خزش در وب به صورت مودبانه (politeness)
پروتکل HTTP یک پروتکل درخواست و پاسخ است که بین یک کلاینت و یک سرور برقرار می شود . در اینجا کلاینت همان User Agent (مرورگر شما) است و منظور از سرور یک وب سایت اینترنتی می باشد . نکته …
ادامه مطلبجمع آوری اطلاعات در اینستاگرام (Instagram)
تهیه کننده: صابر کاظمی رودی جهت ارائه در درس شبکه های پیچیده پویا (تحلیل شبکه های اجتماعی) جمع آوری اطلاعات در اینستاگرام در مباحث قبل به جمع آوری اطلاعات از شبکه اجتماعی توییتر اشاره کردیم. در این مبحث به جمع …
ادامه مطلبنحوه استفاده برنامههای کاربردی از TOR
نحوه استفاده برنامههای کاربردی از TOR میر سامان تاجبخش https://mstajbakhsh.ir در پست های قبل با مبانی شبکه TOR و همچنین وب تاریک آشنا شدید. شبکه TOR به مانند شبکههای گمنام سازی دیگر به جهت پنهان ماندن آدرس آی پی استفاده …
ادامه مطلبجستجو در اینترنت با استفاده از زبان طبیعی فارسی
جستجو در اینترنت با استفاده از زبان طبیعی فارسی دکتر محسن کاهانی گروه مهندسی کامپیوتر دانشگاه فردوسی مشهد kahani@um.ac.ir http www.um.ac.ir ~kahani عناوین اصلی استخراج شده از این فایل پاورپوینت عناوین اصلی استخراج شده از این فایل پاورپوینت ● جستجو …
ادامه مطلبجستجوی دیتاست گوگل سرویس بسیار کاربردی از گوگل
دیتاست (Dataset) یا مجموعه داده چیست؟ دیتاست یا مجموعه داده یا DataSet به مجموعهای از دادهها میگویند که با موضوعیت واحد، جهت انجام کارها و پروژههای مربوط به علم داده استفاده میشوند. البته یک کاربرد دیگر دیتاست ها نیز برای …
ادامه مطلبقطعه بندی متون فارسی (tokenize) با استفاده از جی هضم (Jhazm)
قطعه بندی متن (Tokenizer) در بخش های قبلی به روش های تشخیص زبان در متون اشاره کردیم و همچنین به نقش واحد ساز (Tokenizer) در پردازش متن پرداختیم. در این مبحث با استفاده از جی هضم (Jhazm) به قطعه بندی …
ادامه مطلباستخراج کلمات کلیدی از متن فارسی با روش های آماری
بعد از مراحل نرمال سازی، حذف کلمات ایستا، تکه کردن کلمات درون متن و ریشه یابی کردن واژه ها، یکی از مهمترین مراحل در پردازش متن استخراج کلمات کلیدی میباشد. در ابتدا به تعاریفی از کلمات کلیدی یا Key word …
ادامه مطلبپردازش متن با Jhazm نسخه جاوا کتابخانه هضم برای پردازش زبان فارسی
jHazm نسخه جاوایی هضم از کتابخانه پایتون برای پردازش زبان فارسی است. کتابخانه HAZM برای انجام پردازش های لازم بر روی زبان فارسی توسط دانشجویان دانشگاه علم و صنعت در سال 1392 به صورت متن باز و با استفاده از کتابخانه …
ادامه مطلبآموزش عملی گراف کاوی و تحلیل شبکه های اجتماعی با پایتون (NetworkX)
در این پست به آموزش عملی گراف کاوی و تحلیل شبکه های اجتماعی با پایتون میپردازیم. networkx یک بسته پایتون برای ایجاد، دستکاری و مطالعه ساختار، پویایی و عملکرد شبکه های پیچیده است. امکانات networkx ساختار داده ها برای نمودارها، …
ادامه مطلباستخراج عبارات کلیدی (KeyPhrase) از متن با روش Ngram
منظور از عبارات کلیدی اسامی ترکیبی هستند که بیانگر معنای واحدی هستند. مثل عبارت “مجلس شورای اسلامی” یا “فرودگاه مهرآباد”. همان طور که میدانید فرایند استخراج عبارات کلیدی با کلمات کلیدی متفاوت است. فرایند استخراج عبارات کلیدی منجر به کشف …
ادامه مطلبیکسان سازی یا نرمال سازی متن با استفاده از کتابخانه JHazm
در متن کاوی منظور از پردازش زبان طبیعی (NLP)، قابلدسترس کردن زبان طبیعی برای ماشین است. پردازش زبان طبیعی، اسناد متنی بدون ساختار را دریافت و درنهایت به شکلی ساختاریافته تبدیل میکنند. در این حالت امکان استخراج اطلاعات از این …
ادامه مطلبتجزیه گر یا پارسر متون و تشخیص زبان با آپاچی تیکا (Apache Tika)
آپاچی تیکا: آپاچی تیکا يکي از پروژههاي متن باز Apache است که کلاسي براي شناسايي زبان متون دارد. Tika براي استخراج متن اصلی از فایل های متنی و تجزیه کردن قسمت های مختلف فایل با توجه به متا دیتای آن …
ادامه مطلبآموزش CytoScape ابزاری برای تحلیل و بصری سازی گراف شبکه
معرفی و آموزش cytoscape در پست های قبل برنامه cytoscape را با نرم افزار گفی مقایسه (اینجا) کردیم. همچنین نرم افزار گفی را (در اینجا) به طور تقریبا کامل آموزش دادیم در این مبحث میخواهیم به آموزش CytoScape بپردازیم. سایتواسکیپ …
ادامه مطلبجستجو در وب تاریک (دارک وب) و وب عمیق (دیپ وب)
مروری بر وب تاریک و وب عمیق: شاید برایتان جالب باشد که بدانید، تمام آنچیزی که ما در اینترنت میبینیم، کمتر از 5 درصد آن چیزیست که در دنیای وب وجود دارد. مابقی این آن را دوب تاریک (دارک وب) …
ادامه مطلب