در این نوشتار سعی داریم راه اندازی یک خزشگر وب قدرتمند را به همراه امکان جستجوی واژگان در صفحات و URLهای وب توسط خزشگر crawler4j را به شما بیاموزیم مقدمه بر خزشگر: Crawl …
ادامه مطلبوب کاوی
انواع User Agent برای خزش در وب به صورت مودبانه (politeness)
پروتکل HTTP یک پروتکل درخواست و پاسخ است که بین یک کلاینت و یک سرور برقرار می شود . در اینجا کلاینت همان User Agent (مرورگر شما) است و منظور از سرور یک …
ادامه مطلبجمع آوری اطلاعات در اینستاگرام (Instagram) و استفاده از ربات instagram4j
تهیه کننده: صابر کاظمی رودی جهت ارائه در درس شبکه های پیچیده پویا و تحلیل شبکه های اجتماعی در مباحث قبل به جمع آوری اطلاعات از شبکه اجتماعی توییتر اشاره کردیم. در این …
ادامه مطلبنحوه استفاده برنامههای کاربردی از TOR
نحوه استفاده برنامههای کاربردی از TOR میر سامان تاجبخش https://mstajbakhsh.ir در پست های قبل با مبانی شبکه TOR و همچنین وب تاریک آشنا شدید. شبکه TOR به مانند شبکههای گمنام سازی دیگر به …
ادامه مطلبجستجو در اینترنت با استفاده از زبان طبیعی فارسی
جستجو در اینترنت با استفاده از زبان طبیعی فارسی دکتر محسن کاهانی گروه مهندسی کامپیوتر دانشگاه فردوسی مشهد kahani@um.ac.ir http www.um.ac.ir ~kahani عناوین اصلی استخراج شده از این فایل پاورپوینت عناوین اصلی استخراج …
ادامه مطلبجستجوی دیتاست گوگل سرویس بسیار کاربردی از گوگل
دیتاست (Dataset) یا مجموعه داده چیست؟ دیتاست یا مجموعه داده یا DataSet به مجموعهای از دادهها میگویند که با موضوعیت واحد، جهت انجام کارها و پروژههای مربوط به علم داده استفاده میشوند. البته …
ادامه مطلبقطعه بندی متون فارسی (tokenize) با استفاده از جی هضم (Jhazm)
قطعه بندی متن (Tokenizer) در بخش های قبلی به روش های تشخیص زبان در متون اشاره کردیم و همچنین به نقش واحد ساز (Tokenizer) در پردازش متن پرداختیم. در این مبحث با استفاده …
ادامه مطلباستخراج کلمات کلیدی از متن فارسی با روش های آماری
بعد از مراحل نرمال سازی، حذف کلمات ایستا، تکه کردن کلمات درون متن و ریشه یابی کردن واژه ها، یکی از مهمترین مراحل در پردازش متن استخراج کلمات کلیدی میباشد. در ابتدا به …
ادامه مطلبپردازش متن با Jhazm نسخه جاوا کتابخانه هضم برای پردازش زبان فارسی
jHazm نسخه جاوایی هضم از کتابخانه پایتون برای پردازش زبان فارسی است. کتابخانه HAZM برای انجام پردازش های لازم بر روی زبان فارسی توسط دانشجویان دانشگاه علم و صنعت در سال 1392 به صورت …
ادامه مطلبآموزش عملی گراف کاوی و تحلیل شبکه های اجتماعی با پایتون (NetworkX)
در این پست به آموزش عملی گراف کاوی و تحلیل شبکه های اجتماعی با پایتون میپردازیم. networkx یک بسته پایتون برای ایجاد، دستکاری و مطالعه ساختار، پویایی و عملکرد شبکه های پیچیده است. …
ادامه مطلباستخراج عبارات کلیدی (KeyPhrase) از متن با روش Ngram
منظور از عبارات کلیدی اسامی ترکیبی هستند که بیانگر معنای واحدی هستند. مثل عبارت “مجلس شورای اسلامی” یا “فرودگاه مهرآباد”. همان طور که میدانید فرایند استخراج عبارات کلیدی با کلمات کلیدی متفاوت است. …
ادامه مطلبیکسان سازی یا نرمال سازی متون فارسی با استفاده از کتابخانه JHazm
در متن کاوی منظور از پردازش زبان طبیعی (NLP)، قابلدسترس کردن زبان طبیعی برای ماشین است. پردازش زبان طبیعی، اسناد متنی بدون ساختار را دریافت و درنهایت به شکلی ساختاریافته تبدیل میکنند. در …
ادامه مطلبتجزیه گر یا پارسر متون و تشخیص زبان با آپاچی تیکا (Apache Tika)
آپاچی تیکا: آپاچی تیکا يکي از پروژههاي متن باز Apache است که کلاسي براي شناسايي زبان متون دارد. Tika براي استخراج متن اصلی از فایل های متنی و تجزیه کردن قسمت های مختلف …
ادامه مطلبآموزش CytoScape ابزاری برای تحلیل و بصری سازی گراف شبکه
معرفی و آموزش cytoscape در پست های قبل برنامه cytoscape را با نرم افزار گفی مقایسه (اینجا) کردیم. همچنین نرم افزار گفی را (در اینجا) به طور تقریبا کامل آموزش دادیم در این …
ادامه مطلبجستجو در وب تاریک (دارک وب) و وب عمیق (دیپ وب)
نکته مهم (خطر برای تمرین کنندگان): حضور در وب تاریک (دارک وب) و وب عمیق (دیپ وب) حتی برای کنجکاوی می تواند عواقب جبران ناپذیری برای فرد داشته باشد. لذا این پست را …
ادامه مطلباوسینت (OSINT) چیست؟ جاسوسی محترمانه در اینترنت و فضای سایبری
جمع آوری اطلاعات و کسب نمودن اطلاعات از دنیای پیرامون همیشه جذابیت ویژه ای برای انسان ها داشته است. گاهی ضرورت ایجاب میکند که اطلاعات خاصی را در مورد سوژه یا موضوع مورد …
ادامه مطلبنقش واحدساز (Tokenizer) در پردازش متن و متن کاوی
واحدساز (Tokenizer) در بخش های قبلی به روش های تشخیص زبان در متون اشاره کردیم در این مبحث به نقش واحد ساز (Tokenizer) در پردازش متن میپردازیم. واحدساز (Tokenizer) مرز کلمات را در …
ادامه مطلب