بعد از مراحل نرمال سازی، حذف کلمات ایستا، تکه کردن کلمات درون متن و ریشه یابی کردن واژه ها، یکی از مهمترین مراحل در پردازش متن استخراج کلمات کلیدی میباشد. در ابتدا به تعاریفی از کلمات کلیدی یا Key word ها پرداخته میشود. کلمات کلیدی …
ادامه مطلبوب کاوی
اوسینت (OSINT) چیست؟ جاسوسی مؤدبانه
اوسینت (OSINT)، جمع آوری اطلاعات و کسب نمودن اطلاعات از دنیای پیرامون است که همیشه جذابیت ویژه ای برای انسان ها داشته. گاهی ضرورت ایجاب میکند که اطلاعات خاصی را در مورد سوژه یا موضوع مورد نظز خود به دست آوریم. در این نوشتار …
ادامه مطلبخزشگر crawler4j و مقایسه با دیگر خزشگرها
در این نوشتار سعی داریم راه اندازی یک خزشگر وب قدرتمند را به همراه امکان جستجوی واژگان در صفحات و URLهای وب توسط خزشگر crawler4j را به شما بیاموزیم مقدمه بر خزشگر: Crawl crawl در لغت به معنای “خزیدن” می باشد. بررسی و جمع آوری …
ادامه مطلبانواع User Agent برای خزش در وب به صورت مودبانه (politeness)
پروتکل HTTP یک پروتکل درخواست و پاسخ است که بین یک کلاینت و یک سرور برقرار می شود . در اینجا کلاینت همان User Agent (مرورگر شما) است و منظور از سرور یک وب سایت اینترنتی می باشد . نکته : User agent نوع …
ادامه مطلبجمع آوری اطلاعات در اینستاگرام (Instagram) و استفاده از ربات instagram4j
تهیه کننده: صابر کاظمی رودی جهت ارائه در درس شبکه های پیچیده پویا و تحلیل شبکه های اجتماعی در مباحث قبل به جمع آوری اطلاعات از شبکه اجتماعی توییتر اشاره کردیم. در این مبحث به جمع آوری اطلاعات در اینستاگرام می پردازیم. اینستاگرام در …
ادامه مطلبنحوه استفاده برنامههای کاربردی از TOR
نحوه استفاده برنامههای کاربردی از TOR میر سامان تاجبخش https://mstajbakhsh.ir در پست های قبل با مبانی شبکه TOR و همچنین وب تاریک آشنا شدید. شبکه TOR به مانند شبکههای گمنام سازی دیگر به جهت پنهان ماندن آدرس آی پی استفاده کننده به کار میرود. …
ادامه مطلبجستجو در اینترنت با استفاده از زبان طبیعی فارسی
جستجو در اینترنت با استفاده از زبان طبیعی فارسی دکتر محسن کاهانی گروه مهندسی کامپیوتر دانشگاه فردوسی مشهد kahani@um.ac.ir http www.um.ac.ir ~kahani عناوین اصلی استخراج شده از این فایل پاورپوینت عناوین اصلی استخراج شده از این فایل پاورپوینت ● جستجو در اینترنت با استفاده …
ادامه مطلبجستجوی دیتاست گوگل سرویس بسیار کاربردی از گوگل
دیتاست (Dataset) یا مجموعه داده چیست؟ دیتاست یا مجموعه داده یا DataSet به مجموعهای از دادهها میگویند که با موضوعیت واحد، جهت انجام کارها و پروژههای مربوط به علم داده استفاده میشوند. البته یک کاربرد دیگر دیتاست ها نیز برای مقایسه بین روشهای مختلف …
ادامه مطلبقطعه بندی متون فارسی (tokenize) با استفاده از جی هضم (Jhazm)
قطعه بندی متن (Tokenizer) در بخش های قبلی به روش های تشخیص زبان در متون اشاره کردیم و همچنین به نقش واحد ساز (Tokenizer) در پردازش متن پرداختیم. در این مبحث با استفاده از جی هضم (Jhazm) به قطعه بندی متون میپردازیم. Tokenizer ابزاری …
ادامه مطلبپردازش متن با Jhazm نسخه جاوا کتابخانه هضم برای پردازش زبان فارسی
jHazm نسخه جاوایی هضم از کتابخانه پایتون برای پردازش زبان فارسی است. کتابخانه HAZM برای انجام پردازش های لازم بر روی زبان فارسی توسط دانشجویان دانشگاه علم و صنعت در سال 1392 به صورت متن باز و با استفاده از کتابخانه NLTK منتشر شد. لایسنس …
ادامه مطلبآموزش عملی گراف کاوی و تحلیل شبکه های اجتماعی با پایتون (NetworkX)
در این پست به آموزش عملی گراف کاوی و تحلیل شبکه های اجتماعی با پایتون میپردازیم. networkx یک بسته پایتون برای ایجاد، دستکاری و مطالعه ساختار، پویایی و عملکرد شبکه های پیچیده است. امکانات networkx ساختار داده ها برای نمودارها، گراف ها و چند …
ادامه مطلباستخراج عبارات کلیدی (KeyPhrase) از متن با روش Ngram
منظور از عبارات کلیدی اسامی ترکیبی هستند که بیانگر معنای واحدی هستند. مثل عبارت “مجلس شورای اسلامی” یا “فرودگاه مهرآباد”. همان طور که میدانید فرایند استخراج عبارات کلیدی با کلمات کلیدی متفاوت است. فرایند استخراج عبارات کلیدی منجر به کشف مجموعهای از عبارات (KeyPhrase) …
ادامه مطلبیکسان سازی یا نرمال سازی متون فارسی با استفاده از کتابخانه JHazm
در متن کاوی منظور از پردازش زبان طبیعی (NLP)، قابلدسترس کردن زبان طبیعی برای ماشین است. پردازش زبان طبیعی، اسناد متنی بدون ساختار را دریافت و درنهایت به شکلی ساختاریافته تبدیل میکنند. در این حالت امکان استخراج اطلاعات از این اسناد وجود دارد. پردازشهای …
ادامه مطلبتجزیه گر یا پارسر متون و تشخیص زبان با آپاچی تیکا (Apache Tika)
آپاچی تیکا: آپاچی تیکا يکي از پروژههاي متن باز Apache است که کلاسي براي شناسايي زبان متون دارد. Tika براي استخراج متن اصلی از فایل های متنی و تجزیه کردن قسمت های مختلف فایل با توجه به متا دیتای آن کاربرد دارد. تیکا برای …
ادامه مطلبآموزش CytoScape ابزاری برای تحلیل و بصری سازی گراف شبکه
معرفی و آموزش cytoscape در پست های قبل برنامه cytoscape را با نرم افزار گفی مقایسه (اینجا) کردیم. همچنین نرم افزار گفی را (در اینجا) به طور تقریبا کامل آموزش دادیم در این مبحث میخواهیم به آموزش CytoScape بپردازیم. سایتواسکیپ یک نرم افزار برای …
ادامه مطلبجستجو در وب تاریک (دارک وب) و وب عمیق (دیپ وب)
نکته مهم (خطر برای تمرین کنندگان): حضور در وب تاریک (دارک وب) و وب عمیق (دیپ وب) حتی برای کنجکاوی می تواند عواقب جبران ناپذیری برای فرد داشته باشد. لذا این پست را صرفا برای افزایش سطح معلومات خود مطالعه کنید و وسوسه ورود …
ادامه مطلبنقش واحدساز (Tokenizer) در پردازش متن و متن کاوی
واحدساز (Tokenizer) در بخش های قبلی به روش های تشخیص زبان در متون اشاره کردیم در این مبحث به نقش واحد ساز (Tokenizer) در پردازش متن میپردازیم. واحدساز (Tokenizer) مرز کلمات را در متون تشخیص داده و متن را به دنبالهای از کلمات تبدیل …
ادامه مطلب