وب کاوی

استخراج کلمات کلیدی از متن فارسی با روش های آماری TF-IDF

مراحل متن کاوی

بعد از مراحل نرمال سازی، حذف کلمات ایستا، تکه کردن کلمات درون متن و ریشه یابی کردن واژه ها، یکی از مهمترین مراحل در پردازش متن استخراج کلمات کلیدی میباشد. در ابتدا به تعاریفی از کلمات کلیدی یا Key word ها پرداخته میشود. کلمات کلیدی …

ادامه مطلب

اوسینت (OSINT) چیست؟ جاسوسی مؤدبانه

اوسینت (OSINT)

اوسینت (OSINT)، جمع آوری اطلاعات و کسب نمودن اطلاعات از دنیای پیرامون است که همیشه جذابیت ویژه ای برای انسان ها داشته. گاهی ضرورت ایجاب میکند که اطلاعات خاصی را  در مورد سوژه یا موضوع مورد نظز خود به دست آوریم. در این نوشتار …

ادامه مطلب

خزشگر crawler4j و مقایسه با دیگر خزشگرها

خزشگر crawler4j

در این نوشتار سعی داریم راه اندازی یک خزشگر وب قدرتمند را به همراه امکان جستجوی واژگان در صفحات و URLهای وب توسط خزشگر crawler4j را به شما بیاموزیم مقدمه بر خزشگر: Crawl crawl در لغت به معنای “خزیدن” می باشد. بررسی و جمع آوری …

ادامه مطلب

جمع آوری اطلاعات در اینستاگرام (Instagram) و استفاده از ربات instagram4j

جمع آوری اطلاعات در اینستاگرام

تهیه کننده: صابر کاظمی رودی جهت ارائه در درس شبکه های پیچیده پویا و تحلیل شبکه های اجتماعی در مباحث قبل به جمع آوری اطلاعات از شبکه اجتماعی توییتر اشاره کردیم. در این مبحث به جمع آوری اطلاعات در اینستاگرام می پردازیم. اینستاگرام در …

ادامه مطلب

نحوه استفاده برنامه‌های کاربردی از TOR

نحوه استفاده برنامه‌های کاربردی از TOR

نحوه استفاده برنامه‌های کاربردی از TOR میر سامان تاجبخش https://mstajbakhsh.ir در پست های قبل با مبانی شبکه TOR و همچنین وب تاریک آشنا شدید. شبکه TOR به مانند شبکه‌های گمنام سازی دیگر به جهت پنهان ماندن آدرس آی پی استفاده کننده به کار می‌رود. …

ادامه مطلب

جستجو در اینترنت با استفاده از زبان طبیعی فارسی

جستجو در اینترنت با استفاده از زبان طبیعی فارسی دکتر محسن کاهانی گروه مهندسی کامپیوتر دانشگاه فردوسی مشهد kahani@um.ac.ir http www.um.ac.ir ~kahani عناوین اصلی استخراج شده از این فایل پاورپوینت عناوین اصلی استخراج شده از این فایل پاورپوینت ● جستجو در اینترنت با استفاده …

ادامه مطلب

جستجوی دیتاست گوگل سرویس بسیار کاربردی از گوگل

دیتاست گوگل

دیتاست (Dataset) یا مجموعه داده چیست؟ دیتاست یا مجموعه داده یا DataSet به مجموعه‌ای از داده‌ها می‌گویند که با موضوعیت واحد، جهت انجام کارها و پروژه‌های مربوط به علم داده استفاده می‌شوند. البته یک کاربرد دیگر دیتاست ها نیز برای مقایسه بین روش‌های مختلف …

ادامه مطلب

قطعه بندی متون فارسی (tokenize) با استفاده از جی هضم (Jhazm)

قطعه بندی متون

قطعه بندی متن (Tokenizer) در بخش های قبلی به روش های تشخیص زبان در متون اشاره کردیم و همچنین  به نقش واحد ساز (Tokenizer) در پردازش متن پرداختیم. در این مبحث با استفاده از جی هضم (Jhazm) به قطعه بندی متون میپردازیم. Tokenizer ابزاری …

ادامه مطلب

پردازش متن با Jhazm نسخه جاوا کتابخانه هضم برای پردازش زبان فارسی

پردازش متن با Jhazm

jHazm نسخه جاوایی هضم از کتابخانه پایتون برای پردازش زبان فارسی است. کتابخانه HAZM برای انجام پردازش­ های لازم بر روی زبان فارسی توسط دانشجویان دانشگاه علم و صنعت در سال 1392 به صورت متن­ باز و با استفاده از کتابخانه NLTK منتشر شد. لایسنس …

ادامه مطلب

آموزش عملی گراف کاوی و تحلیل شبکه های اجتماعی با پایتون (NetworkX)

فیلم آموزشی تحلیل شبکه های اجتماعی

در این پست به آموزش عملی گراف کاوی و تحلیل شبکه های اجتماعی با پایتون میپردازیم. networkx یک بسته پایتون برای ایجاد، دستکاری و مطالعه ساختار، پویایی و عملکرد شبکه های پیچیده است. امکانات networkx ساختار داده ها برای نمودارها، گراف ها و چند …

ادامه مطلب

استخراج عبارات کلیدی (KeyPhrase) از متن با روش Ngram

استخراج عبارات کلیدی

منظور از عبارات کلیدی اسامی ترکیبی هستند که بیانگر معنای واحدی هستند. مثل عبارت “مجلس شورای اسلامی” یا “فرودگاه مهرآباد”.  همان طور که میدانید فرایند استخراج عبارات کلیدی با کلمات کلیدی متفاوت است. فرایند استخراج عبارات کلیدی منجر به کشف مجموعه‌ای از عبارات (KeyPhrase) …

ادامه مطلب

یکسان سازی یا نرمال سازی متون فارسی با استفاده از کتابخانه JHazm

نرمال سازی متن

در متن کاوی منظور از پردازش زبان طبیعی (NLP)، قابل‌دسترس کردن زبان طبیعی برای ماشین است. پردازش زبان طبیعی، اسناد متنی بدون ساختار را دریافت و درنهایت به شکلی ساختاریافته تبدیل می‌کنند. در این حالت امکان استخراج اطلاعات از این اسناد وجود دارد. پردازش‌های …

ادامه مطلب

تجزیه گر یا پارسر متون و تشخیص زبان با آپاچی تیکا (Apache Tika)

آپاچی تیکا

آپاچی تیکا: آپاچی تیکا يکي از پروژه‌هاي متن باز Apache است که کلاسي براي شناسايي زبان متون دارد. Tika براي استخراج متن اصلی از فایل های متنی و تجزیه کردن قسمت های مختلف فایل با توجه به متا دیتای آن کاربرد دارد. تیکا برای …

ادامه مطلب

آموزش CytoScape ابزاری برای تحلیل و بصری سازی گراف شبکه

آموزش CytoScape

معرفی و آموزش cytoscape  در پست های قبل برنامه cytoscape را با نرم افزار گفی مقایسه (اینجا) کردیم. همچنین نرم افزار گفی را (در اینجا) به طور تقریبا کامل آموزش دادیم در این مبحث میخواهیم به آموزش CytoScape بپردازیم. سایتواسکیپ یک نرم افزار برای …

ادامه مطلب

جستجو در وب تاریک (دارک وب) و وب عمیق (دیپ وب)

وب تاریک (دارک وب) و وب عمیق (دیپ وب)

نکته مهم (خطر برای تمرین کنندگان): حضور در وب تاریک (دارک وب) و وب عمیق (دیپ وب) حتی برای کنجکاوی می تواند عواقب جبران ناپذیری برای فرد داشته باشد. لذا این پست را صرفا برای افزایش سطح معلومات خود مطالعه کنید و وسوسه ورود …

ادامه مطلب

نقش واحدساز (Tokenizer) در پردازش متن و متن کاوی

قطعه بندی متون

واحدساز (Tokenizer) در بخش های قبلی به روش های تشخیص زبان در متون اشاره کردیم در این مبحث به نقش واحد ساز (Tokenizer) در پردازش متن میپردازیم.  واحدساز (Tokenizer) مرز کلمات را در متون تشخیص داده و متن را به دنباله‌ای از کلمات تبدیل …

ادامه مطلب

گروه تلگرامی اوسینت

مطالب مفید در حوزه بیگ دیتا و تحلیل شبکه های اجتماعی

ورود
انصراف