خانه بیگ دیتا تحلیل شبکه های اجتماعی، متن کاوی، داده کاوی، اوسینت و داده های حجیم

وب کاوی

استخراج کلمات کلیدی از متن فارسی با روش های آماری TF-IDF

7,413

مراحل متن کاوی

بعد از مراحل نرمال سازی، حذف کلمات ایستا، تکه کردن کلمات درون متن و ریشه یابی کردن واژه ها، یکی از مهمترین مراحل در پردازش متن استخراج کلمات کلیدی میباشد. در ابتدا به تعاریفی از کلمات کلیدی یا Key word ها پرداخته میشود. کلمات کلیدی …

ادامه مطلب

اوسینت (OSINT) چیست؟ جاسوسی مؤدبانه

53,808

اوسینت (OSINT)

اوسینت (OSINT)، جمع آوری اطلاعات و کسب نمودن اطلاعات از دنیای پیرامون است که همیشه جذابیت ویژه ای برای انسان ها داشته. گاهی ضرورت ایجاب میکند که اطلاعات خاصی را در مورد سوژه یا موضوع مورد نظز خود به دست آوریم. در این نوشتار …

ادامه مطلب

خزشگر crawler4j و مقایسه با دیگر خزشگرها

3,213

خزشگر crawler4j

در این نوشتار سعی داریم راه اندازی یک خزشگر وب قدرتمند را به همراه امکان جستجوی واژگان در صفحات و URLهای وب توسط خزشگر crawler4j را به شما بیاموزیم مقدمه بر خزشگر: Crawl crawl در لغت به معنای “خزیدن” می باشد. بررسی و جمع آوری …

ادامه مطلب

انواع User Agent برای خزش در وب به صورت مودبانه (politeness)

2,039

انواع User Agent

پروتکل HTTP یک پروتکل درخواست و پاسخ است که بین یک کلاینت و یک سرور برقرار می شود . در اینجا کلاینت همان User Agent (مرورگر شما) است و منظور از سرور یک وب سایت اینترنتی می باشد . نکته : User agent نوع …

ادامه مطلب

جمع آوری اطلاعات در اینستاگرام (Instagram) و استفاده از ربات instagram4j

20,383

جمع آوری اطلاعات در اینستاگرام

تهیه کننده: صابر کاظمی رودی جهت ارائه در درس شبکه های پیچیده پویا و تحلیل شبکه های اجتماعی در مباحث قبل به جمع آوری اطلاعات از شبکه اجتماعی توییتر اشاره کردیم. در این مبحث به جمع آوری اطلاعات در اینستاگرام می پردازیم. اینستاگرام در …

ادامه مطلب

نحوه استفاده برنامه‌های کاربردی از TOR

41,676

نحوه استفاده برنامه‌های کاربردی از TOR

نحوه استفاده برنامه‌های کاربردی از TOR میر سامان تاجبخش https://mstajbakhsh.ir در پست های قبل با مبانی شبکه TOR و همچنین وب تاریک آشنا شدید. شبکه TOR به مانند شبکه‌های گمنام سازی دیگر به جهت پنهان ماندن آدرس آی پی استفاده کننده به کار می‌رود. …

ادامه مطلب

جستجو در اینترنت با استفاده از زبان طبیعی فارسی

1,562

جستجو در اینترنت با استفاده از زبان طبیعی فارسی دکتر محسن کاهانی گروه مهندسی کامپیوتر دانشگاه فردوسی مشهد kahani@um.ac.ir http www.um.ac.ir ~kahani عناوین اصلی استخراج شده از این فایل پاورپوینت عناوین اصلی استخراج شده از این فایل پاورپوینت ● جستجو در اینترنت با استفاده …

ادامه مطلب

جستجوی دیتاست گوگل سرویس بسیار کاربردی از گوگل

4,316

دیتاست گوگل

دیتاست (Dataset) یا مجموعه داده چیست؟ دیتاست یا مجموعه داده یا DataSet به مجموعه‌ای از داده‌ها می‌گویند که با موضوعیت واحد، جهت انجام کارها و پروژه‌های مربوط به علم داده استفاده می‌شوند. البته یک کاربرد دیگر دیتاست ها نیز برای مقایسه بین روش‌های مختلف …

ادامه مطلب

قطعه بندی متون فارسی (tokenize) با استفاده از جی هضم (Jhazm)

4,815

قطعه بندی متون

قطعه بندی متن (Tokenizer) در بخش های قبلی به روش های تشخیص زبان در متون اشاره کردیم و همچنین به نقش واحد ساز (Tokenizer) در پردازش متن پرداختیم. در این مبحث با استفاده از جی هضم (Jhazm) به قطعه بندی متون میپردازیم. Tokenizer ابزاری …

ادامه مطلب

پردازش متن با Jhazm نسخه جاوا کتابخانه هضم برای پردازش زبان فارسی

3,929

پردازش متن با Jhazm

jHazm نسخه جاوایی هضم از کتابخانه پایتون برای پردازش زبان فارسی است. کتابخانه HAZM برای انجام پردازش های لازم بر روی زبان فارسی توسط دانشجویان دانشگاه علم و صنعت در سال 1392 به صورت متن باز و با استفاده از کتابخانه NLTK منتشر شد. لایسنس …

ادامه مطلب

آموزش عملی گراف کاوی و تحلیل شبکه های اجتماعی با پایتون (NetworkX)

7,523

فیلم آموزشی تحلیل شبکه های اجتماعی

در این پست به آموزش عملی گراف کاوی و تحلیل شبکه های اجتماعی با پایتون میپردازیم. networkx یک بسته پایتون برای ایجاد، دستکاری و مطالعه ساختار، پویایی و عملکرد شبکه های پیچیده است. امکانات networkx ساختار داده ها برای نمودارها، گراف ها و چند …

ادامه مطلب

استخراج عبارات کلیدی (KeyPhrase) از متن با روش Ngram

3,294

استخراج عبارات کلیدی

منظور از عبارات کلیدی اسامی ترکیبی هستند که بیانگر معنای واحدی هستند. مثل عبارت “مجلس شورای اسلامی” یا “فرودگاه مهرآباد”. همان طور که میدانید فرایند استخراج عبارات کلیدی با کلمات کلیدی متفاوت است. فرایند استخراج عبارات کلیدی منجر به کشف مجموعه‌ای از عبارات (KeyPhrase) …

ادامه مطلب

یکسان سازی یا نرمال سازی متون فارسی با استفاده از کتابخانه JHazm

7,655

نرمال سازی متن

در متن کاوی منظور از پردازش زبان طبیعی (NLP)، قابل‌دسترس کردن زبان طبیعی برای ماشین است. پردازش زبان طبیعی، اسناد متنی بدون ساختار را دریافت و درنهایت به شکلی ساختاریافته تبدیل می‌کنند. در این حالت امکان استخراج اطلاعات از این اسناد وجود دارد. پردازش‌های …

ادامه مطلب

تجزیه گر یا پارسر متون و تشخیص زبان با آپاچی تیکا (Apache Tika)

1,455

آپاچی تیکا

آپاچی تیکا: آپاچی تیکا يکي از پروژه‌هاي متن باز Apache است که کلاسي براي شناسايي زبان متون دارد. Tika براي استخراج متن اصلی از فایل های متنی و تجزیه کردن قسمت های مختلف فایل با توجه به متا دیتای آن کاربرد دارد. تیکا برای …

ادامه مطلب

آموزش CytoScape ابزاری برای تحلیل و بصری سازی گراف شبکه

7,265

آموزش CytoScape

معرفی و آموزش cytoscape در پست های قبل برنامه cytoscape را با نرم افزار گفی مقایسه (اینجا) کردیم. همچنین نرم افزار گفی را (در اینجا) به طور تقریبا کامل آموزش دادیم در این مبحث میخواهیم به آموزش CytoScape بپردازیم. سایتواسکیپ یک نرم افزار برای …

ادامه مطلب

جستجو در وب تاریک (دارک وب) و وب عمیق (دیپ وب)

82,351

وب تاریک (دارک وب) و وب عمیق (دیپ وب)

نکته مهم (خطر برای تمرین کنندگان): حضور در وب تاریک (دارک وب) و وب عمیق (دیپ وب) حتی برای کنجکاوی می تواند عواقب جبران ناپذیری برای فرد داشته باشد. لذا این پست را صرفا برای افزایش سطح معلومات خود مطالعه کنید و وسوسه ورود …

ادامه مطلب

نقش واحدساز (Tokenizer) در پردازش متن و متن کاوی

4,528

قطعه بندی متون

واحدساز (Tokenizer) در بخش های قبلی به روش های تشخیص زبان در متون اشاره کردیم در این مبحث به نقش واحد ساز (Tokenizer) در پردازش متن میپردازیم. واحدساز (Tokenizer) مرز کلمات را در متون تشخیص داده و متن را به دنباله‌ای از کلمات تبدیل …

ادامه مطلب

ما را دنبال کنید

نشانی
email:bigdata724@chmail.ir

Telegram: @bigdata724

آدرس کانال تلگرام ما: t.me/bigdata_channel

برچسب کلمات

مجموعه داده دیتاست کلان داده تحلیل شبکه های اجتماعی گراف کاوی متن کاوی Cassandra جاوا داده کاوی کاساندرا آپاچی Big Data NOSQL بیگ دیتا تحلیل متن data set apache غیر رابطه ای مبتنی بر گراف تحلیل گراف اوسینت داده های حجیم پردازش متن neo4j خانواده ستون دیتا ست یادگیری ماشین جنگ نرم جنگ شناختی ستون گسترده SNA MongoDB بصری سازی گراف پردازش زبان طبیعی
Show More Show Less

کپی برداری صرفا با دادن لینک مستقیم مجاز است.

© Copyright 2024, کلیه حقوق محفوظ است.

گروه تلگرامی داده کاوی و اوسینت

مطالب مفید در حوزه بیگ دیتا و تحلیل شبکه های اجتماعی و داده کاوی

ورود به کانال
Share on Telegram