صفحه نخست --> وب کاوی

وب کاوی

قطعه بندی متون فارسی (tokenize) با استفاده از جی هضم (Jhazm)

قطعه بندی متون

قطعه بندی متن (Tokenizer) در بخش های قبلی به روش های تشخیص زبان در متون اشاره کردیم در این مبحث به نقش واحد ساز (Tokenizer) در پردازش متن میپردازیم. Tokenizer ابزاری برای شکستن یک متن بر اساس واحدهای با معنی مانند کلمه، پاراگراف، نمادهای معنادار مانند space و  tab و ...

ادامه مطلب

استخراج کلمات کلیدی از متن فارسی با روش های آماری

استخراج کلمات کلیدی

بعد از مراحل نرمال سازی، حذف کلمات ایستا، تکه کردن کلمات درون متن و ریشه یابی کردن واژه ها، یکی از مهمترین مراحل در پردازش متن استخراج کلمات کلیدی میباشد. در ابتدا به تعاریفی از کلمات کلیدی یا Key word ها پرداخته میشود. کلمات کلیدی مجموعه‌ای از لغات مهم در یک ...

ادامه مطلب

پردازش متن با Jhazm نسخه جاوا کتابخانه هضم برای پردازش زبان فارسی

پردازش متن با Jhazm

jHazm نسخه جاوایی هضم از کتابخانه پایتون برای پردازش زبان فارسی است. کتابخانه HAZM برای انجام پردازش­ های لازم بر روی زبان فارسی توسط دانشجویان دانشگاه علم و صنعت در سال ۱۳۹۲ به صورت متن­ باز و با استفاده از کتابخانه NLTK منتشر شد. لایسنس این ابزار MIT میباشد. هضم، ابتدا ...

ادامه مطلب

آموزش عملی گراف کاوی و تحلیل شبکه های اجتماعی با پایتون (NetworkX)

تحلیل شبکه های اجتماعی با پایتون

در این پست به آموزش عملی گراف کاوی و تحلیل شبکه های اجتماعی با پایتون میپردازیم. networkx یک بسته پایتون برای ایجاد، دستکاری و مطالعه ساختار، پویایی و عملکرد شبکه های پیچیده است. امکانات networkx ساختار داده ها برای نمودارها، گراف ها و چند گرافیک بسیاری از الگوریتم های مربوط ...

ادامه مطلب

حفاظت شده: استخراج عبارات کلیدی (KeyPhrase) از متن با روش Ngram

استخراج عبارات کلیدی

هیچ چکیده‌ای موجود نیست زیرا‌این یک نوشته حفاظت شده است.

ادامه مطلب

یکسان سازی یا نرمال سازی متن با استفاده از کتابخانه JHazm

نرمال سازی متن

در متن کاوی منظور از پردازش زبان طبیعی (NLP)، قابل‌دسترس کردن زبان طبیعی برای ماشین است. پردازش زبان طبیعی، اسناد متنی بدون ساختار را دریافت و درنهایت به شکلی ساختاریافته تبدیل می‌کنند. در این حالت امکان استخراج اطلاعات از این اسناد وجود دارد. پردازش‌های متنی شامل تحلیل‌های صرفی و نحوی ...

ادامه مطلب

تجزیه گر یا پارسر متون و تشخیص زبان با آپاچی تیکا (Apache Tika)

آپاچی تیکا

آپاچی تیکا: آپاچی تیکا یکی از پروژه‌های متن باز Apache است که کلاسی برای شناسایی زبان متون دارد. Tika برای استخراج متن اصلی از فایل های متنی و تجزیه کردن قسمت های مختلف فایل با توجه به متا دیتای آن کاربرد دارد. تیکا برای تعیین زبان (که در مبحث تشخیص ...

ادامه مطلب

آموزش CytoScape ابزاری برای تحلیل و بصری سازی گراف شبکه

آموزش CytoScape

معرفی و آموزش cytoscape  در پست های قبل برنامه cytoscape را با نرم افزار گفی مقایسه (اینجا) کردیم. همچنین نرم افزار گفی را (در اینجا) به طور تقریبا کامل آموزش دادیم در این مبحث میخواهیم به آموزش CytoScape بپردازیم. سایتواسکیپ یک نرم افزار برای آنالیز و تجسم سازی شبکه های ...

ادامه مطلب

آدرس Onion یا پیازی؟ (قسمت۳ سرویس‌های مخفی)

سرویس‌های مخفی

«آدرس Onion یا پیازی؟ مسئله این است.» «قسمت ۳» میر سامان تاجبخش دانشجوی ترم آخر دکتری فناوری اطلاعات دانشگاه ارومیه، ارومیه، ایران s.tajbakhsh@chmail.ir ms.tajbakhsh@urmia.ac.ir https://mstajbakhsh.ir شبکه TOR از کاربران مختلف جهت مخفی سازی آدرس IP کاربران استفاده می‌کند. در قسمت اول مجموعه آدرس پیازی، در ارتباط با کلیات نحوه اتصال ...

ادامه مطلب

مجموعه داده (data set) گراف فیس بوک

مجموعه داده گراف فیس بوک

مجموعه داده گراف فیس بوک: این دیتاست شامل “حلقه ها” (یا “لیست دوستان”) از شبکه اجتماعی فیس بوک است. داده های فیس بوک از شرکت کنندگان بررسی شده با استفاده از یک App فیس بوک جمع آوری شده است. مجموعه داده شامل ویژگی های گره (پروفایل)، حلقه ها و شبکه ...

ادامه مطلب

جستجو در وب تاریک (دارک وب) و وب عمیق (دیپ وب)

وب تاریک (دارک وب) و وب عمیق (دیپ وب)

مروری بر وب تاریک و وب عمیق: شاید برایتان جالب باشد که بدانید، تمام آن‌چیزی که ما در اینترنت می‌بینیم، کمتر از ۵ درصد آن چیزی‌ست که در دنیای وب وجود دارد. مابقی این آن را دوب تاریک (دارک وب) و وب عمیق (دیپ وب) تشکیل می‌دهد؛ دیپ وب فضایی‌ست ...

ادامه مطلب

اوسینت (OSINT) چیست؟ جاسوسی محترمانه

اوسینت (OSINT)

اوسینت (OSINT) چیست؟ فرض کنید از شما خواسته شود تا شماره تلفن یک فرد خاص را بدست آورید یا افراد مرتبط با او را پیدا کنید. یا از شما خواسته شود تا نظر مردم یک کشور نسبت به یک حادثه را بررسی کنید، یا بخواهند که تعداد دانشجویان ایرانی ساکن کشور ...

ادامه مطلب