قطعه بندی متون فارسی (tokenize) با استفاده از جی هضم (Jhazm)

قطعه بندی متون

قطعه بندی متن (Tokenizer) در بخش های قبلی به روش های تشخیص زبان در متون اشاره کردیم در این مبحث به نقش واحد ساز (Tokenizer) در پردازش متن میپردازیم. Tokenizer ابزاری برای شکستن یک متن بر اساس واحدهای با معنی مانند کلمه، پاراگراف، نمادهای معنادار مانند space و  tab و … . لازمه ی ایجاد …

ادامه نوشته »

استخراج کلمات کلیدی از متن فارسی با روش های آماری

استخراج کلمات کلیدی

بعد از مراحل نرمال سازی، حذف کلمات ایستا، تکه کردن کلمات درون متن و ریشه یابی کردن واژه ها، یکی از مهمترین مراحل در پردازش متن استخراج کلمات کلیدی میباشد. در ابتدا به تعاریفی از کلمات کلیدی یا Key word ها پرداخته میشود. کلمات کلیدی مجموعه‌ای از لغات مهم در یک سند هستند که توصیفی از …

ادامه نوشته »

پردازش متن با Jhazm نسخه جاوا کتابخانه هضم برای پردازش زبان فارسی

پردازش متن با Jhazm

jHazm نسخه جاوایی هضم از کتابخانه پایتون برای پردازش زبان فارسی است. کتابخانه HAZM برای انجام پردازش­ های لازم بر روی زبان فارسی توسط دانشجویان دانشگاه علم و صنعت در سال ۱۳۹۲ به صورت متن­ باز و با استفاده از کتابخانه NLTK منتشر شد. لایسنس این ابزار MIT میباشد. هضم، ابتدا برای زبان پایتون و بر …

ادامه نوشته »

آموزش عملی گراف کاوی و تحلیل شبکه های اجتماعی با پایتون (NetworkX)

فیلم آموزشی تحلیل شبکه های اجتماعی

در این پست به آموزش عملی گراف کاوی و تحلیل شبکه های اجتماعی با پایتون میپردازیم. networkx یک بسته پایتون برای ایجاد، دستکاری و مطالعه ساختار، پویایی و عملکرد شبکه های پیچیده است. امکانات networkx ساختار داده ها برای نمودارها، گراف ها و چند گرافیک بسیاری از الگوریتم های مربوط به گراف ساختار شبکه و …

ادامه نوشته »

سایت های علمی پژوهشی و آموزشی

سایت های علمی پژوهشی

سایت های مهم علمی آموزشی پژوهشی بانکهای اطلاعاتی: www.digitallibraryplus.com www.daneshyar.net www.umi.com/pqdauto www.search.ebscohost.com www.sciencedirect.com www.emeraldinsight.com www.online.sagepub.com www.springerlink.com www.scopus.com http://apps.isiknowledge.com 〰〰〰〰〰〰〰〰〰〰〰〰〰〰〰 پایان نامه های داخلی و خارجی www.irandoc.ac.ir www.umi.com/pgdauto www.mhrn.net www.theses.org 〰〰〰〰〰〰〰〰〰〰〰〰〰〰〰 مقالات فارسی www.magiran.com www.civilica.com www.sid.ir 〰〰〰〰〰〰〰〰〰〰〰〰〰〰〰 کتابخانه ملی ایران، آمریکا و انگلیس www.nlai.ir www.loc.gov www.bl.uk 〰〰〰〰〰〰〰〰〰〰〰〰〰〰〰 دسترسی آزاد روانشناسی و آموزش و پرورش http://eric.ed.gov 〰〰〰〰〰〰〰〰〰〰〰〰〰〰〰 …

ادامه نوشته »

۱۰ معیار خرید برای امنیت کلان داده

معیار خرید برای امنیت کلان داده

در این پست موارد زیر در رابطه با معیار خرید برای امنیت کلان داده ، بررسی خواهد شد. ▶▶ پرهیز از پیشنهادات امنیت ابرداده ای سطح پایین ▶▶ ایجاد یک چک لیست از معیار های خرید ▶▶ بفهمیم که در یک راه حل به دنبال چه باشیم همه ی راه حل های امنیتی کلان داده ها …

ادامه نوشته »

استخراج عبارات کلیدی (KeyPhrase) از متن با روش Ngram

استخراج عبارات کلیدی

فرایند استخراج عبارات کلیدی منجر به کشف مجموعه‌ای از عبارات (KeyPhrase) مهم در یک سند میشود که توصیفی از محتوای سند را فراهم می‌آورد و برای اهداف مختلفی مورداستفاده قرار می‌گیرد. عبارات کلیدی، اطلاعات نحوی مفیدی را برای بسیاری از کارهای پردازش متن فراهم می‌کند، مثلاً در خوشه‌بندی متن، طبقه‌بندی متن، بازیابی متن، جستجوی موضوعی …

ادامه نوشته »

یکسان سازی یا نرمال سازی متن با استفاده از کتابخانه JHazm

نرمال سازی متن

در متن کاوی منظور از پردازش زبان طبیعی (NLP)، قابل‌دسترس کردن زبان طبیعی برای ماشین است. پردازش زبان طبیعی، اسناد متنی بدون ساختار را دریافت و درنهایت به شکلی ساختاریافته تبدیل می‌کنند. در این حالت امکان استخراج اطلاعات از این اسناد وجود دارد. پردازش‌های متنی شامل تحلیل‌های صرفی و نحوی و معنایی متن ورودی است. …

ادامه نوشته »

تجزیه گر یا پارسر متون و تشخیص زبان با آپاچی تیکا (Apache Tika)

آپاچی تیکا

آپاچی تیکا: آپاچی تیکا یکی از پروژه‌های متن باز Apache است که کلاسی برای شناسایی زبان متون دارد. Tika برای استخراج متن اصلی از فایل های متنی و تجزیه کردن قسمت های مختلف فایل با توجه به متا دیتای آن کاربرد دارد. تیکا برای تعیین زبان (که در مبحث تشخیص نوع زبان به آن پرداخته …

ادامه نوشته »

پایگاه داده PostgreSQL (زیر سیستم ها و معماری)

پایگاه داده PostgreSQL

پایگاه داده PostgreSQL یک سیستم پایگاه داده‌ی ارتباطی شی‌گرا و منبع باز است که برای اولین‌بار در سال ۱۹۹۷ با نام “Ingres” ایجاد شد. در اواخر دهه‌ی ۱۹۹۰، Postgre استانداردهای SQL را پذیرفت و نام “PostgreSQL” را اتخاذ کرد. تا به امروز، هزاران برنامه‌ی کاربردی پایگاه داده با استفاده از PostgreSQL طراحی شده است و …

ادامه نوشته »

آموزش IntelliJ IDEA (قسمت چهارم دی باگ برنامه های جاوا)

دی باگ یا اشکال زدایی برنامه های جاوا

دی باگ یا اشکال زدایی اولین برنامه جاوا شما (دیباگ کردن) در این پست روش اشکال زدایی برنامه های جاوا را توصیف می کنیم. IntelliJ IDEA طیف گسترده ای از امکانات را برای اشکال زدایی یا دیباگ کردن کد منبع فراهم می کند: قرار دادن نقطه توقف (breakpoints) شروع یک جلسه اشکال زدایی مراحل through …

ادامه نوشته »

مثالی از داده کاوی و تحلیل گراف خطوط هوایی شبکه جهانی حمل و نقل

تحلیل گراف خطوط هوایی

در این پست یک تحلیل و بصری سازی خوب از گراف ۶۰،۰۰۰ پرواز در بین ۳,۲۷۵ فرودگاه جهان توسط ۵۳۱ خطوط هوایی در ۳۷،۱۵۳ مسیر یکتا همراه با تحلیل خوشه بندی و تشخیص Centerality ارائه شده است. هر نود نشان دهنده یک فرودگاه است و اندازه گره نشان دهنده تعداد مسیرهای پرواز (مجموع ۳۷۱۵۳ مسیر) …

ادامه نوشته »

تحلیل دینامیک پیگیری انجمن ها (Community Tracking) در شبکه های اجتماعی

پیگیری انجمن ها

پیگیری انجمن ها: با توجه به ساختار جهان هستی و اصالت داشتن رابطه‌ها در آن، گراف‌ها به عنوان ساختارهایی که روابط اشیا با هم را در سطح انتزاع مناسبی نشان می‌دهند به طور گسترده در مدل‌سازی مسائل مختلف مورد استفاده قرار گرفته‌اند. به همین سبب، در اختیار داشتن ابزارهایی مناسب برای تحلیل آن‌ها به یک …

ادامه نوشته »

تحلیل انتشار اطلاعات یا Diffusion در گراف شبکه اجتماعی

تحلیل انتشار

یکی از مهم‌ترین فرایندهای دینامیکی در شبکه‌های اجتماعی و کلاً شبکه‌های پیچیده، فرایند تحلیل انتشار اطلاعات است. به‌طورکلی هر چیزی که بتواند به‌صورت فیزیکی یا مجازی میان گره‌ها جابجا شود می‌تواند در این فرایند انتشار مدنظر قرار گیرد. از انتشار بیماری‌های واگیردار ویروسی و یا بیماری‌های واگیردار اجتماعی گرفته تا انتشار حوادث و خرابی‌ها، از …

ادامه نوشته »

روش محاسبه تعداد کلمات کلیدی (key word) در اسناد متنی

محاسبه تعداد کلمات کلیدی

محاسبه تعداد کلمات کلیدی در اسناد متنی بر حسب تعداد کل کلمات هر سند محاسبه تعداد کلمات کلیدی در مطالب قبل به برخی از تکنیک های پردازش متن اشاره کردیم . در این مبحث به روش محاسبه تعداد کلمات کلیدی در اسناد متنی میپردازیم. کلمات کلیدی مجموعه ای از لغات مهم در یک متن هستند …

ادامه نوشته »