پردازش متن با Jhazm نسخه جاوا کتابخانه هضم برای پردازش زبان فارسی

پردازش متن با Jhazm

jHazm نسخه جاوایی هضم از کتابخانه پایتون برای پردازش زبان فارسی است. کتابخانه HAZM برای انجام پردازش­ های لازم بر روی زبان فارسی توسط دانشجویان دانشگاه علم و صنعت در سال ۱۳۹۲ به صورت متن­ باز و با استفاده از کتابخانه NLTK منتشر شد. لایسنس این ابزار MIT میباشد. هضم، ابتدا ...

ادامه مطلب

آموزش عملی گراف کاوی و تحلیل شبکه های اجتماعی با پایتون (NetworkX)

فیلم آموزشی تحلیل شبکه های اجتماعی

در این پست به آموزش عملی گراف کاوی و تحلیل شبکه های اجتماعی با پایتون میپردازیم. networkx یک بسته پایتون برای ایجاد، دستکاری و مطالعه ساختار، پویایی و عملکرد شبکه های پیچیده است. امکانات networkx ساختار داده ها برای نمودارها، گراف ها و چند گرافیک بسیاری از الگوریتم های مربوط ...

ادامه مطلب

سایت های علمی پژوهشی و آموزشی

سایت های علمی پژوهشی

سایت های مهم علمی آموزشی پژوهشی بانکهای اطلاعاتی: www.digitallibraryplus.com www.daneshyar.net www.umi.com/pqdauto www.search.ebscohost.com www.sciencedirect.com www.emeraldinsight.com www.online.sagepub.com www.springerlink.com www.scopus.com http://apps.isiknowledge.com 〰〰〰〰〰〰〰〰〰〰〰〰〰〰〰 پایان نامه های داخلی و خارجی www.irandoc.ac.ir www.umi.com/pgdauto www.mhrn.net www.theses.org 〰〰〰〰〰〰〰〰〰〰〰〰〰〰〰 مقالات فارسی www.magiran.com www.civilica.com www.sid.ir 〰〰〰〰〰〰〰〰〰〰〰〰〰〰〰 کتابخانه ملی ایران، آمریکا و انگلیس www.nlai.ir www.loc.gov www.bl.uk 〰〰〰〰〰〰〰〰〰〰〰〰〰〰〰 دسترسی آزاد روانشناسی و ...

ادامه مطلب

۱۰ معیار خرید برای امنیت کلان داده

معیار خرید برای امنیت کلان داده

در این پست موارد زیر در رابطه با معیار خرید برای امنیت کلان داده ، بررسی خواهد شد. ▶▶ پرهیز از پیشنهادات امنیت ابرداده ای سطح پایین ▶▶ ایجاد یک چک لیست از معیار های خرید ▶▶ بفهمیم که در یک راه حل به دنبال چه باشیم همه ی راه حل ...

ادامه مطلب

استخراج عبارات کلیدی (KeyPhrase) از متن با روش Ngram

استخراج عبارات کلیدی

فرایند استخراج عبارات کلیدی منجر به کشف مجموعه‌ای از عبارات (KeyPhrase) مهم در یک سند میشود که توصیفی از محتوای سند را فراهم می‌آورد و برای اهداف مختلفی مورداستفاده قرار می‌گیرد. عبارات کلیدی، اطلاعات نحوی مفیدی را برای بسیاری از کارهای پردازش متن فراهم می‌کند، مثلاً در خوشه‌بندی متن، طبقه‌بندی ...

ادامه مطلب

یکسان سازی یا نرمال سازی متن با استفاده از کتابخانه JHazm

نرمال سازی متن

در متن کاوی منظور از پردازش زبان طبیعی (NLP)، قابل‌دسترس کردن زبان طبیعی برای ماشین است. پردازش زبان طبیعی، اسناد متنی بدون ساختار را دریافت و درنهایت به شکلی ساختاریافته تبدیل می‌کنند. در این حالت امکان استخراج اطلاعات از این اسناد وجود دارد. پردازش‌های متنی شامل تحلیل‌های صرفی و نحوی ...

ادامه مطلب

تجزیه گر یا پارسر متون و تشخیص زبان با آپاچی تیکا (Apache Tika)

آپاچی تیکا

آپاچی تیکا: آپاچی تیکا یکی از پروژه‌های متن باز Apache است که کلاسی برای شناسایی زبان متون دارد. Tika برای استخراج متن اصلی از فایل های متنی و تجزیه کردن قسمت های مختلف فایل با توجه به متا دیتای آن کاربرد دارد. تیکا برای تعیین زبان (که در مبحث تشخیص ...

ادامه مطلب

پایگاه داده PostgreSQL (زیر سیستم ها و معماری)

پایگاه داده PostgreSQL

پایگاه داده PostgreSQL یک سیستم پایگاه داده‌ی ارتباطی شی‌گرا و منبع باز است که برای اولین‌بار در سال ۱۹۹۷ با نام “Ingres” ایجاد شد. در اواخر دهه‌ی ۱۹۹۰، Postgre استانداردهای SQL را پذیرفت و نام “PostgreSQL” را اتخاذ کرد. تا به امروز، هزاران برنامه‌ی کاربردی پایگاه داده با استفاده از ...

ادامه مطلب

آموزش IntelliJ IDEA (قسمت چهارم دی باگ برنامه های جاوا)

دی باگ یا اشکال زدایی برنامه های جاوا

دی باگ یا اشکال زدایی اولین برنامه جاوا شما (دیباگ کردن) در این پست روش اشکال زدایی برنامه های جاوا را توصیف می کنیم. IntelliJ IDEA طیف گسترده ای از امکانات را برای اشکال زدایی یا دیباگ کردن کد منبع فراهم می کند: قرار دادن نقطه توقف (breakpoints) شروع یک ...

ادامه مطلب

مثالی از داده کاوی و تحلیل گراف خطوط هوایی شبکه جهانی حمل و نقل

تحلیل گراف خطوط هوایی

در این پست یک تحلیل و بصری سازی خوب از گراف ۶۰،۰۰۰ پرواز در بین ۳,۲۷۵ فرودگاه جهان توسط ۵۳۱ خطوط هوایی در ۳۷،۱۵۳ مسیر یکتا همراه با تحلیل خوشه بندی و تشخیص Centerality ارائه شده است. هر نود نشان دهنده یک فرودگاه است و اندازه گره نشان دهنده تعداد ...

ادامه مطلب

تحلیل دینامیک پیگیری انجمن ها (Community Tracking) در شبکه های اجتماعی

پیگیری انجمن ها

پیگیری انجمن ها: با توجه به ساختار جهان هستی و اصالت داشتن رابطه‌ها در آن، گراف‌ها به عنوان ساختارهایی که روابط اشیا با هم را در سطح انتزاع مناسبی نشان می‌دهند به طور گسترده در مدل‌سازی مسائل مختلف مورد استفاده قرار گرفته‌اند. به همین سبب، در اختیار داشتن ابزارهایی مناسب ...

ادامه مطلب

تحلیل انتشار اطلاعات یا Diffusion در گراف شبکه اجتماعی

تحلیل انتشار

یکی از مهم‌ترین فرایندهای دینامیکی در شبکه‌های اجتماعی و کلاً شبکه‌های پیچیده، فرایند تحلیل انتشار اطلاعات است. به‌طورکلی هر چیزی که بتواند به‌صورت فیزیکی یا مجازی میان گره‌ها جابجا شود می‌تواند در این فرایند انتشار مدنظر قرار گیرد. از انتشار بیماری‌های واگیردار ویروسی و یا بیماری‌های واگیردار اجتماعی گرفته تا ...

ادامه مطلب

روش محاسبه تعداد کلمات کلیدی (key word) در اسناد متنی

محاسبه تعداد کلمات کلیدی

محاسبه تعداد کلمات کلیدی در اسناد متنی بر حسب تعداد کل کلمات هر سند در مطالب قبل به برخی از تکنیک های پردازش متن اشاره کردیم . در این مبحث به روش محاسبه تعداد کلمات کلیدی در اسناد متنی میپردازیم. کلمات کلیدی مجموعه ای از لغات مهم در یک متن ...

ادامه مطلب

آموزش IntelliJ IDEA (قسمت سوم ایجاد یک پروژه جدید جاوا)

ایجاد یک پروژه جدید با intellij IDEA

در مبحث قبل آموزش نصب intellij ارائه شد. این آموزش گردش کار توسعه و ایجاد یک پروژه جدید جاوا با intellij IDEA برای یک برنامه Java SE را نشان می دهد. ایجاد یک پروژه جدید با intellij IDEA ایجاد یک پروژه جدید جاوا با intellij IDEA هر توسعه جدید در ...

ادامه مطلب

انواع مجوزها یا لایسنس های مـتن بـاز (Open Source)

لایسنس های مـتن بـاز (Open Source)

بخش ۱ مقدمه لایسنس های مـتن بـاز (Open Source) قبل از آشنایی با لایسنس های مـتن بـاز (Open Source) ، به مقدمه کوتاهی در رابطه با مسائل حقوقی نرم افزار خواهیم پرداخت.  نرم‌افزار به عنوان یکی از محصولات ساخته تفکر انسان محصولی است که همیشه در حال تغییر می‌باشد. بنابراین ...

ادامه مطلب