صفحه نخست --> ۱۳۹۷ --> خرداد

آرشیو ماهانه خرداد ۱۳۹۷

یکسان سازی یا نرمال سازی متن با استفاده از کتابخانه JHazm

نرمال سازی متن

در متن کاوی منظور از پردازش زبان طبیعی (NLP)، قابل‌دسترس کردن زبان طبیعی برای ماشین است. پردازش زبان طبیعی، اسناد متنی بدون ساختار را دریافت و درنهایت به شکلی ساختاریافته تبدیل می‌کنند. در این حالت امکان استخراج اطلاعات از این اسناد وجود دارد. پردازش‌های متنی شامل تحلیل‌های صرفی و نحوی ...

ادامه مطلب

تجزیه گر یا پارسر متون و تشخیص زبان با آپاچی تیکا (Apache Tika)

آپاچی تیکا

آپاچی تیکا: آپاچی تیکا یکی از پروژه‌های متن باز Apache است که کلاسی برای شناسایی زبان متون دارد. Tika برای استخراج متن اصلی از فایل های متنی و تجزیه کردن قسمت های مختلف فایل با توجه به متا دیتای آن کاربرد دارد. تیکا برای تعیین زبان (که در مبحث تشخیص ...

ادامه مطلب

پایگاه داده PostgreSQL (زیر سیستم ها و معماری)

پایگاه داده PostgreSQL

پایگاه داده PostgreSQL یک سیستم پایگاه داده‌ی ارتباطی شی‌گرا و منبع باز است که برای اولین‌بار در سال ۱۹۹۷ با نام “Ingres” ایجاد شد. در اواخر دهه‌ی ۱۹۹۰، Postgre استانداردهای SQL را پذیرفت و نام “PostgreSQL” را اتخاذ کرد. تا به امروز، هزاران برنامه‌ی کاربردی پایگاه داده با استفاده از ...

ادامه مطلب

آموزش IntelliJ IDEA (قسمت چهارم اشکال زدایی برنامه های جاوا)

اشکال زدایی برنامه های جاوا

اشکال زدایی اولین برنامه جاوا شما (دیباگ کردن) در این پست روش اشکال زدایی برنامه های جاوا را توصیف می کنیم. IntelliJ IDEA طیف گسترده ای از امکانات را برای اشکال زدایی یا دیباگ کردن کد منبع فراهم می کند: قرار دادن نقطه توقف (breakpoints) شروع یک جلسه اشکال زدایی ...

ادامه مطلب

مثالی از داده کاوی و تحلیل گراف خطوط هوایی شبکه جهانی حمل و نقل

تحلیل گراف خطوط هوایی

در این پست یک تحلیل و بصری سازی خوب از گراف ۶۰،۰۰۰ پرواز در بین ۳,۲۷۵ فرودگاه جهان توسط ۵۳۱ خطوط هوایی در ۳۷،۱۵۳ مسیر یکتا همراه با تحلیل خوشه بندی و تشخیص Centerality ارائه شده است. هر نود نشان دهنده یک فرودگاه است و اندازه گره نشان دهنده تعداد ...

ادامه مطلب

تحلیل دینامیک پیگیری انجمن ها (Community Tracking) در شبکه های اجتماعی

پیگیری انجمن ها

پیگیری انجمن ها: با توجه به ساختار جهان هستی و اصالت داشتن رابطه‌ها در آن، گراف‌ها به عنوان ساختارهایی که روابط اشیا با هم را در سطح انتزاع مناسبی نشان می‌دهند به طور گسترده در مدل‌سازی مسائل مختلف مورد استفاده قرار گرفته‌اند. به همین سبب، در اختیار داشتن ابزارهایی مناسب ...

ادامه مطلب

تحلیل انتشار اطلاعات یا Diffusion در گراف شبکه اجتماعی

تحلیل انتشار

یکی از مهم‌ترین فرایندهای دینامیکی در شبکه‌های اجتماعی و کلاً شبکه‌های پیچیده، فرایند تحلیل انتشار اطلاعات است. به‌طورکلی هر چیزی که بتواند به‌صورت فیزیکی یا مجازی میان گره‌ها جابجا شود می‌تواند در این فرایند انتشار مدنظر قرار گیرد. از انتشار بیماری‌های واگیردار ویروسی و یا بیماری‌های واگیردار اجتماعی گرفته تا ...

ادامه مطلب

روش محاسبه تعداد کلمات کلیدی (key word) در اسناد متنی

محاسبه تعداد کلمات کلیدی

محاسبه تعداد کلمات کلیدی در اسناد متنی بر حسب تعداد کل کلمات هر سند در مطالب قبل به برخی از تکنیک های پردازش متن اشاره کردیم . در این مبحث به روش محاسبه تعداد کلمات کلیدی در اسناد متنی میپردازیم. کلمات کلیدی مجموعه ای از لغات مهم در یک متن ...

ادامه مطلب

آموزش IntelliJ IDEA (قسمت سوم ایجاد یک پروژه جدید جاوا)

ایجاد یک پروژه جدید با intellij IDEA

در مبحث قبل آموزش نصب intellij ارائه شد. این آموزش گردش کار توسعه و ایجاد یک پروژه جدید جاوا با intellij IDEA برای یک برنامه Java SE را نشان می دهد. ایجاد یک پروژه جدید با intellij IDEA ایجاد یک پروژه جدید جاوا با intellij IDEA هر توسعه جدید در ...

ادامه مطلب