بایگانی برچسب: NLP

مراحل متن کاوی و پردازش متن به زبان خلاصه

مراحل متن کاوی

مقدمه ای بر مراحل متن کاوی امروزه بخش وسیعی از دانش به‌صورت متن، مستندات و دیگر صورت‌های رسانه‌ای نگهداری می‌شوند که همه آن‌ها به‌صورت غیر ساختاریافته هستند. یکی از کاربردهای داده‌کاوی، متن‌کاوی است. ﺑـﺮاي درﻳﺎﻓﺖ داﻧﺶ از اﻃﻼﻋﺎت ﻳﻚ ﻣﺘﻦ، ﻻزم اﺳﺖ اﺑﺘﺪا آن را درك ﻛـﺮد، ﺳـﭙﺲ ﭘـﺮدازش ﻛﺮد ﺗﺎ ﻓﻬﻤﻴﺪ ﭼﻪ ﻣﻌﺎﻧﻲ و …

ادامه مطلب

یکسان سازی یا نرمال سازی متن با استفاده از کتابخانه JHazm

نرمال سازی متن

در متن کاوی منظور از پردازش زبان طبیعی (NLP)، قابل‌دسترس کردن زبان طبیعی برای ماشین است. پردازش زبان طبیعی، اسناد متنی بدون ساختار را دریافت و درنهایت به شکلی ساختاریافته تبدیل می‌کنند. در این حالت امکان استخراج اطلاعات از این اسناد وجود دارد. پردازش‌های متنی شامل تحلیل‌های صرفی و نحوی و معنایی متن ورودی است. …

ادامه مطلب

تجزیه گر یا پارسر متون و تشخیص زبان با آپاچی تیکا (Apache Tika)

آپاچی تیکا

آپاچی تیکا: آپاچی تیکا يکي از پروژه‌هاي متن باز Apache است که کلاسي براي شناسايي زبان متون دارد. Tika براي استخراج متن اصلی از فایل های متنی و تجزیه کردن قسمت های مختلف فایل با توجه به متا دیتای آن کاربرد دارد. تیکا برای تعيين زبان (که در مبحث تشخیص نوع زبان به آن پرداخته …

ادامه مطلب

روش‏ هاي تشخيص زبان در متن

روش‏ هاي تشخيص زبان

تشخیص زبان یک متن، یکی از اولین گام ها به سوی متن کاوی است. مخصوصا در فضای بزرگ سایبر که تنوع بسیار زیادی از داده ها وجود دارد. حتی ممکن است گاهی در اسناد سازمانی هم با تنوع متفاوتی از زبان ها در اسناد مواجه شویم. در بیشتر موارد مخصوصا اگر رنج تنوع زبان ها …

ادامه مطلب