خانه --> بایگانی برچسب: Language Detection

بایگانی برچسب: Language Detection

تجزیه گر یا پارسر متون و تشخیص زبان با آپاچی تیکا (Apache Tika)

آپاچی تیکا

آپاچی تیکا: آپاچی تیکا یکی از پروژه‌های متن باز Apache است که کلاسی برای شناسایی زبان متون دارد. Tika برای استخراج متن اصلی از فایل های متنی و تجزیه کردن قسمت های مختلف فایل با توجه به متا دیتای آن کاربرد دارد. تیکا برای تعیین زبان (که در مبحث تشخیص نوع زبان به آن پرداخته …

ادامه نوشته »

روش‏ های تشخیص زبان در متن

روش‏ هاي تشخيص زبان

تشخیص زبان یک متن، یکی از اولین گام ها به سوی متن کاوی است. مخصوصا در فضای بزرگ سایبر که تنوع بسیار زیادی از داده ها وجود دارد. حتی ممکن است گاهی در اسناد سازمانی هم با تنوع متفاوتی از زبان ها در اسناد مواجه شویم. در بیشتر موارد مخصوصا اگر رنج تنوع زبان ها …

ادامه نوشته »