بایگانی برچسب: Language Detection

تجزیه گر یا پارسر متون و تشخیص زبان با آپاچی تیکا (Apache Tika)

آپاچی تیکا

آپاچی تیکا: آپاچی تیکا يکي از پروژه‌هاي متن باز Apache است که کلاسي براي شناسايي زبان متون دارد. Tika براي استخراج متن اصلی از فایل های متنی و تجزیه کردن قسمت های مختلف فایل با توجه به متا دیتای آن کاربرد دارد. تیکا برای تعيين زبان (که در مبحث تشخیص نوع زبان به آن پرداخته …

ادامه مطلب

روش‏ هاي تشخيص زبان در متن

روش‏ هاي تشخيص زبان

تشخیص زبان یک متن، یکی از اولین گام ها به سوی متن کاوی است. مخصوصا در فضای بزرگ سایبر که تنوع بسیار زیادی از داده ها وجود دارد. حتی ممکن است گاهی در اسناد سازمانی هم با تنوع متفاوتی از زبان ها در اسناد مواجه شویم. در بیشتر موارد مخصوصا اگر رنج تنوع زبان ها …

ادامه مطلب