خانه --> بایگانی برچسب: پارسر

بایگانی برچسب: پارسر

تجزیه گر یا پارسر متون و تشخیص زبان با آپاچی تیکا (Apache Tika)

آپاچی تیکا

آپاچی تیکا: آپاچی تیکا یکی از پروژه‌های متن باز Apache است که کلاسی برای شناسایی زبان متون دارد. Tika برای استخراج متن اصلی از فایل های متنی و تجزیه کردن قسمت های مختلف فایل با توجه به متا دیتای آن کاربرد دارد. تیکا برای تعیین زبان (که در مبحث تشخیص نوع زبان به آن پرداخته …

ادامه نوشته »

پارس کردن صفحات وب با کتابخانه beautifulsoup پایتون

پارس کردن صفحات وب با پایتون

معرفی کتابخانه beautifulsoup پایتون : به منظور تجزیه کردن یا پارس کردن صفحات وب با پایتون (فایل های HTML) میتوان از این کتاب خانه استفاده کرد. همچنین از این کتابخانه میتوان برای تجزیه کردن فایل های XML استفاده کرد. مفاهیم کتابخانه beautifulsoup به منظور تجزیه کردن یا پارس کردن کتابخانه beautifulsoup یک کتابخانه پایتون است …

ادامه نوشته »