بایگانی برچسب: پارسر

تجزیه گر یا پارسر متون و تشخیص زبان با آپاچی تیکا (Apache Tika)

آپاچی تیکا

آپاچی تیکا: آپاچی تیکا يکي از پروژه‌هاي متن باز Apache است که کلاسي براي شناسايي زبان متون دارد. Tika براي استخراج متن اصلی از فایل های متنی و تجزیه کردن قسمت های مختلف فایل با توجه به متا دیتای آن کاربرد دارد. تیکا برای …

ادامه مطلب

پارس کردن صفحات وب با کتابخانه beautifulsoup پایتون

پارس کردن صفحات وب با پایتون

معرفی کتابخانه beautifulsoup پایتون : به منظور تجزیه کردن یا پارس کردن صفحات وب با پایتون (فایل های HTML) میتوان از این کتاب خانه استفاده کرد. همچنین از این کتابخانه میتوان برای تجزیه کردن فایل های XML استفاده کرد. مفاهیم کتابخانه beautifulsoup به منظور …

ادامه مطلب