خانه --> بایگانی برچسب: متن کاوی

بایگانی برچسب: متن کاوی

قطعه بندی متون فارسی (tokenize) با استفاده از جی هضم (Jhazm)

قطعه بندی متون

قطعه بندی متن (Tokenizer) در بخش های قبلی به روش های تشخیص زبان در متون اشاره کردیم در این مبحث به نقش واحد ساز (Tokenizer) در پردازش متن میپردازیم. Tokenizer ابزاری برای شکستن یک متن بر اساس واحدهای با معنی مانند کلمه، پاراگراف، نمادهای معنادار مانند space و  tab و … . لازمه ی ایجاد …

ادامه نوشته »

پردازش متن با Jhazm نسخه جاوا کتابخانه هضم برای پردازش زبان فارسی

پردازش متن با Jhazm

jHazm نسخه جاوایی هضم از کتابخانه پایتون برای پردازش زبان فارسی است. کتابخانه HAZM برای انجام پردازش­ های لازم بر روی زبان فارسی توسط دانشجویان دانشگاه علم و صنعت در سال ۱۳۹۲ به صورت متن­ باز و با استفاده از کتابخانه NLTK منتشر شد. لایسنس این ابزار MIT میباشد. هضم، ابتدا برای زبان پایتون و بر …

ادامه نوشته »

نقش واحدساز (Tokenizer) در پردازش متن

قطعه بندی متون

واحدساز (Tokenizer) در بخش های قبلی به روش های تشخیص زبان در متون اشاره کردیم در این مبحث به نقش واحد ساز (Tokenizer) در پردازش متن میپردازیم.  واحدساز (Tokenizer) مرز کلمات را در متون تشخیص داده و متن را به دنباله‌ای از کلمات تبدیل می‌کند و آن را برای تحلیل های بعدی آماده میکند. در …

ادامه نوشته »