مقدمه ای بر مراحل متن کاوی امروزه بخش وسیعی از دانش بهصورت متن، مستندات و دیگر صورتهای رسانهای نگهداری میشوند که همه آنها بهصورت غیر ساختاریافته هستند. یکی از کاربردهای دادهکاوی، متنکاوی است. ﺑـﺮاي درﻳﺎﻓﺖ داﻧﺶ از اﻃﻼﻋﺎت ﻳﻚ ﻣﺘﻦ، ﻻزم اﺳﺖ اﺑﺘﺪا آن …
ادامه مطلببایگانی برچسب: TP
قطعه بندی متون فارسی (tokenize) با استفاده از جی هضم (Jhazm)
قطعه بندی متن (Tokenizer) در بخش های قبلی به روش های تشخیص زبان در متون اشاره کردیم و همچنین به نقش واحد ساز (Tokenizer) در پردازش متن پرداختیم. در این مبحث با استفاده از جی هضم (Jhazm) به قطعه بندی متون میپردازیم. Tokenizer ابزاری …
ادامه مطلب