نقش واحدساز (Tokenizer) در پردازش متن و متن کاوی

واحدساز (Tokenizer)

در بخش های قبلی به روش های تشخیص زبان در متون اشاره کردیم در این مبحث به نقش واحد ساز (Tokenizer) در پردازش متن میپردازیم.  واحدساز (Tokenizer) مرز کلمات را در متون تشخیص داده و متن را به دنباله‌ای از کلمات تبدیل می‌کند و آن را برای تحلیل های بعدی آماده میکند. در واقع این واحد ساز جزء مراحل پیش پردازش (pre process) متن به حساب میآید. در فرایتند تحلیل متون اغلب بعد از پارس (Pars) کردن متن عمل جداسازی کلمات با ابزار Tokenizer انجام میشود. معمولا بعد از این مرحله نوبت به مرحله حذف ایست‌واژه‌ها یا Stop Wordsها میباشد که در مراحل بعدی به آن میپردازیم. در شکل زیر این مراحل به تصویر کشیده شده است. ابزار واحد ساز (Tokenizer) براي شکستن يک متن بر اساس واحدهاي با معني مانند کلمه، پاراگراف، جمله و نمادهاي معنادار مانند space و tab است.

به عبارتی دیگر واحدسازی تکه­ تکه کردن سند به قسمت­های کوچک به نام واحد است. واحدسازی در سطح کلمات رخ می­دهد و واحدهای استخراج شده می­توانند به عنوان ورودی ماژول­های دیگر مانند ریشه­ یاب و برچسب­گذار استفاده شود. لازمه­ ي ايجاد اين ابزار جمع ­آوري واحدهايي است که در زبان فارسي به عنوان واحدهاي مستقل معنايي شناخته مي­ شوند. متن بر اساس انتخاب هر کدام از اين واحدها، شکسته خواهد شد. از نمونه­ هاي انگليسي این ابزار مي­توان به استنفورد، Flex، JLex، JFLex، ANTLR،Ragel  و Quex اشاره کرد.

این ابزار مرز کلمات را در متون تشخیص داده و متن را به دنباله‌ای از کلمات تبدیل می‌کند. کلمات چند بخشی، کلمات بهم چسبیده و ترکیب‌های خاصی مانند اعداد اعشاری، تاریخ و ساعت از چالش‌های موجود در تشخیص مرز کلمات است.

نقش و جایگاه واحدساز (Tokenizer) در پردازش متن

واحدساز (Tokenizer)
واحدساز (Tokenizer)

 

یکی از پرکاربردترین محل های استفاده از واحد ساز در شاخص گذاری بر روی داده است. شکل زیر مراحل کار را نمایش میدهد.

واحدساز (Tokenizer)
نقش واحدساز (Tokenizer) در شاخص گذاری یا اندیکس داده

 

منبع: بخشی از این مطلب از گزارش سمينار دوست خوبم آقای طاهری کیا با موضوع بررسی و مقایسه روش­ های شناسایی و پیگیر جریان­ های موضوعی اخبار برداشت شده است.

https://www.elastic.co/blog/found-text-analysis-part-1

 

آدرس کانال تلگرام سایت بیگ دیتا:

t.me/bigdata_channel

آدرس کانال سروش ما:
https://sapp.ir/bigdata_channel

جهت دیدن سرفصل های دوره های آموزشی بر روی اینجا کلیک کنید.

بازدیدها: 4752

همچنین ببینید

مدل داده کاوی CRISP

روش های داده کاوی (Data Mining) به زبان ساده

امروزه داده کاوی به عنوان پایه و مبنای تصمیم های مهم محسوب می‌شود. داده کاوی …

اسامی مکان

مجموعه داده اسامی مکان برای تشخیص موجودیت های مکانی در پردازش زبان طبیعی

عناوين مطالب: 'مقدمه ای بر اسامی مکان:کاربردهای (Named-entity recognition) NERروشهای تشخیص اسم مکاندانلود دیتاست اسامی …

دیدگاهتان را بنویسید