نقش ریشه­ یاب (Stemmer) در تحلیل متن و پردازش زبان طبیعی

در این مبحث مولفه ریشه­ یاب (Stemmer) در فرایند پردازش متن تشریح می‌گردند. ریشه یابی عبارت است از حذف پس وندها و پیش وند های کلمات و استخراج ریشه آن ها. در هر زبان، واژه‌ها با توجه به نقش معنایی و نحوی خود در جلمه به شکل‌های ظاهری متفاوتی حضور می‌یابند، این شکل ظاهری متفاوت از جهتی نشان‌دهنده معنای متفاوت این واژه‌هاست، اما با توجه به این که تمامی آن‌ها از یک ریشه مشتق شده‌اند، از نظر معنا قرابت نسبتا زیادی خواهند داشت. ازهمین رو در بسیاری از کاربردهای پردازش زبان طبیعی و بازیابی اطلاعات، نیاز داریم تا همه مشتقات یک واژه را به ریشه‌ی آن، که همان شکل ساده واژه می‌باشد، تبدیل نماییم. ریشه یابی کلمات در سیستم های بازیابی اطلاعات یک امر ناگزیر است. پروسه ریشه یابی کلمات را به صورت عبارت پایه آن در می آورد. برای مثال، کلمه “روش هایم”، “روشی” و “روشمند” هر سه از ریشه روش هستند. روش های ریشه یابی اغلب مبتنی بر زبان هستند. ریشه یابی بعد مرحه جداساز انجام میشود که در مبحث نقش واحدساز (Tokenizer) در پردازش متن به آن اشاه شد. شکل زیر مراحل پردازش و تحلیل متن را به صورت ساده نشان میدهد.

 

مراحل پردازش و تحلیل متن
مراحل پردازش و تحلیل متن

این ابزار براي ریشه­ یابی لغات و تشخیص نوع کلمه ساخته شده از آن ریشه (اسم مکان، اسم زمان، حالت فاعلی، مفعولی و …) استفاده می­شود. ریشه­ یابی اصطلاحی است که برای تعریف فرآیند کاهش دادن یک کلمه و رسیدن به ریشه آن به ­کار می­رود. منظور از ریشه در این تعریف، ریشه زبانی نیست و هدف این است که فرمت­ های گوناگون یک کلمه دارای ریشه­ های یکسان باشند. معمولاً ریشه­ یابی لغات بر اساس قواعد ساخت واژه­ای و سپس حذف پسوندها می­باشد. تاکنون روش مؤثری برای حذف پیشوندها ارائه نشده است. در تلاشی که در آزمایشگاه فناوری وب انجام شده است، سعی شده تا بر اساس آنالیزهای آماری و داده ­کاوی پسوندها حذف گردند، که این روش هم می تواند راهی برای تشخیص ریشه باشد. معروف­ترین الگوریتم ریشه­ یابی در انگلیسی porter می ­باشد. برای ریشه‌یابی به برچسب کلمات نیازی نیست  بنابراین برای این مؤلفه برچسب‌گذاری استفاده نمی شود. معمولا در تحلیل متون از ریشه‌یاب Snowball استفاده م شود، این ریشه‌یاب در سیستم‌های متن کاوی انگلیسی مختلف و معتبر چون “Gate” و “Statistica” استفاده شده‌است.

ریشه­ یاب (Stemmer)
مراحل ریشه­ یاب (Stemmer) پورتر

نکته: بن‌واژه‌سازی(Lemmatizer) با ریشه‌یابی متفاوت است. بن‌واژ‌ه‌سازی عمل حذف وندهای تصریفی از کلمه است ولی در ریشه‌یابی علاوه بر حذف وندهای تصریفی وندهای اشتقاقی نیز از کلمه حذف می‌شود. فرآیند Lemmatizing وقت گیر و حرفه ای تر است و نیاز به پردازش های دیگری مانند POS Tagging هم دارد که نقش کلمه در جمله را ابتدا معین کند. در عمل ریشه­ یاب (Stemmer) به تک واژه ها نگاه می شود و به کلمات اطراف اون لغت، اهمیتی داده نمیشود ولی در Lemmatizing ما بر اساس نوع کلمه و بستری که یک کلمه در آن به کار رفته است به ریشه یابی یک کلمه مبادرت می ورزیم.

 

آدرس کانال تلگرام سایت بیگ دیتا:

t.me/bigdata_channel

آدرس کانال سروش ما:
https://sapp.ir/bigdata_channel

جهت دیدن سرفصل های دوره های آموزشی بر روی اینجا کلیک کنید.

بازدیدها: 3635

همچنین ببینید

اسامی مکان

مجموعه داده اسامی مکان برای تشخیص موجودیت های مکانی در پردازش زبان طبیعی

مقدمه ای بر اسامی مکان: یکی از انواع موجودیت های نامدار، اسم مکان است. برای …

مجموعه داده اخبار

دانلود مجموعه داده اخبار با طبقه بندی موضوعی (classification)

به منظور استفاده دانشجوبان عزیز در انجام پایان نامه حدود بیست هراز مجموعه داده اخبار …

دیدگاهتان را بنویسید

Big Data

مطالب مفید را در گروه و کانال تلگرام ما دنبال کنید

ورود به تلگرام
بعدا x