نقش ریشه­ یاب (Stemmer) در تحلیل متن و پردازش زبان و تفاوت آن با lemmatizer

در این مبحث مولفه ریشه­ یاب (Stemmer) در فرایند پردازش متن تشریح می‌گردند. ریشه یابی عبارت است از حذف پس وندها و پیش وند های کلمات و استخراج ریشه آن ها.

ریشه­ یاب (Stemmer) چیست؟

در هر زبان، واژه‌ها با توجه به نقش معنایی و نحوی خود در جلمه به شکل‌های ظاهری متفاوتی حضور می‌یابند، این شکل ظاهری متفاوت از جهتی نشان‌دهنده معنای متفاوت این واژه‌هاست، اما با توجه به این که تمامی آن‌ها از یک ریشه مشتق شده‌اند، از نظر معنا قرابت نسبتا زیادی خواهند داشت. ازهمین رو در بسیاری از کاربردهای پردازش زبان طبیعی و بازیابی اطلاعات، نیاز داریم تا همه مشتقات یک واژه را به ریشه‌ی آن، که همان شکل ساده واژه می‌باشد، تبدیل نماییم. ریشه یابی کلمات در سیستم های بازیابی اطلاعات یک امر ناگزیر است.

فرایند پروسه ریشه یابی کلمات

پروسه ریشه یابی کلمات را به صورت عبارت پایه آن در می آورد. برای مثال، کلمه “روش هایم”، “روشی” و “روشمند” هر سه از ریشه روش هستند. روش های ریشه یابی اغلب مبتنی بر زبان هستند. ریشه یابی بعد مرحه جداساز انجام میشود که در مبحث نقش واحدساز (Tokenizer) در پردازش متن به آن اشاه شد. شکل زیر مراحل پردازش و تحلیل متن را به صورت ساده نشان میدهد. این ابزار براي ریشه­ یابی لغات و تشخیص نوع کلمه ساخته شده از آن ریشه (اسم مکان، اسم زمان، حالت فاعلی، مفعولی و …) استفاده می­شود.

 

مراحل پردازش و تحلیل متن
مراحل پردازش و تحلیل متن

روش های ریشه یابی کلمات

 ریشه­ یابی اصطلاحی است که برای تعریف فرآیند کاهش دادن یک کلمه و رسیدن به ریشه آن به ­کار می­رود. منظور از ریشه در این تعریف، ریشه زبانی نیست و هدف این است که فرمت­ های گوناگون یک کلمه دارای ریشه­ های یکسان باشند. معمولاً ریشه­ یابی لغات بر اساس قواعد ساخت واژه­ای و سپس حذف پسوندها می­باشد. تاکنون روش مؤثری برای حذف پیشوندها ارائه نشده است. در تلاشی که در آزمایشگاه فناوری وب انجام شده است، سعی شده تا بر اساس آنالیزهای آماری و داده ­کاوی پسوندها حذف گردند، که این روش هم می تواند راهی برای تشخیص ریشه باشد. معروف­ترین الگوریتم ریشه­ یابی در انگلیسی porter می ­باشد. برای ریشه‌یابی به برچسب کلمات نیازی نیست  بنابراین برای این مؤلفه برچسب‌گذاری استفاده نمی شود. معمولا در تحلیل متون از ریشه‌یاب Snowball استفاده م شود، این ریشه‌یاب در سیستم‌های متن کاوی انگلیسی مختلف و معتبر چون “Gate” و “Statistica” استفاده شده‌است.

ریشه­ یاب (Stemmer)
مراحل ریشه­ یاب (Stemmer) پورتر
جایگاه استفاده از بن یاب کلمات در تحلیل متن
جایگاه استفاده از بن یاب کلمات در تحلیل متن

فرق stemmer با lemmatizer

نکته: بن‌واژه‌سازی(Lemmatizer) با ریشه‌یابی متفاوت است. بن‌واژ‌ه‌سازی عمل حذف وندهای تصریفی از کلمه است ولی در ریشه‌یابی علاوه بر حذف وندهای تصریفی وندهای اشتقاقی نیز از کلمه حذف می‌شود. فرآیند Lemmatizing وقت گیر و حرفه ای تر است و نیاز به پردازش های دیگری مانند POS Tagging هم دارد که نقش کلمه در جمله را ابتدا معین کند. در عمل ریشه­ یاب (Stemmer) به تک واژه ها نگاه می شود و به کلمات اطراف آن لغت، اهمیتی داده نمیشود ولی در Lemmatizing ما بر اساس نوع کلمه و بستری که یک کلمه در آن به کار رفته است به ریشه یابی یک کلمه مبادرت می ورزیم.

به عبارتی دیگر استمینگ فرآیندی است که چند کاراکتر آخر یک کلمه را منشا می‌گیرد یا حذف می‌کند، که اغلب منجر به معانی و املای نادرست می‌شود. Lemmatization، زمینه را در نظر می گیرد و کلمه را به شکل پایه معنی دار خود تبدیل می کند که به آن Lemma می گویند. به مثال زیر توجه کنید

 
فرق stemmer با lemmatizer
فرق stemmer با lemmatizer
برای دیدن فلیم های سینماییِ مهیج و جذاب”در حوزه فناوری اطلاعات، اوسینت و هوش مصنوعی“، بر روی اینجا کلیک کنید.

آدرس کانال تلگرام سایت بیگ دیتا:

t.me/bigdata_channel

آدرس کانال سروش ما:
https://sapp.ir/bigdata_channel

جهت دیدن سرفصل های دوره های آموزشی بر روی اینجا کلیک کنید.

جهت ثبت نام در دوره های آموزشی بر روی اینجا کلیک کنید.

بازدیدها: 4261

همچنین ببینید

اسامی مکان

مجموعه داده اسامی مکان برای تشخیص موجودیت های مکانی در پردازش زبان طبیعی

عناوين مطالب: 'مقدمه ای بر اسامی مکان:کاربردهای (Named-entity recognition) NERروشهای تشخیص اسم مکاندانلود دیتاست اسامی …

مجموعه داده اخبار

دانلود مجموعه داده اخبار با طبقه بندی موضوعی (classification)

به منظور استفاده دانشجوبان عزیز در انجام پایان نامه حدود بیست هراز مجموعه داده اخبار …

دیدگاهتان را بنویسید