دانلود ایست واژه‌ها یا Stop Word در زبان فارسی

ایست واژه‌ها یا Stop Word: کلماتی هستند که با وجود به تکرار بسیار زیاد آن و حضور آنها در اغلب اسناد فاقد اطلاعات معنابخش هستند. بنابراین با حذف آن‌ها کارایی الگوریتم‌ها افزایش  و حجم پردازش کاهش می‌یابد. ایست واژه ها لغاتی هستند که علی رغم تکرار فروان در متن، از لحاظ معنایی دارای اهمیت کمی هستند. مانند: «اگر»، «و»، «ولی»، «که» یا نمونه کلمات انگلیسی که در شکل زیر مشاهده میکنید.

ایست واژه‌ها یا Stop Word
کلمات ایستا

حذف ایست واژه‌ها:

در حوزه متن کاوی یکی از مراحل پیش پردازش داده های متنی برای تحلیل های مراحل بعد یکسان سازی و نرمال سازی متون است. قبل از تحلیل هر گونه داده ای میبایست نویز ها و داده های بی ارزش از سایر داده ها جدا سازی شود. این کار باعث دقت تحلیل ها و کاهش حجم پردازش ها خواهد شد. یکی از مهم ترین کار هایی که در مرحله پیش پردازش داده های متنی میبایست انجام شود، حذف  Stop Word می باشد. حذف ایست واژه ها میبایست بعد از مراحل تشخیص زبان، استاندارد سازی، نرمال سازی و واحد ساز در متن انجام شود. و بعد از حذف ایست واژه‌ها یا Stop Word مراحل بعدی پردازش متن مانند حذف پانچنشن ها، ریشه یابی، تشخیص کلمات کلیدی، تشخیص موجودیت اسمی، تشخیص عبارات متنی، برچسبگذاری انجام می شود.

 

ایست واژه‌ها یا Stop Word
مراحل پیش پردازش و استاندارد سازی متن به مرحله حدف کلمات ایستا در گام ما قبل آخر دقت کنید.

 

در نگاه اولیه کلمات ربط و تعریف، ایست واژه به نظر می آیند؛ ولی در عین حال بسیاری از کلمات مانند افعال، افعال کمکی، اسم ها، قیدها و صفات نیز ایست واژه شناخته شده اند. در اغلب کاربردهای متن، حذف این کلمات، نتایج پردازش را به شدت بهبود می دهد و سبب کاهش بار محاسبات و افزایش سرعت خواهد شد. به همین دلیل این کلمات غالبا در فاز پیش پردازش، حذف می شوند. برای زبان فارسی چندین لیست از این کلمات منتشر شده است که بطور میانگین شامل 600 کلمه می باشند. در زیر مجموعه ای از ایست واژه‌ها  زبان فارسی و انگلیسی برای استفاده آماده شده است.

ایست واژه‌ها یا Stop Word در زبان انگلیسی

ایست واژه‌ها یا Stop Word در زبان فارسی با تعداد کلمات زیاد

ایست واژه‌ها یا Stop Word در زبان فارسی با تعداد کلمات کم

آدرس کانال تلگرام سایت بیگ دیتا:

t.me/bigdata_channel

آدرس کانال سروش ما:
https://sapp.ir/bigdata_channel

جهت دیدن سرفصل های دوره های آموزشی بر روی اینجا کلیک کنید.

 

بازدیدها: 7367

همچنین ببینید

استاپ ورد های فارسی مرتب شده

استاپ ورد های فارسی مرتب شده با طول کلمات

یکی از مهمترین و کلیدی ترین مسائل در حذف کلمات ایستا (stop word) که معمولا …

دانلود رایگان فایل دیکشنری

فایل دیکشنری فارسی با فرمت csv (قابل بارگذاری بر روی تمامی دیتابیس ها)

فایل دیکشنری با فرمت csv: معمولا خیلی ار محققان برای برخی از مباحث تحلیل به …

یک دیدگاه

  1. مصطفی سلامیان

    با سلام
    با توجه به الگوریتم جدید گوگل به نام برت، استفاده از این کلمات در کلمه کلیدی به فهم بهتر آن کمک میکنند
    سپاس

دیدگاهتان را بنویسید