استاپ ورد های فارسی مرتب شده با طول کلمات

یکی از مهمترین و کلیدی ترین مسائل در حذف کلمات ایستا (stop word) که معمولا اکثر متخصصین متن کاوی از آن بیخبر هستند این است که برای حذف ایست واژه ها (StopWord) در متن اصلی میبایست  ایست واژه ها را  به صورت یک لیست که بر اساس طول یا سایز واژه ها مرتب شده است در اختیار برنامه حذف واژه ها قرار داد. و البته این مرتب سازی باید معکوس باشد یعنی کلمات بزرگ تر در اول لیست باشند به عبارتی کلمات بزرگتر، اول از متن اصلی حذف شوند.

فکر می کنید علت این کار چیست؟ در پایین پست در قسمت دیدگاه نظر خود را بنویسید و هوشمندی خودرا به نمایش بگذارید.

علت اصلی این کار برای سرعت بخشیدن به پردازش نیست بلکه  نکته مهم این است که با حذف کلمات کوچکتر ممکن است خیلی از کلمات ایستای بزرگ تر دچار  تغییر شوند و دیگر قابل حذف نباشند.

دانلود استاپ ورد های مرتب شده بر اساس سایز کلمه

دانلود فایل فشرده stop word های مرتب شده بر اساس سایز کلمه

استاپ ورد های فارسی مرتب شده
استاپ ورد های فارسی مرتب شده

آدرس کانال تلگرام سایت بیگ دیتا:

t.me/bigdata_channel

آدرس کانال سروش ما:
https://sapp.ir/bigdata_channel

جهت دیدن سرفصل های دوره های آموزشی بر روی اینجا کلیک کنید.

جهت ثبت نام در دوره های آموزشی بر روی اینجا کلیک کنید.

بازدیدها: 3184

همچنین ببینید

ایست واژه‌ها یا Stop Word

دانلود ایست واژه‌ها یا Stop Word در زبان فارسی

ایست واژه‌ها یا Stop Word: کلماتی هستند که با وجود به تکرار بسیار زیاد آن …

2 دیدگاه

  1. سلام متاسفانه این پاسخ درست نیست پاسخ درست را به زودی انتشار میدهیم

  2. فکر کنم برای سرعت بخشیدن به عمله. خیلی از کلمات کوتاه در غالب کلمات بزرگ هستند

دیدگاهتان را بنویسید