خانه --> دیتاست (data set) --> استاپ ورد های فارسی مرتب شده با طول کلمات

استاپ ورد های فارسی مرتب شده با طول کلمات

یکی از مهمترین و کلیدی ترین مسائل در حذف کلمات ایستا (stop word) که معمولا اکثر متخصصین متن کاوی از آن بیخبر هستند این است که برای حذف ایست واژه ها (StopWord) در متن اصلی میبایست  ایست واژه ها را  به صورت یک لیست که بر اساس طول یا سایز واژه ها مرتب شده است در اختیار برنامه حذف واژه ها قرار داد. و البته این مرتب سازی باید معکوس باشد یعنی کلمات بزرگ تر در اول لیست باشند به عبارتی کلمات بزرگتر، اول از متن اصلی حذف شوند.

فکر می کنید علت این کار چیست؟ در پایین پست در قسمت دیدگاه نظر خود را بنویسید و هوشمندی خودرا به نمایش بگذارید.

علت اصلی این کار برای سرعت بخشیدن به پردازش نیست بلکه  نکته مهم این است که با حذف کلمات کوچکتر ممکن است خیلی از کلمات ایستای بزرگ تر دچار  تغییر شوند و دیگر قابل حذف نباشند.

دانلود استاپ ورد های مرتب شده بر اساس سایز کلمه

استاپ ورد های فارسی مرتب شده
استاپ ورد های فارسی مرتب شده

آدرس کانال تلگرام سایت بیگ دیتا:

t.me/bigdata_channel

آدرس کانال سروش ما:
https://sapp.ir/bigdata_channel

جهت دیدن سرفصل های دوره های آموزشی بر روی اینجا کلیک کنید.

جهت ثبت نام در دوره های آموزشی بر روی اینجا کلیک کنید.

۲ دیدگاه

  1. سلام متاسفانه این پاسخ درست نیست پاسخ درست را به زودی انتشار میدهیم

  2. فکر کنم برای سرعت بخشیدن به عمله. خیلی از کلمات کوتاه در غالب کلمات بزرگ هستند

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *