دیتاست برای تحلیل احساس و تحلیل نیت فارسی (Persian Sentiment Analysis)

وقتی می خواهیم در مورد مسئله ای تصمیم بگیریم، نظر دیگران را درباره ی مسئله ی مورد نظر می پرسیم. در دنیای واقعی، کسب و کارها و سازمان ها به دنبال دانستن نظر مشتریان و عموم مردم در مورد محصولات و سرویس های خود هستند. خریداران قبل از خرید خود از نظر دیگر افرادی که آن محصول را خریده اند مطلع می شوند. همچنین در زمان انتخابات، افراد تمایل دارند که نظر دیگران را درباره ی کاندیدها بدانند. در گذشته وقتی کسی می خواست از نظر دیگران مطلع شود، به دوستان و خانواده ی خود مراجعه می کرد و یا اینکه اگر شرکت ها می خواستند از نظر مردم یا مشتریان مطلع شوند، یک نظرسنجی برگزار می کردند که فقط روی گروه محدودی تمرکز داشت.

ویژگی های دیتاست تحلیل احساس

من این داده ها را از دیجی کالا اسکرپ کرده ام و بر اساس ستاره هایی که مشتریان محصولات را خریده اند، برچسب گذاری کرده ام. همچنین از برچسب دیگری از همان وب سایت (دیجی کالا) استفاده کرده ام که نشان می دهد مردم این محصول را برای خرید به دیگران پیشنهاد میدهند یا نه. در این پست می‌خواهیم مجموعه داده‌ای را معرفی کنیم که توسط اکانت @minasmz در گیت هاب خزیدش شده است. این مجموعه داده خیلی ایده آال نیست ولی میشود با آن Train و Test را ایجاد کرد.

در دیتاست زیر ستون اول متن نظر کاربران درباره محصولات خریداری شده است. از آنجا که بسیاری از نظرات مشتریان نویز هستند و داده های تمیزی را برای ما ارائه نمی دهند، منبع قابل اعتمادی نیست. به همین دلیل در ستون سوم با افزودن برچسب دومی به داده ها، می توانیم از دقت بالاتر داده های آموزشی خود اطمینان حاصل کنیم.

برای توضیح بیشتر برچسب ها: عدد 1 نشان دهنده پیشنهاد خرید به دیگران و عدد 2 به معنای غیر این است، عدد 3 نشان دهنده یک نظر خنثی در مورد محصول است و عدد 4 به این معنی است که شخص به محصول امتیاز داده است، اما پیشنهاد خرید یا عدم خرید را ندارد. در ستون وسط یا دوم عدد دو یا سه رقمی نشان دهنده درصد رضایت مصرف کننده  است. می توانید در فایل زیر (sentiment_tagged_dataset.csv) به این داده ها دسترسی پیدا کنید. این موارد در لینک زیر و همچنین در تصویر مشخص شده است.

😋دانلود تحلیل احساس فارسی (Persian Sentiment Analysis) نظرات کاربران دیجی کالا با فرمت CSV😋

دیتاست تحلیل احساس
دیتاست تحلیل احساس

😋دانلود دیتاست (Data Set) برای تحلیل احساس فارسی نظرات مشتریان هتل ها با فرمت XLSX😋

ديتاست فارسی شامل حدود 1700 نظرمی باشد. به عنوان ويژگی، داده هايی مربوط به نظرات مشتريان هتل قرارگرفته است. احساسات براساس شماره 1تا 5مشخص شده اند. شماره 1به معنای منفی بودن و شماره 5به معنای مثبت بودناست.ميتوان 2را به معناینسبتاً منفی، 3را خنثی و 4را نسبتاً مثبت در نظر گرفت.حجم فايل 245k ميباشد. که با توجه به ماهيت نظرات، شماره های 1و 2 را به عنوان نظرات منفی و شماره های 4و 5را به عنوانت نظرات مثبت و شماره 3 را به عنوان نظر خنثی در نظر گرفته ايم.

😋 دانلود رایگان مجموعه داده تحلیل نیت لغات فارسی و برچسب عددی برای هر کلمه فارسی با فرمت اکسل😋

سطوح مختلف نظرکاوی

سطح سند: وظیفه این سطح مشخص کردن مثبت یا منفی بود کل سند است و هر نظر به صورت کامل به عنوان یک سند در نظر گرفته می شود.

سطح جمله: در این سطح مثبت، منفی و یا خنثی بودن هر جمله بررسی می‌شود. خنثی بودن اغلب به معنای این است که جمله یک دیدگاه نیست.

سطح عبارت: این سطح به تحلیل جزئی‌تر می‌پردازد و به انتخاب دقیق کلمات بستگی دارد. در دو سطح قبلی علایق افراد به طور جزئی و دقیق مشخص نمی‌شود. مسئله‌ای که در این سطح مطرح می‌شوند نظرکاوی مبتنی بر ویژگی است. در این سطح نظرات مورد بررسی قرار می‌گیرند تا ویژگی‌هایی که افراد دیدگاه خود را در مورد آن بیان کرده‌اند، شناسایی شوند و در نهایت احساسات افراد نسبت به این ویژگی‌ها مشخص گردد. ویژگی های مهم یک محصول یا خدمت در این جا شناسایی و رتبه بندی می شوند.

سطح کلمه:

🔅انواع روش های تحلیل احساس (sentiment analysis ) و تحلیل نیت (Opinion Mining)

با رشد فزاینده ی شبکه های اجتماعی در وب مانند فرومها، بلاگها، توئیتر، سایت های فروش و دیگر سایت ها، افراد و سازمان ها روز به روز بیش از گذشته به محتویات وب برای تصمیم گیری های خود وابسته می شوند. امروزه اگر کسی بخواهد از محصولی استفاده کند دیگر محدود به پرسیدن نظر دوستان و آشنایان خود نیست می تواند از نظرات افراد در سراسر دنیا استفاده کند. همچنین سازمان ها دیگر نیازی به برگزاری نظرسنجی ندارند، زیرا نظرات مردم به صورت عمومی در وب در دسترس است. چالشی که این جا وجود دارد مدیریت این حجم عظیم اطلاعات است. در نتیجه وجود روش های نظرکاوی ضرورت می یابد.

۱- روشهای یادگیری ماشین:
🔸یادگیری با نظارت
🔸یادگیری بدون نظارت

۲- روش های مبتنی بر قواعد (فرهنگ لغت):
🔸مبتنی بر فرهنگ لغت
🔸مبتنی بر پیکره واژگان شامل:
📌به روش آماری
📌به روش معنایی

دیتاست تحلیل احساس
انواع روش های تحلیل احساس

نظرکاوی چگونه انجام می شود؟

برای نظرکاوی باید به شناسایی موارد زیر در یک نظر بپردازیم:

  • کدام جمله یک دیدگاه است؟ جملات می‌توانند بیان‌گر یک دیدگاه یا نشان‌دهنده‌ی واقعیت باشند. هدف نظرکاوی یافتن جمله‌هایی است که دیدگاه فرد را نشان می‌دهد.
  • بررسی قطبیت: دیدگاه که می‌تواند مثبت، منفی یا خنثی باشد. در اینجا مثبت و منفی بودن دیدگاه تعیین می شود.
  • بررسی اینکه قطبیت آن دیدگاه به کدام ویژگی محصول مربوط می‌شود. در این صورت می‌توان مثبت یا منفی بودن دیدگاه افراد نسبت به آن ویژگی را مشخص کرد.
  • بررسی مثبت یا منفی بودن کل دیدگاه: بعد از آنکه به بررسی قطبیت ویژگی‌های جزئی محصول پرداختیم می‌توان مشخص کرد احساس کلی فرد نسبت به آن محصول چگونه است.
  • مشخص کردن هدف دیدگاه: ممکن است هدف یک دیدگاه کل محصول یا یکی از ویژگی‌های آن باشد. حتی ممکن است هدف به محصول ارتباطی نداشته باشد.
تحلیل احساس
تحلیل احساس

منابع:

https://www.kaggle.com/datasets/soheiltehranipour/digikala-comments-persian-sentiment-analysis

https://www.kaggle.com/datasets/soheiltehranipour/snappfood-persian-sentiment-analysis

برای دیدن فلیم های سینماییِ مهیج و جذاب”در حوزه فناوری اطلاعات، اوسینت و هوش مصنوعی“، بر روی اینجا کلیک کنید.

آدرس کانال تلگرام سایت بیگ دیتا:

t.me/bigdata_channel

آدرس کانال سروش ما:
https://sapp.ir/bigdata_channel

جهت دیدن سرفصل های دوره های آموزشی بر روی اینجا کلیک کنید.

جهت ثبت نام در دوره های آموزشی بر روی اینجا کلیک کنید.

Views: 702

همچنین ببینید

رویکردهای تحلیل احساس

تحلیل احساس و نظرکاوی متون فارسی با یادگیری ماشین و شبکه های عصبی کانولوشنال

داده های متنی یکی از پرمصرف ترینها است که میتواند برای بدست آوردن اطلاعات مهم …

دیتاست گوگل

جستجوی دیتاست گوگل سرویس بسیار کاربردی از گوگل

دیتاست (Dataset) یا مجموعه داده چیست؟ دیتاست یا مجموعه داده یا DataSet به مجموعه‌ای از …