دیتاست برای تحلیل احساس و تحلیل نیت فارسی (Persian Sentiment Analysis)
وقتی می خواهیم در مورد مسئله ای تصمیم بگیریم، نظر دیگران را درباره ی مسئله ی مورد نظر می پرسیم. در دنیای واقعی، کسب و کارها و سازمان ها به دنبال دانستن نظر مشتریان و عموم مردم در مورد محصولات و سرویس های خود هستند. خریداران قبل از خرید خود از نظر دیگر افرادی که آن محصول را خریده اند مطلع می شوند. همچنین در زمان انتخابات، افراد تمایل دارند که نظر دیگران را درباره ی کاندیدها بدانند. در گذشته وقتی کسی می خواست از نظر دیگران مطلع شود، به دوستان و خانواده ی خود مراجعه می کرد و یا اینکه اگر شرکت ها می خواستند از نظر مردم یا مشتریان مطلع شوند، یک نظرسنجی برگزار می کردند که فقط روی گروه محدودی تمرکز داشت.
ویژگی های دیتاست تحلیل احساس
من این داده ها را از دیجی کالا اسکرپ کرده ام و بر اساس ستاره هایی که مشتریان محصولات را خریده اند، برچسب گذاری کرده ام. همچنین از برچسب دیگری از همان وب سایت (دیجی کالا) استفاده کرده ام که نشان می دهد مردم این محصول را برای خرید به دیگران پیشنهاد میدهند یا نه. در این پست میخواهیم مجموعه دادهای را معرفی کنیم که توسط اکانت @minasmz در گیت هاب خزیدش شده است. این مجموعه داده خیلی ایده آال نیست ولی میشود با آن Train و Test را ایجاد کرد.
در دیتاست زیر ستون اول متن نظر کاربران درباره محصولات خریداری شده است. از آنجا که بسیاری از نظرات مشتریان نویز هستند و داده های تمیزی را برای ما ارائه نمی دهند، منبع قابل اعتمادی نیست. به همین دلیل در ستون سوم با افزودن برچسب دومی به داده ها، می توانیم از دقت بالاتر داده های آموزشی خود اطمینان حاصل کنیم.
برای توضیح بیشتر برچسب ها: عدد 1 نشان دهنده پیشنهاد خرید به دیگران و عدد 2 به معنای غیر این است، عدد 3 نشان دهنده یک نظر خنثی در مورد محصول است و عدد 4 به این معنی است که شخص به محصول امتیاز داده است، اما پیشنهاد خرید یا عدم خرید را ندارد. در ستون وسط یا دوم عدد دو یا سه رقمی نشان دهنده درصد رضایت مصرف کننده است. می توانید در فایل زیر (sentiment_tagged_dataset.csv) به این داده ها دسترسی پیدا کنید. این موارد در لینک زیر و همچنین در تصویر مشخص شده است.
😋دانلود تحلیل احساس فارسی (Persian Sentiment Analysis) نظرات کاربران دیجی کالا با فرمت CSV😋
😋دانلود دیتاست (Data Set) برای تحلیل احساس فارسی نظرات مشتریان هتل ها با فرمت XLSX😋
ديتاست فارسی شامل حدود 1700 نظرمی باشد. به عنوان ويژگی، داده هايی مربوط به نظرات مشتريان هتل قرارگرفته است. احساسات براساس شماره 1تا 5مشخص شده اند. شماره 1به معنای منفی بودن و شماره 5به معنای مثبت بودناست.ميتوان 2را به معناینسبتاً منفی، 3را خنثی و 4را نسبتاً مثبت در نظر گرفت.حجم فايل 245k ميباشد. که با توجه به ماهيت نظرات، شماره های 1و 2 را به عنوان نظرات منفی و شماره های 4و 5را به عنوانت نظرات مثبت و شماره 3 را به عنوان نظر خنثی در نظر گرفته ايم.
😋 دانلود رایگان مجموعه داده تحلیل نیت لغات فارسی و برچسب عددی برای هر کلمه فارسی با فرمت اکسل😋
سطوح مختلف نظرکاوی
سطح سند: وظیفه این سطح مشخص کردن مثبت یا منفی بود کل سند است و هر نظر به صورت کامل به عنوان یک سند در نظر گرفته می شود.
سطح جمله: در این سطح مثبت، منفی و یا خنثی بودن هر جمله بررسی میشود. خنثی بودن اغلب به معنای این است که جمله یک دیدگاه نیست.
سطح عبارت: این سطح به تحلیل جزئیتر میپردازد و به انتخاب دقیق کلمات بستگی دارد. در دو سطح قبلی علایق افراد به طور جزئی و دقیق مشخص نمیشود. مسئلهای که در این سطح مطرح میشوند نظرکاوی مبتنی بر ویژگی است. در این سطح نظرات مورد بررسی قرار میگیرند تا ویژگیهایی که افراد دیدگاه خود را در مورد آن بیان کردهاند، شناسایی شوند و در نهایت احساسات افراد نسبت به این ویژگیها مشخص گردد. ویژگی های مهم یک محصول یا خدمت در این جا شناسایی و رتبه بندی می شوند.
سطح کلمه:
🔅انواع روش های تحلیل احساس (sentiment analysis ) و تحلیل نیت (Opinion Mining)
با رشد فزاینده ی شبکه های اجتماعی در وب مانند فرومها، بلاگها، توئیتر، سایت های فروش و دیگر سایت ها، افراد و سازمان ها روز به روز بیش از گذشته به محتویات وب برای تصمیم گیری های خود وابسته می شوند. امروزه اگر کسی بخواهد از محصولی استفاده کند دیگر محدود به پرسیدن نظر دوستان و آشنایان خود نیست می تواند از نظرات افراد در سراسر دنیا استفاده کند. همچنین سازمان ها دیگر نیازی به برگزاری نظرسنجی ندارند، زیرا نظرات مردم به صورت عمومی در وب در دسترس است. چالشی که این جا وجود دارد مدیریت این حجم عظیم اطلاعات است. در نتیجه وجود روش های نظرکاوی ضرورت می یابد.
۱- روشهای یادگیری ماشین:
🔸یادگیری با نظارت
🔸یادگیری بدون نظارت
۲- روش های مبتنی بر قواعد (فرهنگ لغت):
🔸مبتنی بر فرهنگ لغت
🔸مبتنی بر پیکره واژگان شامل:
📌به روش آماری
📌به روش معنایی
نظرکاوی چگونه انجام می شود؟
برای نظرکاوی باید به شناسایی موارد زیر در یک نظر بپردازیم:
- کدام جمله یک دیدگاه است؟ جملات میتوانند بیانگر یک دیدگاه یا نشاندهندهی واقعیت باشند. هدف نظرکاوی یافتن جملههایی است که دیدگاه فرد را نشان میدهد.
- بررسی قطبیت: دیدگاه که میتواند مثبت، منفی یا خنثی باشد. در اینجا مثبت و منفی بودن دیدگاه تعیین می شود.
- بررسی اینکه قطبیت آن دیدگاه به کدام ویژگی محصول مربوط میشود. در این صورت میتوان مثبت یا منفی بودن دیدگاه افراد نسبت به آن ویژگی را مشخص کرد.
- بررسی مثبت یا منفی بودن کل دیدگاه: بعد از آنکه به بررسی قطبیت ویژگیهای جزئی محصول پرداختیم میتوان مشخص کرد احساس کلی فرد نسبت به آن محصول چگونه است.
- مشخص کردن هدف دیدگاه: ممکن است هدف یک دیدگاه کل محصول یا یکی از ویژگیهای آن باشد. حتی ممکن است هدف به محصول ارتباطی نداشته باشد.
منابع:
https://www.kaggle.com/datasets/soheiltehranipour/digikala-comments-persian-sentiment-analysis
https://www.kaggle.com/datasets/soheiltehranipour/snappfood-persian-sentiment-analysis
آدرس کانال تلگرام سایت بیگ دیتا:
آدرس کانال سروش ما:
https://sapp.ir/bigdata_channel
جهت دیدن سرفصل های دوره های آموزشی بر روی اینجا کلیک کنید.
جهت ثبت نام در دوره های آموزشی بر روی اینجا کلیک کنید.
بازدیدها: 1285
برچسبdata set dataset Opinion Mining Persian Sentiment Analysis sentiment analysis تحلیل نیت دانلود مجموعه داده دیجی کالا دیتاست تحلیل احساس دیجی کالا مجموعه داده
همچنین ببینید
دانلود بانک تصاویر گوگل مپ برای زوم های مختلف
خدمات گوگل مپ، تحول بزرگی را در سیستم مسیریابی دنیا به ایجاد کرده است و …