نسل زد (Gen Z) که به طور کلی به افرادی که بین سالهای ۱۹۹۷ تا ۲۰۱۲ میلادی به دنیا آمده اند اطلاق میشود، به عنوان “تکزادگان” یا “بومیان دیجیتال” شناخته میشوند. این نامگذاری به دلیل رشد و پرورش این نسل در دنیای دیجیتال و …
ادامه مطلبمتن کاوی و تحلیل متن
تحلیل احساس و نظرکاوی متون فارسی با یادگیری ماشین و شبکه های عصبی کانولوشنال
داده های متنی یکی از پرمصرف ترینها است که میتواند برای بدست آوردن اطلاعات مهم در موضوعات مختلف مورد استفاده قرار گیرد. رسانه های اجتماعی در اشکال گوناگون خود همانند انجمنها، وبلاگها، میکروبلاگها، سایتهای نظردهی و غیره روزانه منجر به تولید حجم وسیعی از …
ادامه مطلبدیتاست برای تحلیل احساس و تحلیل نیت فارسی (Persian Sentiment Analysis)
وقتی می خواهیم در مورد مسئله ای تصمیم بگیریم، نظر دیگران را درباره ی مسئله ی مورد نظر می پرسیم. در دنیای واقعی، کسب و کارها و سازمان ها به دنبال دانستن نظر مشتریان و عموم مردم در مورد محصولات و سرویس های خود …
ادامه مطلباستخراج کلمات کلیدی از متن فارسی با روش های آماری TF-IDF
بعد از مراحل نرمال سازی، حذف کلمات ایستا، تکه کردن کلمات درون متن و ریشه یابی کردن واژه ها، یکی از مهمترین مراحل در پردازش متن استخراج کلمات کلیدی میباشد. در ابتدا به تعاریفی از کلمات کلیدی یا Key word ها پرداخته میشود. کلمات کلیدی …
ادامه مطلبدیتاست شناسایی موجودیت های نامدار برای تشخیص مشاغل در متن
در این پست قصد دارم اطلاعات مختصری در ارتباط با شناخت موجودیت های نامدار برای تشخیص مشاغل در متن ارائه خواهد شد. مقدمه اي بر شناسایی موجودیت های نامدار موجوديت نامدار به کلمه و يا عبارتي گفته ميشود که براي ارجاع به نمونه هاي …
ادامه مطلببیش ازصد موجودت اسمی برای تشخیص رویداد (Event Detection)
تشخیص رویداد: رصد شبکه های اجتماعی، رویدادهای دنیای واقعی را نشان میدهد و اطلاعات ارزشمندی را استخراج میکند و به افراد و سازمانها اجازه میدهد تا ترند و مسیر رخدادها را به صورت واقعی و زنده درک کنند. زبان شناسان معتقدند “چیزی که به …
ادامه مطلبمراحل متن کاوی و پردازش متن به زبان خلاصه
مقدمه ای بر مراحل متن کاوی امروزه بخش وسیعی از دانش بهصورت متن، مستندات و دیگر صورتهای رسانهای نگهداری میشوند که همه آنها بهصورت غیر ساختاریافته هستند. یکی از کاربردهای دادهکاوی، متنکاوی است. ﺑـﺮاي درﻳﺎﻓﺖ داﻧﺶ از اﻃﻼﻋﺎت ﻳﻚ ﻣﺘﻦ، ﻻزم اﺳﺖ اﺑﺘﺪا آن …
ادامه مطلبدیتاست اسامی اشخاص حقیقی جهت استفاده در پردازش متن
بانک اسامی اشخاص حقیقی جهت استفاده در تشخیص موجودیت های اسمی: یکی از انواع موجودیت های اسمی، اسامی اشخاص حقیقی است. برای استفاده شما مجموعه داده ای شامل بیش از 15000 نفر از اسامی اشخاص حقیقی جهت استفاده NER ارائه شده است که در …
ادامه مطلبمجموعه داده وسایل و تجهیزات (appliances) جهت متن کاوی
برای تشخیص اینکه یک کلمه اسم است، راه های مختلفی وجود دارد که از جمله ی آنها مراجعه به لغت نامه، استفاده از وردنت، در نظر گرفتن ریشه ی کلمه، استفاده از قواعد نحوی ساخت واژه و غیره می باشد. یکی از روش ها …
ادامه مطلبدیتاست ارقام دست نویس انگلیسی به منظور Machine Learning
MNIST DataSet: این دیتاست شامل 60k تصویر 28×28 اعداد نویس برای آموزش سیستم و 10k تصویر برای تست است. بهترین نتیجه کسب شده برای این داده 99.79% می باشد. دانلود دیتاست ارقام دستنویس انگلیسی هدف این دیتاست در ابتدا دسته بندی انواع مختلف اعداد …
ادامه مطلبدیتاست ارقام دستنویس فارسی برای یادگیری ماشین
بازشناسی ارقام وحروف دستنویس فارسی. موضوعی است که سالهاست روی آن کار میشود چه در حوزه تحقیقات دانشگاهی وچه در حوزه های تجاری وکاربردی.مقالات وپایان نامه های در این زمینه ارئه شده است والبته کارهای صنعتی زیادی هم صورت گرفته است از مهمترین کاربردهای …
ادامه مطلبآشنایی با پردازش زبان طبیعی استنفورد (Stanford CoreNLP)
Stanford CoreNLP مجموعه ای از ابزارهای آنالیز زبان طبیعی را فراهم می آورد. این نرم افزار می تواند یک متن خام به زبان انگلیسی را به عنوان ورودی گرفته و شکل اولیه کلمات، بخش های گفتاری کلمات، تشخیص اسم خاص بودن کلمات، نرمال کردن …
ادامه مطلبمراحل پیشپردازش متن خبر فارسی
پیشپردازش متن فارسی برای پردازش زبان طبیعی و انجام عمليات خودکار بر روي متن مانند ترجمه، خلاصهسازي، تصحيح املا، استخراج کلمات کلیدی، خوشه بندی، طبقه بندی و غيره، نيازمند ابزارهايي جهت پيشپردازش و آمادهسازي متون هستيم. پیش پردازش[1] داده ها، مهمترین مرحله در فرایند …
ادامه مطلبجستجو در اینترنت با استفاده از زبان طبیعی فارسی
جستجو در اینترنت با استفاده از زبان طبیعی فارسی دکتر محسن کاهانی گروه مهندسی کامپیوتر دانشگاه فردوسی مشهد kahani@um.ac.ir http www.um.ac.ir ~kahani عناوین اصلی استخراج شده از این فایل پاورپوینت عناوین اصلی استخراج شده از این فایل پاورپوینت ● جستجو در اینترنت با استفاده …
ادامه مطلبمجموعه داده برای تشخیص و ردیابی موضوع (TDT)
مجموعه داده برای تشخیص و ردیابی موضوع (TDT) برای انجام فرآیند متن کاوی به منظور تشخیص و ردیابی موضوع(Topic detection & Tracking) در محیط آزمایشگاه، چند نمونه از مجموعه داده[1]ها که برای این منظور در زبان انگلیسی و فارسی ایجاد شدهاند به شرح زیر …
ادامه مطلبقطعه بندی متون فارسی (tokenize) با استفاده از جی هضم (Jhazm)
قطعه بندی متن (Tokenizer) در بخش های قبلی به روش های تشخیص زبان در متون اشاره کردیم و همچنین به نقش واحد ساز (Tokenizer) در پردازش متن پرداختیم. در این مبحث با استفاده از جی هضم (Jhazm) به قطعه بندی متون میپردازیم. Tokenizer ابزاری …
ادامه مطلبپردازش متن با Jhazm نسخه جاوا کتابخانه هضم برای پردازش زبان فارسی
jHazm نسخه جاوایی هضم از کتابخانه پایتون برای پردازش زبان فارسی است. کتابخانه HAZM برای انجام پردازش های لازم بر روی زبان فارسی توسط دانشجویان دانشگاه علم و صنعت در سال 1392 به صورت متن باز و با استفاده از کتابخانه NLTK منتشر شد. لایسنس …
ادامه مطلباستخراج عبارات کلیدی (KeyPhrase) از متن با روش Ngram
منظور از عبارات کلیدی اسامی ترکیبی هستند که بیانگر معنای واحدی هستند. مثل عبارت “مجلس شورای اسلامی” یا “فرودگاه مهرآباد”. همان طور که میدانید فرایند استخراج عبارات کلیدی با کلمات کلیدی متفاوت است. فرایند استخراج عبارات کلیدی منجر به کشف مجموعهای از عبارات (KeyPhrase) …
ادامه مطلبیکسان سازی یا نرمال سازی متون فارسی با استفاده از کتابخانه JHazm
در متن کاوی منظور از پردازش زبان طبیعی (NLP)، قابلدسترس کردن زبان طبیعی برای ماشین است. پردازش زبان طبیعی، اسناد متنی بدون ساختار را دریافت و درنهایت به شکلی ساختاریافته تبدیل میکنند. در این حالت امکان استخراج اطلاعات از این اسناد وجود دارد. پردازشهای …
ادامه مطلبتجزیه گر یا پارسر متون و تشخیص زبان با آپاچی تیکا (Apache Tika)
آپاچی تیکا: آپاچی تیکا يکي از پروژههاي متن باز Apache است که کلاسي براي شناسايي زبان متون دارد. Tika براي استخراج متن اصلی از فایل های متنی و تجزیه کردن قسمت های مختلف فایل با توجه به متا دیتای آن کاربرد دارد. تیکا برای …
ادامه مطلب