متن کاوی و تحلیل متن

مراحل متن کاوی و پردازش متن به زبان خلاصه

مراحل متن کاوی

مقدمه ای بر مراحل متن کاوی امروزه بخش وسیعی از دانش به‌صورت متن، مستندات و دیگر صورت‌های رسانه‌ای نگهداری می‌شوند که همه آن‌ها به‌صورت غیر ساختاریافته هستند. یکی از کاربردهای داده‌کاوی، متن‌کاوی است. ﺑـﺮاي درﻳﺎﻓﺖ داﻧﺶ از اﻃﻼﻋﺎت ﻳﻚ ﻣﺘﻦ، ﻻزم اﺳﺖ اﺑﺘﺪا آن را درك ﻛـﺮد، ﺳـﭙﺲ ﭘـﺮدازش ﻛﺮد ﺗﺎ ﻓﻬﻤﻴﺪ ﭼﻪ ﻣﻌﺎﻧﻲ و …

ادامه مطلب

دیتاست اسامی اشخاص حقیقی جهت استفاده در پردازش متن

اسامی اشخاص حقیقی

بانک اسامی اشخاص حقیقی جهت استفاده در تشخیص موجودیت های اسمی: یکی از انواع موجودیت های اسمی، اسامی اشخاص حقیقی است. برای استفاده شما مجموعه داده ای شامل بیش از 15000 نفر از اسامی اشخاص حقیقی جهت استفاده NER ارائه شده است که در ادامه می توانید آن را دانلود کنید. تشخیص موجودیت‌های اسمی که …

ادامه مطلب

مجموعه داده وسایل و تجهیزات (appliances) جهت متن کاوی

مجموعه داده وسایل

برای تشخیص اینکه یک کلمه اسم است، راه ­های مختلفی وجود دارد که از جمله­ ی آنها مراجعه به لغت نامه، استفاده از وردنت، در نظر گرفتن ریشه ­ی کلمه، استفاده از قواعد نحوی ساخت واژه و غیره می­ باشد. یکی از روش ها مرسوم تشخیص اسم ­ها با استفاده یک لغتنامه از اسامی افراد، …

ادامه مطلب

دیتاست ارقام دست نویس انگلیسی به منظور Machine Learning

ارقام دستنویس انگلیسی

 MNIST DataSet: این دیتاست شامل 60k تصویر 28×28 اعداد نویس برای آموزش سیستم و 10k تصویر برای تست است. بهترین نتیجه کسب شده برای این داده 99.79% می باشد. دانلود دیتاست ارقام دستنویس انگلیسی هدف این دیتاست در ابتدا دسته بندی انواع مختلف اعداد دست نویس انگلیسی بر اساس شکل ظاهری و سپس طبقه‌بندی ارقام …

ادامه مطلب

دیتاست ارقام دستنویس فارسی برای یادگیری ماشین

ارقام دستنویس فارسی

بازشناسی ارقام وحروف دستنویس فارسی. موضوعی است که سالهاست روی آن کار میشود چه در حوزه تحقیقات دانشگاهی وچه در حوزه های تجاری وکاربردی.مقالات وپایان نامه های در این زمینه ارئه شده است والبته کارهای صنعتی زیادی هم صورت گرفته است از مهمترین کاربردهای شناسایی ارقام وحروف دستنویس : · وارد کردن اطلاعات اسناد اداری …

ادامه مطلب

آشنایی با پردازش زبان طبیعی استنفورد (Stanford CoreNLP)

پردازش زبان طبیعی استنفورد

Stanford CoreNLP مجموعه ای از ابزارهای آنالیز زبان طبیعی را فراهم می آورد. این نرم افزار می تواند یک متن خام به زبان انگلیسی را به عنوان ورودی گرفته و شکل اولیه کلمات، بخش های گفتاری کلمات، تشخیص اسم خاص بودن کلمات، نرمال کردن تاریخ، زمان و مقادیر عددی، مشخص کردن ساختار جملات بر حسب …

ادامه مطلب

مراحل پیش‌پردازش متن خبر فارسی

مراحل پیش‌پردازش

پیش‌پردازش متن فارسی برای پردازش زبان طبیعی و انجام عمليات خودکار بر روي متن مانند ترجمه، خلاصه‌سازي، تصحيح املا، استخراج کلمات کلیدی، خوشه بندی، طبقه بندی و غيره، نيازمند ابزارهايي جهت پيش‌پردازش و آماده‌سازي متون هستيم. پیش پردازش[1] داده ها، مهم‌ترین مرحله در فرایند کشف دانش از داده های متنی میباشد. پردازش متن به صورت …

ادامه مطلب

جستجو در اینترنت با استفاده از زبان طبیعی فارسی

جستجو در اینترنت با استفاده از زبان طبیعی فارسی دکتر محسن کاهانی گروه مهندسی کامپیوتر دانشگاه فردوسی مشهد kahani@um.ac.ir http www.um.ac.ir ~kahani عناوین اصلی استخراج شده از این فایل پاورپوینت عناوین اصلی استخراج شده از این فایل پاورپوینت ● جستجو در اینترنت با استفاده از زبان طبیعی فارسی ● فهرست مطالب ● مقدمه ● راه …

ادامه مطلب

مجموعه داده­ برای تشخیص و ردیابی موضوع (TDT)

تشخیص و ردیابی موضوع

مجموعه داده­ برای تشخیص و ردیابی موضوع (TDT) برای انجام فرآیند متن کاوی به منظور تشخیص و ردیابی موضوع(Topic detection & Tracking) در محیط آزمایشگاه، چند نمونه از مجموعه داده­[1]­ها که برای این منظور در زبان انگلیسی و فارسی ایجاد شده­اند به شرح زیر می‌باشند: جریان موضوعات جریان موضوعات به مجموعه‌ای از خوشه‌های مرتبط به …

ادامه مطلب

قطعه بندی متون فارسی (tokenize) با استفاده از جی هضم (Jhazm)

قطعه بندی متون

قطعه بندی متن (Tokenizer) در بخش های قبلی به روش های تشخیص زبان در متون اشاره کردیم و همچنین  به نقش واحد ساز (Tokenizer) در پردازش متن پرداختیم. در این مبحث با استفاده از جی هضم (Jhazm) به قطعه بندی متون میپردازیم. Tokenizer ابزاری برای شکستن یک متن بر اساس واحدهای با معنی مانند کلمه، …

ادامه مطلب

استخراج کلمات کلیدی از متن فارسی با روش های آماری

مراحل متن کاوی

بعد از مراحل نرمال سازی، حذف کلمات ایستا، تکه کردن کلمات درون متن و ریشه یابی کردن واژه ها، یکی از مهمترین مراحل در پردازش متن استخراج کلمات کلیدی میباشد. در ابتدا به تعاریفی از کلمات کلیدی یا Key word ها پرداخته میشود. کلمات کلیدی مجموعه‌ای از لغات مهم در یک سند هستند که توصیفی از …

ادامه مطلب

پردازش متن با Jhazm نسخه جاوا کتابخانه هضم برای پردازش زبان فارسی

پردازش متن با Jhazm

jHazm نسخه جاوایی هضم از کتابخانه پایتون برای پردازش زبان فارسی است. کتابخانه HAZM برای انجام پردازش­ های لازم بر روی زبان فارسی توسط دانشجویان دانشگاه علم و صنعت در سال 1392 به صورت متن­ باز و با استفاده از کتابخانه NLTK منتشر شد. لایسنس این ابزار MIT میباشد. هضم، ابتدا برای زبان پایتون و بر …

ادامه مطلب

استخراج عبارات کلیدی (KeyPhrase) از متن با روش Ngram

استخراج عبارات کلیدی

منظور از عبارات کلیدی اسامی ترکیبی هستند که بیانگر معنای واحدی هستند. مثل عبارت “مجلس شورای اسلامی” یا “فرودگاه مهرآباد”.  همان طور که میدانید فرایند استخراج عبارات کلیدی با کلمات کلیدی متفاوت است. فرایند استخراج عبارات کلیدی منجر به کشف مجموعه‌ای از عبارات (KeyPhrase) مهم در یک سند میشود که توصیفی از محتوای سند را …

ادامه مطلب

یکسان سازی یا نرمال سازی متن با استفاده از کتابخانه JHazm

نرمال سازی متن

در متن کاوی منظور از پردازش زبان طبیعی (NLP)، قابل‌دسترس کردن زبان طبیعی برای ماشین است. پردازش زبان طبیعی، اسناد متنی بدون ساختار را دریافت و درنهایت به شکلی ساختاریافته تبدیل می‌کنند. در این حالت امکان استخراج اطلاعات از این اسناد وجود دارد. پردازش‌های متنی شامل تحلیل‌های صرفی و نحوی و معنایی متن ورودی است. …

ادامه مطلب

تجزیه گر یا پارسر متون و تشخیص زبان با آپاچی تیکا (Apache Tika)

آپاچی تیکا

آپاچی تیکا: آپاچی تیکا يکي از پروژه‌هاي متن باز Apache است که کلاسي براي شناسايي زبان متون دارد. Tika براي استخراج متن اصلی از فایل های متنی و تجزیه کردن قسمت های مختلف فایل با توجه به متا دیتای آن کاربرد دارد. تیکا برای تعيين زبان (که در مبحث تشخیص نوع زبان به آن پرداخته …

ادامه مطلب