بایگانی برچسب: متن کاوی

مراحل متن کاوی و پردازش متن به زبان خلاصه

مراحل متن کاوی

مقدمه ای بر مراحل متن کاوی امروزه بخش وسیعی از دانش به‌صورت متن، مستندات و دیگر صورت‌های رسانه‌ای نگهداری می‌شوند که همه آن‌ها به‌صورت غیر ساختاریافته هستند. یکی از کاربردهای داده‌کاوی، متن‌کاوی است. ﺑـﺮاي درﻳﺎﻓﺖ داﻧﺶ از اﻃﻼﻋﺎت ﻳﻚ ﻣﺘﻦ، ﻻزم اﺳﺖ اﺑﺘﺪا آن …

ادامه مطلب

دیتاست اسامی اشخاص حقیقی جهت استفاده در پردازش متن

اسامی اشخاص حقیقی

بانک اسامی اشخاص حقیقی جهت استفاده در تشخیص موجودیت های اسمی: یکی از انواع موجودیت های اسمی، اسامی اشخاص حقیقی است. برای استفاده شما مجموعه داده ای شامل بیش از 15000 نفر از اسامی اشخاص حقیقی جهت استفاده NER ارائه شده است که در …

ادامه مطلب

دانلود مجموعه داده اخبار با طبقه بندی موضوعی (classification)

مجموعه داده اخبار

به منظور استفاده دانشجوبان عزیز در انجام پایان نامه حدود بیست هراز مجموعه داده اخبار با طبقه بندی موضوعی (classification) و خوشه بندی سلسله مراتبی در زیر برای دانلود ارائه شده است. دانلود مجموعه داده اخبار فارسی دسته بندی شده بررسی و مقایسه الگوریتمهای …

ادامه مطلب

مراحل پیش‌پردازش متن خبر فارسی

مراحل پیش‌پردازش

پیش‌پردازش متن فارسی برای پردازش زبان طبیعی و انجام عمليات خودکار بر روي متن مانند ترجمه، خلاصه‌سازي، تصحيح املا، استخراج کلمات کلیدی، خوشه بندی، طبقه بندی و غيره، نيازمند ابزارهايي جهت پيش‌پردازش و آماده‌سازي متون هستيم. پیش پردازش[1] داده ها، مهم‌ترین مرحله در فرایند …

ادامه مطلب

دیتاست اخبار حدود چهار هزار خبر فارسی به تفکیک تاریخ

دیتاست اخبار

مجموعه داده اخبار فارسی شامل بیش از سه هزار خبر از خبرگزاری های مختلف است. همه ما روزانه ده ها خبر مطالعه و جستجو می کنیم. دنبال کردن اخبار یکی از عادات روزانه ماست. در این دیتاست اخبار گوناگون جمع آوری شده است. این …

ادامه مطلب

مجموعه داده­ برای تشخیص و ردیابی موضوع (TDT)

تشخیص و ردیابی موضوع

مجموعه داده­ برای تشخیص و ردیابی موضوع (TDT) برای انجام فرآیند متن کاوی به منظور تشخیص و ردیابی موضوع(Topic detection & Tracking) در محیط آزمایشگاه، چند نمونه از مجموعه داده­[1]­ها که برای این منظور در زبان انگلیسی و فارسی ایجاد شده­اند به شرح زیر …

ادامه مطلب

قطعه بندی متون فارسی (tokenize) با استفاده از جی هضم (Jhazm)

قطعه بندی متون

قطعه بندی متن (Tokenizer) در بخش های قبلی به روش های تشخیص زبان در متون اشاره کردیم و همچنین  به نقش واحد ساز (Tokenizer) در پردازش متن پرداختیم. در این مبحث با استفاده از جی هضم (Jhazm) به قطعه بندی متون میپردازیم. Tokenizer ابزاری …

ادامه مطلب

پردازش متن با Jhazm نسخه جاوا کتابخانه هضم برای پردازش زبان فارسی

پردازش متن با Jhazm

jHazm نسخه جاوایی هضم از کتابخانه پایتون برای پردازش زبان فارسی است. کتابخانه HAZM برای انجام پردازش­ های لازم بر روی زبان فارسی توسط دانشجویان دانشگاه علم و صنعت در سال 1392 به صورت متن­ باز و با استفاده از کتابخانه NLTK منتشر شد. لایسنس …

ادامه مطلب

یکسان سازی یا نرمال سازی متون فارسی با استفاده از کتابخانه JHazm

نرمال سازی متن

در متن کاوی منظور از پردازش زبان طبیعی (NLP)، قابل‌دسترس کردن زبان طبیعی برای ماشین است. پردازش زبان طبیعی، اسناد متنی بدون ساختار را دریافت و درنهایت به شکلی ساختاریافته تبدیل می‌کنند. در این حالت امکان استخراج اطلاعات از این اسناد وجود دارد. پردازش‌های …

ادامه مطلب

تجزیه گر یا پارسر متون و تشخیص زبان با آپاچی تیکا (Apache Tika)

آپاچی تیکا

آپاچی تیکا: آپاچی تیکا يکي از پروژه‌هاي متن باز Apache است که کلاسي براي شناسايي زبان متون دارد. Tika براي استخراج متن اصلی از فایل های متنی و تجزیه کردن قسمت های مختلف فایل با توجه به متا دیتای آن کاربرد دارد. تیکا برای …

ادامه مطلب

تعریف پیکره واژگان یا WordNet و کاربرد آن

پیکره واژگان یا WordNet

پیکره واژگان یا WordNet یک مجموعه ی نسبتا بزرگ از لغات و ارتباط آن ها در ساختار متون است. وردنت در حقیقت رابطه معنایی بین دو کلمه را بیان میکند. به عنوان مثال کبوتر از نوع پرنده است و پرنده یک نوع حیوان است …

ادامه مطلب

خلاصه ­سازی متن یا summarization در حوزه متن کاوی

خلاصه ­سازی متن یا summarization

خلاصه ­سازی متن یا summarization، فشرده ­سازی متن به حالت کوتاه­تر از متن اصلی است، به طوری که محتوای اطلاعاتی متن و به طور کلی مفاهیم کلی متن حفظ شود. به توجه به اینکه اسناد زیادی در اینترنت موجود است که بیشتر آنها محتوی …

ادامه مطلب

نقش برچسب گذار (POS tagger) در پردازش متن

برچسب گذار (POS tagger)

یکی از بخش­ های کلیدی در پردازش متن تعیین نقش کلمه در جمله است. در واقع با ابزار برچسب گذار (POS tagger) نقش کلمه از نظر فعل، فاعل، نوع اسم و غیره مشخص می­شود. برچسب­گذاری در پردازش زبان بعد از بخش­ های واحدساز و …

ادامه مطلب

نقش ریشه­ یاب (Stemmer) در تحلیل متن و پردازش زبان و تفاوت آن با lemmatizer

ریشه­ یاب (Stemmer)

در این مبحث مولفه ریشه­ یاب (Stemmer) در فرایند پردازش متن تشریح می‌گردند. ریشه یابی عبارت است از حذف پس وندها و پیش وند های کلمات و استخراج ریشه آن ها. ریشه­ یاب (Stemmer) چیست؟ در هر زبان، واژه‌ها با توجه به نقش معنایی و …

ادامه مطلب

نقش واحدساز (Tokenizer) در پردازش متن و متن کاوی

قطعه بندی متون

واحدساز (Tokenizer) در بخش های قبلی به روش های تشخیص زبان در متون اشاره کردیم در این مبحث به نقش واحد ساز (Tokenizer) در پردازش متن میپردازیم.  واحدساز (Tokenizer) مرز کلمات را در متون تشخیص داده و متن را به دنباله‌ای از کلمات تبدیل …

ادامه مطلب

روش‏ هاي تشخيص زبان در متن

روش‏ هاي تشخيص زبان

تشخیص زبان یک متن، یکی از اولین گام ها به سوی متن کاوی است. مخصوصا در فضای بزرگ سایبر که تنوع بسیار زیادی از داده ها وجود دارد. حتی ممکن است گاهی در اسناد سازمانی هم با تنوع متفاوتی از زبان ها در اسناد …

ادامه مطلب

گروه تلگرامی اوسینت

مطالب مفید در حوزه بیگ دیتا و تحلیل شبکه های اجتماعی

ورود
انصراف