خانه > دیتاست (data set) > دیتاست ارقام دستنویس فارسی برای یادگیری ماشین

دیتاست ارقام دستنویس فارسی برای یادگیری ماشین

بازشناسی ارقام وحروف دستنویس فارسی. موضوعی است که سالهاست روی آن کار میشود چه در حوزه تحقیقات دانشگاهی وچه در حوزه های تجاری وکاربردی.مقالات وپایان نامه های در این زمینه ارئه شده است والبته کارهای صنعتی زیادی هم صورت گرفته است
از مهمترین کاربردهای شناسایی ارقام وحروف دستنویس :

· وارد کردن اطلاعات اسناد اداری از جمله چک ها و فرم های پر شده
· شناسایی اتوماتیک شماره پلاک برای سیستم کنترل ترافیک
· شناسایی کاراکترهای نوشته شده بر روی صفحات لمسی
· کنترل سیستم به وسیله رسم اشکال
· شکستن کپچا
· طراحی تکنولوژی های یاری دهنده نابینایان و افراد با ضعف بینایی

Download (ZIP, 5.05MB)

دانلود دیتاست ارقام دستنویس فارسی

دیتاست ارقام دستنویس که اولین مجموعه‌ی بزرگ ارقام دستنویس فارسی است، مشتمل بر ۱۰۲۳۵۳ نمونه دستنوشته سیاه سفید است. تصویر کاوی یکی از پر چالش ترین علوم داده کاوی است در این حوزه به دنبال شناسایی الگوری پنهان در تصاویر هستند. مجموعه ارقام دستنویس هدی که اولین مجموعه‌ی بزرگ ارقام دستنویس فارسی است.

ارقام دستنویس فارسی
ارقام دستنویس فارسی

مجموعه ارقام دستنویس هدی که اولین مجموعه‌ی بزرگ ارقام دستنویس فارسی است، مشتمل بر ۱۰۲۳۵۳ نمونه دستنوشته سیاه سفید است. این مجموعه طی انجام یک پروژه‏ی کارشناسی ارشد۱ درباره بازشناسی فرمهای دستنویس تهیه شده است۲. داده های این مجموعه از حدود ۱۲۰۰۰ فرم ثبت نام آزمون سراسری کارشناسی ارشد سال ۱۳۸۴ و آزمون کاردانی پیوسته‏ی دانشگاه جامع علمی کاربردی سال ۱۳۸۳ استخراج شده است. خصوصیات این مجموعه داده به شرح زیر است:

درجه تفکیک نمونه‏‌ها: ۲۰۰ نقطه بر اینچ
تعداد کل نمونه‏‌ها: ۱۰۲۳۵۲ نمونه
تعداد نمونه‏‌های آموزش: ۶۰۰۰ نمونه از هر کلاس
تعداد نمونه‏‌های آزمایش: ۲۰۰۰ نمونه از هر کلاس
سایر نمونه‏‌ها: ۲۲۳۵۲ نمونه

تعداد نمونه ها در هر کلاس

رقم ٠ رقم ١ رقم ٢ رقم ٣ رقم ۴ رقم ۵ رقم ۶ رقم ٧ رقم ٨ رقم ٩
۱۰۰۷۰ ۱۰۳۳۰ ۹۹۲۳ ۱۰۳۳۴ ۱۰۳۳۳ ۱۰۱۱۰ ۱۰۲۵۴ ۱۰۳۶۳ ۱۰۲۶۴ ۱۰۳۷۱
*اطلاعات ارجاع: 

Khosravi, H.‎, & Ehsanollah, K.‎ (2007)‎.‎ Introducing a Very Large Dataset of Handwritten Farsi Digits and a Study on their Varieties.‎ Pattern Recognition Letters, 28(10)‎, ۱۱۳۳–۱۱۴۱. doi:10.‎1016/j.patrec.‎2006.‎12.‎022.‎ (دریافت)

اطلاعات تکمیلی: 
  • معرفی مجموعه : http://farsiocr.ir
  • برای خواندن مجموعه داده که در قالب فایلی با پسوند cdb. است کدهای C++ ،Matlab و یا دلفی آن را دریافت کنید.

آدرس کانال تلگرام سایت بیگ دیتا:

t.me/bigdata_channel

آدرس کانال سروش ما:
https://sapp.ir/bigdata_channel

جهت دیدن سرفصل های دوره های آموزشی بر روی اینجا کلیک کنید.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *