صفحه نخست --> دیتاست (data set) --> فایل دیکشنری فارسی با فرمت csv (قابل بارگذاری بر روی تمامی دیتابیس ها)

فایل دیکشنری فارسی با فرمت csv (قابل بارگذاری بر روی تمامی دیتابیس ها)

فایل دیکشنری با فرمت csv:

معمولا خیلی ار محققان برای برخی از مباحث تحلیل به فرهنگ لغات نیاز پیدا میکنند. به همین منظور یک فایل دیکشنری فارسی به انگلیسی (و حتما انگلیسی به فارسی) با بیش از هفتاد هزار لغت برای استفاده پژوهشگران آماده کرده ایم. جهت قابل استفاده بودن در همه ساختارهای داده ای و پایگاه داده های مختلف این فایل دیکشنری به فرمت csv ارائه شده است. جهت بهم نخوردن یونیکد فایل پیشنهاد میشود که این فایل را با برنامه notepad++ باز نمایید. در ادامه میتوانید فایل دیکشنری مذکور را دانلود کنید.

دانلود فایل دیکشنری با فرمت csv (قابل بارگذاری بر روی تمامی دیتابیس ها)

دانلود رایگان فایل دیکشنری
دانلود فایل دیکشنری

توضیح در مورد فایل های CSV:
مخفف عبارت «Comma Separated Values» و به معنای «مقادیر جدا شده با ویرگول» است. اینگونه فایل‌ها در واقع نوعی فایل خام متنی هستند که شامل لیستی از داده‌ها می‌شوند. به صورت رایج فایل‌های یاد شده برای جابه‌جایی داده‌ها بین نرم‌افزارهای متفاوت مورد استفاده قرار می‌گیرند. برای مثال، پایگاه‌های داده و نرم‌افزارهای مربوط به مدیریت مخاطبین معمولا از فایل‌های CSV پشتیبانی می‌کنند. در برخی جاها از این فایل با نام «Character Separated Values» (مقادیر جدا شده با کاراکتر خاص) یا «Comma Delimited» (محدود شده با ویرگول) نیز یاد می‌شود. این فایل‌ها معمولا از ویرگول برای جداسازی یا محدودسازی داده‌ها استفاده می‌کنند، ولی در برخی اوقات از سایر کاراکترها نظیر نقطه ویرگول نیز استفاده می‌شود. هدف اصلی این فایل‌ها این است که بتوانید اطلاعات خود را از یک نرم‌افزار وارد یک فایل CSV کرده و سپس آن فایل CSV را در یک نرم‌افزار دیگر مورد استفاده قرار دهید. برای CSV هیچ استاندارد واحدی وجود ندارد. حتی RFC 4180 هم به صورت Informational ارائه شده است یعنی استاندارد واحدی را مشخص نکرده و صرفا قالبی که در بیشتر پیاده‌سازی‌ها مورد استفاده قرار گرفته را معرفی می‌کند. این یعنی اینکه CSV که از اکسل می‌گیرید لزوما با CSV که ممکن است از Gmail Contacts یا MySQL بگیرید یکی نخواهد بود. مثلا در یکی از header استفاده شده و در دیگری نه و یا مقدار فیلدها در یکی با double qution محصور شده و در دیگری نه. بدترین قسمت این ماجرا این است که در بیشتر پیاده سازی هیچ اهمیتی به Enocding داده نشده و فرض همه به ASCII بودن فایل است و بدتر از این از آنجا که به نظر می‌رسد CSV از Byte Order استفاده نمی‌کند،در نتیجه فایل آن حتما باید تک بایتی باشد مثل ASCII و UTF-8 و باز هم در نتیجه نمی‌توان از قالب‌های ۲ بایتی (یعنی هر کاراکتر در ۲ بایت ذخیره شود) مثل فایل‌های متنی یونیکد ویندوز در آن استفاده کرد. البته در حال تک بایتی هم Encoding را خود استفاده کننده باید بفهمد و نوع Encoding مورد استفاده از هیچ جای یک فایل CSV قابل استخراج نیست. در بعضی جاهای خاص مثل وقتی که قرار است فایل CSV به عنوان یک MIME TYPE به اسم text/csv رد و بدل شود یک header به نام charset هست که می‌توان Encoding را در آن معرفی نمود. فراموش نشود که این header خارج از خود فایل CSV قرار دارد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *