فایل دیکشنری فارسی با فرمت csv (قابل بارگذاری بر روی تمامی دیتابیس ها)

فایل دیکشنری با فرمت csv:

معمولا خیلی ار محققان برای برخی از مباحث تحلیل به فرهنگ لغات نیاز پیدا میکنند. به همین منظور یک فایل دیکشنری فارسی به انگلیسی (و حتما انگلیسی به فارسی) با بیش از هفتاد هزار لغت برای استفاده پژوهشگران آماده کرده ایم. جهت قابل استفاده بودن در همه ساختارهای داده ای و پایگاه داده های مختلف این فایل دیکشنری به فرمت csv ارائه شده است. جهت بهم نخوردن یونیکد فایل پیشنهاد میشود که این فایل را با برنامه notepad++ باز نمایید. در ادامه میتوانید فایل دیکشنری مذکور را دانلود کنید.

دانلود فایل دیکشنری با فرمت csv (قابل بارگذاری بر روی تمامی دیتابیس ها)

دانلود رایگان فایل دیکشنری
دانلود فایل دیکشنری

توضیح در مورد فایل های CSV:

مخفف عبارت «Comma Separated Values» و به معنای «مقادیر جدا شده با ویرگول» است. اینگونه فایل‌ها در واقع نوعی فایل خام متنی هستند که شامل لیستی از داده‌ها می‌شوند. به صورت رایج فایل‌های یاد شده برای جابه‌جایی داده‌ها بین نرم‌افزارهای متفاوت مورد استفاده قرار می‌گیرند. برای مثال، پایگاه‌های داده و نرم‌افزارهای مربوط به مدیریت مخاطبین معمولا از فایل‌های CSV پشتیبانی می‌کنند. در برخی جاها از این فایل با نام «Character Separated Values» (مقادیر جدا شده با کاراکتر خاص) یا «Comma Delimited» (محدود شده با ویرگول) نیز یاد می‌شود. این فایل‌ها معمولا از ویرگول برای جداسازی یا محدودسازی داده‌ها استفاده می‌کنند، ولی در برخی اوقات از سایر کاراکترها نظیر نقطه ویرگول نیز استفاده می‌شود. هدف اصلی این فایل‌ها این است که بتوانید اطلاعات خود را از یک نرم‌افزار وارد یک فایل CSV کرده و سپس آن فایل CSV را در یک نرم‌افزار دیگر مورد استفاده قرار دهید.

برای CSV هیچ استاندارد واحدی وجود ندارد. حتی RFC 4180 هم به صورت Informational ارائه شده است یعنی استاندارد واحدی را مشخص نکرده و صرفا قالبی که در بیشتر پیاده‌سازی‌ها مورد استفاده قرار گرفته را معرفی می‌کند. این یعنی اینکه CSV که از اکسل می‌گیرید لزوما با CSV که ممکن است از Gmail Contacts یا MySQL بگیرید یکی نخواهد بود. مثلا در یکی از header استفاده شده و در دیگری نه و یا مقدار فیلدها در یکی با double qution محصور شده و در دیگری نه. بدترین قسمت این ماجرا این است که در بیشتر پیاده سازی هیچ اهمیتی به Enocding داده نشده و فرض همه به ASCII بودن فایل است و بدتر از این از آنجا که به نظر می‌رسد CSV از Byte Order استفاده نمی‌کند،در نتیجه فایل آن حتما باید تک بایتی باشد مثل ASCII و UTF-8 و باز هم در نتیجه نمی‌توان از قالب‌های ۲ بایتی (یعنی هر کاراکتر در ۲ بایت ذخیره شود) مثل فایل‌های متنی یونیکد ویندوز در آن استفاده کرد. البته در حال تک بایتی هم Encoding را خود استفاده کننده باید بفهمد و نوع Encoding مورد استفاده از هیچ جای یک فایل CSV قابل استخراج نیست. در بعضی جاهای خاص مثل وقتی که قرار است فایل CSV به عنوان یک MIME TYPE به اسم text/csv رد و بدل شود یک header به نام charset هست که می‌توان Encoding را در آن معرفی نمود. فراموش نشود که این header خارج از خود فایل CSV قرار دارد.

برای دیدن فلیم های سینماییِ مهیج و جذاب”در حوزه فناوری اطلاعات، اوسینت و هوش مصنوعی“، بر روی اینجا کلیک کنید.

آدرس کانال تلگرام سایت بیگ دیتا:

t.me/bigdata_channel

آدرس کانال سروش ما:
https://sapp.ir/bigdata_channel

جهت دیدن سرفصل های دوره های آموزشی بر روی اینجا کلیک کنید.

جهت ثبت نام در دوره های آموزشی بر روی اینجا کلیک کنید.

بازدیدها: 53022

همچنین ببینید

دیتاست فایل اسلاید پاورپوینت

دیتاست بیش از دویست و هفتاد هزار لینک فایل متنی

دیتاست فایل متنی: در این پست مجموعه داده ای شامل بر  دویست و هفتاد هزار …

انواع User Agent

انواع User Agent برای خزش در وب به صورت مودبانه (politeness)

پروتکل  HTTP یک پروتکل درخواست و پاسخ  است که بین یک کلاینت و یک سرور …

5 دیدگاه

  1. بررسی شد لینک مشکلی نداره

  2. لینک دانلود خرابه.

  3. فقط انگلیسی به فارسیه. فارسی به انگلیسی ندارین؟

  4. با سلام
    باید روی ویرایشگراتان UTF8 فعال باشد

  5. سلام… نوشته های فارسی بهم ریخته هستند.

دیدگاهتان را بنویسید