داده‌های سری زمانی و پایگاه داده TimescaleDB

داده های سری زمانی یکی از مهم ترین انواع داده در حوزه داده کاوی محسوب می شوند. در سال‌های اخیر، حجم داده‌های سری زمانی به شدت توسعه‌یافته و نیاز به ابزارهایی برای مدیریت داده‌های سری زمانی، در این مقیاس، بیش از پیش احساس می‌شود.

مقدمه بر پایگاه داده TimescaleDB

تاکنون بیشتر ابزارهای تولید شده برای ذخیره و پردازش داده‌های سری زمانی، مبتنی بر مدل‌های داده‌ای NoSQL‌بوده است. دیتابیس‌های غیررابطه‌ای مختلفی توسعه داده شده اند که InfluxDB از معروف‌ترین آنهاست اما وجود یک دیتابیس رابطه‌ای کارآمد در این حوزه، به شدت احساس میشد. این نیاز باعث پاگرفتن پایگاه داده TimeScaleDb به عنوان یک افزونه بر روی پایگاه داده PostGreSQL شد.

پایگاه داده TimescaleDB
لوگوی پایگاه داده TimescaleDB

داده‌های سری زمانی

داده‌های سری زمانی داده‌هایی هستند که هر رکورد آنها شامل زمان بوده، تحلیل و پردازش آنها به طور معمول وابسته به بازه‌های زمانی است. از جمله این نوع داده‌ها می‌توان به داده‌های بورس، آب‌و‌هوا، توئیت‌ها و حتی اخبار اشاره کرد.

سری‌های زمانی در تمامی حوزه‌های علوم کاربردی و مهندسی که زمان در آنها اندازه‌گیری و ذخیره می‌شود از سالیان دور حضور داشته‌اند. بنابراین، مکانیسم های ماندگاری داده‌ها برای سری‌های زمانی از جمله کارهای قدیمی برای پایگاه داده‌ها هستند. بانکهای اطلاعاتی سری زمانی(TSDB)، نوع خاصی از پایگاه‌های داده هستند که برای ذخیره و پردازش بهینه داده‌های سری‌زمانی (زمان‌محور) ایجاد شده‌اند.

تعریف ریاضی سری زمانی (Time Series)

دنباله‌ای از داده‌ها که در یک محدود زمانی جمع‌آوری شده‌‌اند، یک سری زمانی را تشکیل می‌دهند. این داده‌ها تغییراتی که پدیده در طول زمان دچار شده را منعکس می‌کنند. بنابراین می‌توانیم این مقدارها را یک بردار وابسته به زمان بدانیم. در این حالت اگر X یک بردار باشد، سری زمانی را می‌توان به صورت زیر نشان داد؛ که در آن t، بیانگر زمان و X نیز یک متغیر تصادفی است.

طبق این تعریف زمان t=0 نیز قابل تعریف است. این لحظه می‌تواند زمان تولد یک پدیده یا هنگامی باشد که اولین اطلاعات در آن لحظه ثبت شده است. به این ترتیب

متغیر تصادفی X را در زمان t‌ نشان می‌دهد. مقدارهای مشاهده شده این متغیر تصادفی دارای ترتیبی هستند که زمان وقوع هر داده را نشان می‌دهند.

اگر متغیر تصادفی X، یک بعدی باشد،‌ یعنی از بین ویژگی‌های مختلف یک پدیده فقط از یکی ویژگی برای ایجاد مدل سری زمانی استفاده شود، مدل را «یک متغیره» (Univariate) می‌نامند. ولی اگر از چندین ویژگی برای ایجاد مدل سری زمانی استفاده شود، مدل سری زمانی را «چند متغیره» (Multivariate) می‌گویند. البته اگر علاوه بر زمان، مکان یا مختصات را (یا هر اطلاعاتی که مقدار داده‌ها به آن وابسته باشند) به مدل اضافه کنیم، وارد مبحث «آمار فضایی» (Spatial Statistic) خواهیم شد.

داده های سری زمانی متفاوت هستند!

مشکل اصلی در رابطه با پایگاه داده های سری زمانی از جایی شروع شد که شرکت IBMدر سال ۱۹۷۰، Seminal System R را راه انداخت و از پایگاه داده های رابطه ای برای پردازش تراکنش های آنلاین (OLTP) استفاده شد.

در OLTP عملیات عمدتا از جنس تراکنش های  آپدیت بود که سطرهای مختلفی از پایگاه داده را تغییر می داد. برای مثال به یک ترانش انتقال وجه بانک توجه کنید که در آن پولی از یک حساب برداشت شده و به حساب شخص دیگری واریز می شود. در این انتقال، دو سطر و احتمالاً دو فیلد از هر سطر، آپدیت می‌شود.

در داده های سری زمانی ، با جریان پیوسته‌ای از داده‌ها و یا اندازه‌گیری‌ها (در مورد حسگرها) مواجه هستیم که در همه آنها، عملیات اصلی مورد نیاز، اضافه کردن “اطلاعات جدید” به پایگاه‌داده به صورت پیوسته است.

البته این امکان وجود دارد که اطلاعات بسیار دیرتر از زمانی برسد که تولید شده یا برچسب زمانی خورده  و یا به علت تاخیر شبکه / سیستم یا به دلیل اصلاحات برای به روز رسانی داده‌های موجود، این امر نوعاً استثنا است، نه یک قاعده ثابت. بنابراین بین نوع عملیات مورد نیاز سیستم‌های تراکنش محور و سری زمانی، تفاوت‌های ماهوی را شاهد هستیم.

در OLTP یا داده‌های تراکنش محور :

  • آپدیت در درجه اول اهمیت قرار دارد یعنی باید بتوان با سرعت و کارآیی مناسب، داده ها را اصلاح کرد.
  • نوشتن‌ها به صورت تصادفی توزیع شده هستند و نمی‌توان پیش‌بینی کرد نوشتن بعدی، قرار است بر روی کدام داده انجام شود.
  • اغلب تراکنش ها شامل چندین جدول مختلف می‌شوند یعنی باید چندین کلید اصلی را جستجو و داده‌های آنها را بازیابی کرد.

در داده‌های سری زمانی:

  • Insertها در درجه اول اهمیت هستند.
  • نوشتن ها تصادفی نیست و در بازه زمانی اخیر انجام می شود. (زمان‌مند هستند و به ترتیب زمانی وارد می‌شوند)
  • کلید اصلی اغلب یک TimeStampاست و ممکن است علاوه بر TimeStampموارد دیگری نیز چون ServerID، ِDeviceID و … همراه با TimeStampباشد.

راه حل پایگاه داده‌های رابطه‌ای برای پردازش سری زمانی در پایگاه داده TimescaleDB

در شکل زیر راه حل استاندارد اولیه پایگاه داده های رابطه ای برای پردازش جریان داده ای و ایده نوین اَبَرجدول در TimescaleDBدیده می شود. در راه حل اولیه که همان استفاده از ایندکس‌های B+‌است، بخشی از نودهای میانی، در حافظه نگهداری می‌شوند تا فرآیند جستجو و بازیابی اطلاعات سرعت مناسب داشته باشد اما در رهیافت جدید TimescaleDB، داده‌ها به بخش‌ها یا Chunkهایی تقسیم و ذخیره می‌شوند و همواره آخرین بخش‌ها در حافظه نگهداری می‌شود. کاربران از طریق اَبَرجدول‌ها به این بخش‌ها دسترسی خواهند داشت.

به عبارت دقیق‌تر، در پایگاه داده TimescaleDBکه قصد دارد از پایگاه‌داده رابطه‌ای پستگرس برای ذخیره داده‌های سری زمانی به نحو موثر استفاده کند، از مفهوم Hyper table و Chunk استفاده می شود. یک جدول مجازی یا اَبَرجدول، در واقع یک تجرید یا یک دید مجازی از همه جداول منفردی است که داده ها را در خود جای داده اند. این جداول منفرد تشکیل دهنده یک اَبَرجدول، chunk نامیده می شوند.

 هر Chunkدر یک جدول پایگاه داده داخلی (به عنوان یک جدول معمولی) ذخیره می‌شود، بنابراین ایندکس ها فقط با اندازه هر Chunkرشد می کنند و نه به اندازه کل. در HyperTableاز آنجا که داده‌‌ها معمولاً در یک بازه محدود (چند ثانیه قبل یا بعد از زمان جاری سیستم بسته به تاخیر یا عدم تنظیم بودن ساعت دستگاه‌ها) وارد می‌شوند، می‌توان همواره آخرین Chunkرا در حافظه نگه‌ داشت. با این‌کار  از یک Swap  پرهزینه به دیسک جلوگیری می شود.

داده‌های سری زمانی و پایگاه داده TimescaleDB
داده‌های سری زمانی و پایگاه داده TimescaleDB  دز مقایسه با Postgresql

 

 مزایای Chunking

از آنجا که هریک از این chunk ها به صورت جدولهایی در پایگاه داده ذخیره می شوند، و Query Plannerاز محدوده chunkها آگاه است (اندیس زمان و مکان)، Query Planner می تواند به سرعت تعیین کند که کدام داده عملیاتی متعلق به کدام chunk است. این موضوع می تواند هم برای درج سطرها، وهم برای انتخاب مجموعه ای از chunkها که برای اجرای کوئری مورد نیاز است، استفاده شود.

داده کاوی مبتنی بر سری‌های زمانی

تحلیل سری‌های زمانی تکنیکی در داده‌کاوی که هدف از آن، یافتن خصوصیات جالب توجه و نظم‌های مشخص در داده های حجیم است. یکی از  سری های زمانی دنباله‌ای مرتب شده از مشاهدات است که،ارزش یک شیء را به عنوان تابعی از زمان در مجموعه داده‌های جمع آوری شده توصیف می‌کند. رخداد وقایع متوالی در اصل مجموعه‌ی وقایعی است که بعد از یک واقعه‌ی مشخص به وقوع می‌پیوندند.

هدف اصلی در تحلیل سری زمانی در مورد یک پدیده، ایجاد یک مدل آماری برای داده‌های وابسته به زمان براساس اطلاعات گذشته آن پدیده است. با این کار امکان پیش‌بینی در مورد آینده پدیده مورد بحث میسر می‌شود. به بیان دیگر تحلیل سری زمانی،‌ ایجاد مدلی گذشته‌نگر است تا امکان تصمیمات آینده‌نگر را فراهم سازد.

انواع داده کاوی مبتنی بر سری‌های زمانی
انواع داده کاوی مبتنی بر سری‌های زمانی
سری زمانی ایستا و غیر ایستا
سری زمانی ایستا و غیر ایستا

مولفه‌های یک سری زمانی

معمولا می‌توان الگوی رفتار یا مدل تغییرات یک سری زمانی را به چهار مولفه تفکیک کرد. «روند» (Trend)، «تناوب» (Cyclic)، «فصل» (Seasonal) و «تغییرات نامعمول» (Irregular). اگر نمودار مربوط به داده‌های سری زمانی را برحسب زمان ترسیم کنیم می‌توانیم این مولفه‌ها را تشخیص دهیم در نتیجه شناخت بهتری از داده‌های سری زمانی خواهیم داشت. در ادامه به معرفی و بررسی هر یک از این مولفه‌ها می‌پردازیم.

 انواع تحلیل های سری زمانی type of time series analysis
انواع تحلیل های سری زمانی

 

  • روند (Trend): تمایل سری زمانی به افزایش، کاهش یا حتی ثابت بودن، روند را تشکیل می‌دهد. در یک سری زمانی با روند افزایشی، انتظار داریم مقدارهای سری زمانی در زمان‌های

و به صورت

  • باشند. برای مثال روند برای سری زمانی مربوط به میزان جمعیت یا سرمایه در بازار بورس به صورت افزایشی، ولی روند برای میزان مرگ و میر با توجه به پیشرفت در امور پزشکی، کاهشی است.

تناوب (Cyclic): تغییرات یکسان و تکراری در مقاطع میان‌مدت، تناوب در سری زمانی نامیده می‌شود. معمولا این تناوب ممکن است هر دو سال یا بیشتر اتفاق بیافتد. برای مثال تناوب در کسب و کار دارای یک چرخه چهار مرحله‌ای است که باعث می‌شود داده‌های مربوط به کسب و کار در یک دوره تناوب 3 ساله تکرار شوند.

فصل (Seasonal): در سری زمانی، تغییراتی که در دوره‌ای کوتاه‌تر از یک تناوب به صورت تکراری رخ می‌دهد، به تغییرات فصلی معروف است. برای مثال در طول یک سال میزان فروش لباس‌های گرم در زمستان افزایش داشته و سپس در فصل‌های دیگر کاهش داشته است. این تناوب در سال‌های بعد نیز به همین شکل تکرار می‌شود. همانطور که مشخص است دوره تکرار تغییرات فصلی کوتاه‌تر از دوره تکرار برای تغییرات تناوبی است.

تغییرات نامعمول (ّIrregular): این گونه تغییرات بر اثر عوامل تصادفی و غیرقابل پیش‌بینی ایجاد می‌شوند. برای مثال زلزله یا سیل در بررسی رشد جمعیت ممکن است اثرات بزرگی داشته باشد. این مولفه بعد از شناسایی توسط نمودار ترسیم شده از سری زمانی باید حذف شود. در غیر اینصورت نتایج حاصل از تحلیل سری زمانی ممکن است گمراه کننده باشند.

سری های زمانی
سری های زمانی

منابع:

https://blog.timescale.com/blog/time-series-data-why-and-how-to-use-a-relational-database-instead-of-nosql-d0cd6975e87c/

https://www.bigdata.ir/1399/01/timescaledb-%d9%85%d9%86%d8%a7%d8%b3%d8%a8-%d8%a8%d8%b1%d8%a7%db%8c-%d8%af%d8%a7%d8%af%d9%87%e2%80%8c%d9%87%d8%a7%db%8c-%d8%b3%d8%b1%db%8c-%d8%b2%d9%85%d8%a7%d9%86%db%8c/.

.https://blog.faradars.org/time-series/

 

برای دیدن فلیم های سینماییِ مهیج و جذاب”در حوزه فناوری اطلاعات، اوسینت و هوش مصنوعی“، بر روی اینجا کلیک کنید.

آدرس کانال تلگرام سایت بیگ دیتا:

t.me/bigdata_channel

آدرس کانال سروش ما:
https://sapp.ir/bigdata_channel

جهت دیدن سرفصل های دوره های آموزشی بر روی اینجا کلیک کنید.

جهت ثبت نام در دوره های آموزشی بر روی اینجا کلیک کنید.

بازدیدها: 3362

همچنین ببینید

نسل جدید دیسک‌

نسل جدید دیسک های ذخیره سازی نوری برای داده های طولانی

مقدمه بر نسل جدید دیسک ها: دانشمندان استرالیا و چین از نانومواد طلا برای ساخت …

آپاچی اسپارک

فیلم آموزش آپاچی اسپارک به زبان ساده از شرکت لیندا

معرفی آپاچی اسپارک  در پست های قبلی با معماری آپاچی اسپارک آشنا شدیم. اسپارک یک …

دیدگاهتان را بنویسید