داده به عنوان کیمیای عصر حاضر نقشی کلیدی در راهبری و مدیریت همه حوزه های صنعتی، علمی، اقتصادی، امنیتی، اجتماعی و فرهنگی ایفا می کند و به طور مداوم نرخ رشد تولید آن افزایش می یابد. کلان داده (به معنی تولید حجم های عظیم داده ای با سرعت بالا و در حوزه های موضوعی و ساختارهای متنوع) فرصت ها و تهدیداتی را پیش روی حاکمیت قرار داده است. آمارهای جهانی نشانگر رشد سریع و برق آسای این حوزه است به طوریکه حجم داده های تولیدشده در سال 2020 به 40 زتابایت1 خواهد رسید که این رقم رشدی معادل 300% را نسبت به سال 2015 نشان میدهد. درآمدهای حاصل از این حوزه نیز از 189 میلیارد دلار در سال 2019 به 274 میلیارد دلار در سال 2022 رشد خواهد کرد و بیش از 57% از این درآمد متعلق به کشور آمریکا خواهد بود.
مواجهه فعال با این فناوری و استفاده، تحلیل و تولید دانش از کلان داده ها نیازمند سیاست گذاری مناسب در این حوزه است. گام اول در سیاست گذاری حوزه کلان داده، شناسایی مولفه ها، نقش ها و بازیگران آن است. مدل های مرجع نقطه اتکای مهمی برای دستیابی به این شناخت هستند. به طور کلی، مدل های مرجع مهم این حوزه نظیر NBDRA 2، ITU، مایکروسافت، IBM و اوراکل، از سه منظر مولفه های کلان داده را سازماندهی نموده اند:
1. نقش های کلان داده: مدل های مرجع NBDRA و ITU رویکردی نقش محور به کلان داده دارند. یک زیست بوم کلان داده را می توان متشکل از پنج نقش کارکردی (هماهنگ کننده3، فراهم کننده داده4، فراهم کننده کاربرد5، فراهم کننده چارچوب6 و مصرفکننده داده 7) و دو نقش پایه ای امنیت8 و مدیریت9 که حاکم بر همه نقش های کارکردی هستند، در نظر گرفت. هر یک از نقش های کارکردی مجموعه ای از کارکردهای مرتبط را اجرا می کنند. هماهنگ کننده، نیازمندی های کلان را تعریف کرده و بر حسن تأمین آنها نظارت می کند؛ فراهم کننده داده، داده ها را از منابع مختلف گردآوری کرده و در اختیار سایرین قرار می دهد؛ فراهم کننده کاربرد کلان داده مجموعه ای از عملیات های لازم برای بکارگیری داده ها را با رعایت الزامات امنیتی و محرمانگی و الزامات تعیین شده توسط هماهنگ کننده سیستم اجرا می کند و قابلیت های عمومی "چارچوب کلان داده 10" را با هم ترکیب کرده تا یک سیستم داده ای مشخص تولید شود. چارچوب کلان داده متشکل از سه بخش زیرساخت، سکوی داده ها و چارچوب های پردازشی است؛ فراهم کننده چارچوب کلان داده منابع و خدمات پایه مورد نیاز فراهم کننده کاربرد کلان داده جهت ایجاد کاربردها را در اختیار او قرار می دهد و مصرف کننده داده هم خروجی ارزش یک سیستم کلان داده را دریافت می کند. از نگاهی دیگر، بازیگران یک زیست بوم کلان داده از مولفه های زیر تشکیل می شوند:
- نهادهای دولتی: تسهیل گردآوری و توزیع داده ها یا پیاده سازی راهکارهای تحلیلی
- کسب و کارها: کسب و کارها ستون فقرات کلان داده ها و تحلیل آنها در هر صنعت و همچنین کاربران و متقاضیان11 تحلیل داده ها هستند.
- مشتریان: مشتریان کسب وکارها، داده هایی مانند داده های شخصی و تراکنش ها را برای کسب وکارها تولید می کنند.
- ارائه کنندگان راهکارهای تحلیل داده ها: ارائه راهکارها و ابزارهای تحلیل داده ها
- ارائه کنندگان خدمات ذخیره سازی داده ها: این خدمات می تواند فیزکی یا مبتنی بر ابر باشد.
- تجمیع کنندگان داده ها 12: تجمیع داده های مربوط به هر صنعت و ارائه آن به کسب و کارها.
2. رویکرد داده-محور: در مدل مرجع کلان داده مایکروسافت رویکرد داده-محور مدنظر قرار گرفته است. در این رویکرد، جریان کلان داده ها و تبدیلات احتمالی داده ها، از مرحله جمع آوری تا بهره برداری مورد بررسی قرار می گیرد و یک زیست بوم کلان داده به چهار مولفه اصلی منابع داده، تبدیل داده، زیرساخت داده و بهره برداری تقسیم می شود و امنیت و مدیریت در حکم زیرمولفه های فراهم کننده خدمات پایه برای سایر مولفه های زیست بوم، عمل می نمایند.
3. رویکرد فنی: به منظور مشخص کردن لایه های فنی کلان داده باید شش محور کلیدی را مدنظر قرار داد: کشف و شناسایی داده (مشخص کردن داده های قابل دسترسی از یک منبع خاص و کیفیت و ارتباط آن با سایر داده ها)، ذخیره سازی و تحلیل مشترک داده ها (پردازش و تحلیل داده ها بر روی یک سکو)، مدیریت و تحلیل انواع داده ها اعم از ساخت یافته، نیمه ساخت یافته و غیرساخت یافته، تحلیل بلادرنگ داده ها، برخورداری از کتابخانه ای غنی از توابع تحلیلی و مجموعه ای از ابزارها به منظور تسریع روند توسعه و یکپارچه سازی و حاکمیت بر تمام منابع داده.
مدل های مرجع IBM و اوراکل نگاهی فنی به این حوزه داشته و مولفه های آن را از دیدگاه فنی سازماندهی کرده اند. به طور کلی کلان داده از منظر فنی به دو بخش لایه های منطقی و لایه های عمودی تقسیم می شود:
- لایه های منطقی: این لایه ها (چهار لایه زیر) وظیفه سازماندهی کامپوننت های مورد نیاز برای جمع آوری، گردآوری و تحلیل کلان داده را بر عهده دارند.
o منابع داده: گردآوری و ارائه داده
o لایه ذخیره سازی و پیام رسانی13: این لایه وظیفه گردآوری داده ها از منابع مختلف و در صورت نیاز تبدیل آنها به فرمتی قابل تحلیل را بر عهده دارد. با توجه به تنوع زیاد داده های ورودی، کامپوننت های این لایه باید از قابلیت خواندن داده ها، حجم های مختلف داده ها و کانال های ارتباطی متفاوتی برخوردار باشند.
o لایه تحلیل: ارائه تحلیل های بهینه، استخراج مفاهیم از داده ها، استخراج موجودیت های مورد نیاز و شناسایی و انتخاب الگوریتم و ابزارهای مهم به منظور اجرای تحلیل ها.
o لایه کاربرد14: این لایه از زیربخش های مانیتورینگ بلادرنگ 15، موتور گزارش 16، موتور توصیه17، پردازش های مدیریت فرآیندهای کاری18، رهگیر19 تراکنشی، مصورسازی20 و کشف21 تشکیل می شود. لایه کاربرد از خدمات لایه تحلیل استفاده کرده و خود، خدماتی به کاربران مختلف نظیر سازمان ها و موجودیت های خارجی، مانند مشتری ها، شرکاء و غیره ارائه می دهد.
• لایه های عمودی: لایه های عمودی، وجوهی از کلان داده را که بر همه لایه های افقی تأثیر گذارند، پوشش می دهند. این لایه ها عبارتند از: یکپارچگی اطلاعات، حکمرانی کلان داده ها، مدیریت سیستم ها و کیفیت سرویس.
به منظور دسترسی به مطالب و مقالات با موضوع
نقش ها، بازیگران، فعالیت ها و مدل های مرجع کلان داده، به
درگاه کلان داده مراجعه فرمایید.
پی نوشت:
1- 1 ZB = 10^12 GB = 1 Trillion Gigabytes
2- NIST Big Data Reference Architecture
3- Orchestrator
4- Data Provider
5- Big Data Application Provider
6- Big data framework provider
7- Data Consumer
8- Security
9- Management
10- Big data framework
11- Adopters
12- Data aggregator
13- Data messaging and storage layer
14- Consumption layer
15- Real time Monitoring
16- Reporting Engine
17- Recommendation Engine
18- Business Process Management Processes
19- Interceptor
20- Visualization
21- Discovery
22- Governance
کلمات کلیدی
شورای عالی فضای مجازی، مرکز ملی فضای مجازی، معاونت راهبری فنی، کلان داده ، Big Data ، مدل های مرجع ، داده ، اطلاعات ، عظیم داده ، سیاستگذاری ، IBM ، ITU ، NBDRA ، کسب و کار ، تحلیل داده ها ، داده محور ، تحلیل بلادرنگ ، حکمرانی