Advanced Big Data Analytics

 سرفصل و محتوای دوره ی مباحث پیشرفته در پردازش و تحلیل کلان داده ها با استفاده از Hadoop

 

معرفی و هدف دوره :

در دوره آموزشی مباحث پیشرفته در تحلیل داده های کلان، ابزار ها و تکنیک های مهم در آماده سازی، پاکسازی، تحلیل و مدیریت داده های کلان بررسی خواهند شد.
هدف این دوره آموزشی بررسی مباحث پیشرفته در حوزه ابزارهای اکوسیستم هادوپ جهت احراز نیازمندی های مشاغل DataEngineer،  Data Scientist و Integration Engineer و همچنین پوشش مطالب پیشرفته کلان داده و اکوسیستم هادوپ جهت احراز نیازمندی های لازم برایHadoop Administration  و Data Administration می باشد.

 
طول دوره : 54 ساعت

پیش نیاز دوره: دوره Applied Big Data Fundamentals یا تجربه کاری در زمینه Hadoop و اکوسیستم Hadoop

خلاصه سر فصل هایی که در این دوره پوشش داده خواهند شد:

Zeppelin ( Data Science Notebook ) : 3 hours
Advanced Spark ( Spark SQL – Spark ML – Spark Streaming) : 12 hours
Advanced Hive : 6 hours
Advanced HBase : 6 hours
HDFS Files Format Internals and Kudu : 6 hours
Advanced Presto : 6 hours
Advanced NiFi ( NiFi – miNiFi – NiFi Registry – NiFi Administation ) : 9 hours
Cluster Architecting and Sizing : 3 hours
Data Governance : 3 hours

 

سرفصل ها و رئوس مطالب:

 

 Data Science with Zeppelin ( انجام فرآیندهای علم داده ای توسط زپلین) - 3 ساعت

 علم داده و ابزار های انجام فرآیند های علم داده ای در بیگ دیتا
 Data Science Notebooks and Tools
معرفی Zeppelin و کامپوننت های آن
مفسر های زپلین و افزودن مفسر های جدید
کار با مفسر های مختلف و انجام فعالیت های داده ای
Zeppelinبرای انجام فرایند های علم داده ای
مصور سازی توسط Zeppelin
Jetbrains Big Data Tools
Zepl

 

Advanced Spark ( مباحث پیش رفته در پردازش و تحلیل  کلان داده توسط اسپارک ) - 12 ساعت

  Spark SQL 
 اتصال اسپارک به منابع داده ای مختلف
 کار با  DataFrame
 فرمت های فایل و استفاده از فرمت فایل های مختلف درSparkSQL
 استفاده از کتابخانه های numpy ، TensorFlow، pandas
 معرفی  SparkML جهت انجام فرایند های یادگیری ماشینی در اسپارک
 توسعه و اجرای روال های تحلیل آماری
Spark ML Pipelines 
 مهندسی ویژگی ها به کمک اسپارک
 پیاده سازی الگوریتم های Classification  در اسپارک و استفاده از آنها در حل مسائل نمونه
 پیاده سازی الگوریتم های Clustering در اسپارک و استفاده از آنها در حل مسائل نمونه
 استفاده از اسپارک برای پیاده سازی سیستم توصیه گر و سیستم تشخیص تقلب
 بهبود کارایی در فرآیند های SparkML
 استقرار مدل
Deep Learning  در اسپارک 
 معرفی Spark Streaming
Structured Streaming 
Input Source and Operations 
Window Operations 
 اتصال اسپارک به Kafka و دریافت و پردازش جریان داده
Checkpointing 
 توسعه نمونه برنامه پردازش جریان داده ای
 نحوه استفاده از اسپارک و کامپوننت های آن در انجام سناریو های مختلف پالایش و تحلیل داده

 

Apache Hive ( معرفی و مباحث پیش رفته در هایو ) - 6 ساعت

  معرفی  Hiveو مدل اجرای وظایف در Hive
  عملیات داده ای در هایو
  پارتیشن بندی (Partitioning) و باکت بندی (Bucketing) در Hive
 روشهای پیوند (Join) در  Hive
 فرمت های فایل و استفاده از فرمت فایل های مختلف درHive
UDF,UDAF and UDTF in Hive  و نحوه توسعه و استفاده از Function ها 
SerDe و توسعه و استفاده از آن  
 استفاده از اسپارک به عنوان موتور اجرایی در هایو (Hive On Spark)
Spark and Hive Integration 
 اجرای سناریو های مختلف ELT در Hive
Hive Server2 
 انجام تنظیمات پیشرفته در Hive
 بهبود کارایی در Hive و پارامترهای موثر

 

Apache HBase ( معرفی و مباحث پیشرفته در آپاچی اچ بیس ) 6 ساعت

معرفی پایگاه داد HBase به عنوان پایگاه داده NoSQL در اکوسیستم هادوپ و قابلیت های آن
معماری کلاستر HBase  و نصب و راه اندازی کلاستر
تعامل با HBase و انجام عملیات مختلف کاربری در آن
CRUD in HBase
Schema Design
Hive and HBase Integration
مدیریت  HBaseو انجام فعالیت ها و عملیات مدیریتی
HBase HA
Replication
ایجاد بهبود کارایی در HBase از نظر معماری و پیکربندی
نظارت بر کارایی و مانیتورینگ کلاستر
مدیریت دسترسی و امنیت

 

 Hadoop File Format Internals and Apache Kudu( فرمت های فایل در HDFS و معرفی Kudu ) - 6 ساعت

بررسی ساختار داخلی و کاربرد فرمت فایل های Text و Sequence
بررسی ساختار داخلی و کاربرد فرمت فایل های ORC، Parquet
Metadata management
Avro schemas
Avro schema evolution
ملاحضات انتخاب فرمت فایل
معرفی Apache Kudu
معماری Kudu و نصب و پیکربندی Kudu
Schema Design در Kudu
عملیات داده ای در  Kudu
 

Presto for SQL On Hadoop ( استفاده از Presto به عنوان موتور اجرایی دستورات اس کیو ال)- 6 ساعت

معرفی  Presto،  معماری، اجزاء و مدل کارکرد Presto
نصب و راه اندازی، دستورات SQL ، مدل داده ای و توابع در Presto
اتصال به منابع ذخیره سازی و کار با انواع فرمت های فایل در Presto
اتصال اسپارک و Presto
مدیریت Presto
بهبود کارایی در   Presto
 

Apache NiFi  ( استفاده از NiFi برای کنترل و مدیریت  Data Flow) - 9 ساعت

تحلیل بر خط و نیاز به کنترل ورود داده در انجام تحلیل بر خط
اینترنت اشیاء ، منابع تولید کننده داده و نحوه ی مدیریت داده تولید شده در IOT
معرفی Data Flow و علت نیاز به انجام فرآیند های  Data Flow Control
معرفی NiFi به عنوان چارچول کنترل، تغییر و مدیریت گردش داده
انجام سناریو های مختلف کنترل گردش داده در NiFi به کمک پردازش گر های مختلف
توسعه پردازش گر های سفارشی Custom Processors
پیاده سازی مدل مرجع در پردازش جریان داده
استفاده از miNiFi جهت ایجاد گره های برگ در گراف کنترل داده
استفاده از NiFi Toolkit
پیکر بندی NiFi Registry
کلاستر بندی و مدیریت NiFi

 

Big Data Cluster Sizing And Architecture ( طرح ریزی کلاستر و معماری راه کار ) - 3 ساعت

تعریف معماری و مدل های معماری داده
مدل های Lambda، Kappa و Unified
معماری یک راه کار تحلیل کلان داده و نحوه انتخاب و استفاده از تکنولوژی های تحلیل کلان داده
معماری یک راه کار پردازش جریان داده و بررسی نحوه معماری
Cluster Sizing
Best Practice ها در طرح ریزی و ایجاد یک کلاستر هادوپ
ملاحظات یک طرح ریزی مناسب
نیازسنجی در زمینه حجم داده و میزان درخواست های پردازشی و تحیلی
مشخصات Storage / HDD مورد نیاز برای نیازسنجی انجام شده و ملاحظات آن
نحوه تخصیص منابع RAM و CPU مورد نیاز و ملاحظاتی که باید در نظر گرفت
سایر منابع مورد نیاز و بهترین شیوه های تقسیم بندی منابع در ایجاد یک کلاستر
انجام محاسبات و جزئیات کلاستربندی

 

Data Management and Governance (مدیریت و حاکمیت داده ) - 3 ساعت

 سازمان و کسب وکار داده محور 
 استراتژی داده و نیاز مندی های آن
 مدیریت داده و تفاوت های آن با مدیریت پایگاه داده
 متخصص مدیریت داده
 اهداف و اصول مدیریت داده
 چالش های مدیریت داده
 چارچوب DMBOK برای مدیریت و حاکمیت داده
Data Governance Deliverables 
 حوزه های دانش و ابعاد Data Management
Data Governance 
Data Architecture 
Data Modeling and Design 
Data Storage and Operations 
Data Security 
Data Integration and Interoperability 
Documents and Content 
Reference and Master Data 
Data Warehousing and Business Intelligence 
Metadata 
Data Quality 
Data Management and Governance Tools 
ML Model Governance 
 مروری بر نحوه مدیریت امنیت و حاکمیت داده به کمک Apache Atlas و Apache Ranger
 نحوه Build و استفاده از Atlas و Ranger