Applied Big Data Fundamentals


عنوان دوره طول دوره زمان برگزاری تاریخ شروع دوره شهریه استاد وضعیت ثبت نام ثبت نام
Applied Big Data Fundamentals 15 جلسه 45 ساعت دوشنبه از ساعت 17:30 الی 20:30
چهارشنبه از ساعت 17:30 الی 20:30
دوشنبه ۴ شهریور ۱۳۹۸ 1,553,000 تومان حسن احمدخانی

سرفصل و محتوای دوره مفاهیم کاربردی در کلان داده

( پردازش و مدیریت کلان داده)


معرفی و هدف دوره :

در دوره آموزشی مفاهیم بنیادی پردازش و مدیریت کلان داده ها به بررسی نظری و عملی کلان داده ها، معماری کلان داده ها و  ابزارهای پردازشی در حوزه داده های کلان پرداخته خواهد شد. هدف از این دوره آموزشی ایجاد توانمندی در دانشجو برای درک حوزه کلان داده ها، توانمندی در استفاده از ابزارهای مدیریتی و پردازشی پایه ای در پردازش کلان داده ها، شناخت اکوسیستم هدوپ(Hadoop)، اسپارک(Spark) و NoSQL، و توان انتخاب و استفاده از ابزار های مورد نیاز در این حوزه می باشد. در پایان دوره انتظار میرود دانشجو علاوه بر درک کلان داده ها، تکنیک ها و ابزارهای آن، توان استفاده از ابزارهای مربوطه را برای انجام فعالیت های معمول در حوزه کلان داده داشته باشد.

طول دوره : 45 ساعت

مشاهده رزومه استاد

پیش نیاز دوره : آشنایی با بانک های اطلاعاتی رابطه ای و آشنایی با یک زبان برنامه نویسی


سرفصل و رئوس مطالب دوره :

What is Big Data  - 3 ساعت

چالش های داده های کلان

 نمایش و بررسی نمونه داده های کلان و ارزیابی آنها

چالش های مدل های سنتی ذخیره سازی با کلان داده ها

مسائل مدل های پرس و جو و پردازش داده های کلان در سیستم های سنتی

مقدمه

بررسی ویژگی های کلان داده ها

انواع داده های ساخت یافته و غیر ساخت یافته

کاربرد کلان داده ها و تحلیل آنها

منابع تولید کننده کلان داده ها

Parallel Processing Distributed and  - 1.5 ساعت

تعریف و توصیف پردازش توزیع شده

تعریف و توصیف ذخیره سازی توزیع شده

دسترسی موازی به داده های توزیع شده

چالش های پردازش داده های توزیع شده

راه کار های موجود


Hadoop Ecosystem and Spark - 3 ساعت

معرفی هادوپ
مشخصات هادوپ
مزایا و معایب هادوپ
اجزاء هادوپ
سیستم ذخیره سازی هادوپ

      اجرای سناریو های ذخیره سازی
      ارزیابی و بررسی نحوه ذخیره سازی

سیستم پردازشی MapReduce

     معرفی مدل پردازشی
    مسائل قابل حل در این مدل
    تبدیل مسئله به نگاشت کاهش
    اجرای مثال های نگاشت کاهش
    مزایا و معایب

روش های نصب و راه اندازی هادوپ

معرفی اسپارک

       مدل پردازش توزیع شده در اسپارک
       ایده ایجاد اسپارک
      مزایا و معایب
      کاربرد ها
                   مدل های نصب و راه اندازی

HDFS Architecture - 3 ساعت

سیستم ذخیره سازی توزیع شده در هادوپ
ساختار ذخیره سازی توزیع شده
مدل ها و انواع روش های ذخیره سازی
اجرای سناریو های ذخیره سازی مختلف
مقایسه انواع مدل های ذخیره سازی

       اجرای سناریو های نگاشت کاهش در روش های ذخیره سازی مختلف

                    ارزیابی و کاربرد هر کدام از روش های ذخیره سازی

مدل های ذخیره سازی ترکیبی

Ingesting Data - 3 ساعت

تزریق و ورود داده به سیستم فایل توزیع شده هادوپ
نصب و راه اندازی سیستم تزریق داده
روش ها و ابزار های ورود داده غیر ساخت یافته

  معرفی ابزار ورود داده غیر ساخت یافته یه سیستم توزیع شده هادوپ
   -تست و مقایسه اجمالی ابزار ها
  اجرای سناریو های مختلف ورود داده به سیستم ذخیره سازی توزیع شده
  بررسی و ارزیابی داده های وارد شده به سیستم 

روش ها و ابزار های ورود داده ساخت یافته

 علت ورود داده های ساخت یافته به سیستم توزیع شده هادوپ
 معرفی ابزار ورود داده ساخت یافته
 اجرای سناریو های مختلف ورود داده
  بررسی و ارزیابی داده های وارد شده به سیستم

Big Data Processing Cluster Deployment and Management - 4 ساعت

چالش های نصب و راه اندازی کلاستر هادوپ
ابزار های نصب و استقرار کلاستر
ابزار های مدیریت منابع در کلاستر
لزوم یا عدم لزوم راه اندازی کلاستر هادوپ

کلاستر ذخیره سازی
 -جایگزین ها
کلاستر پردازشی
 -جایگزین ها

نصب و راه اندازی یک کلاستر نمونه

Apache Hive Overview - 4 ساعت

معرفی انبار داده

معرفی هایو

   ویژگی ها
  لزوم یا عدم لزوم هایو
  اجزاء
 جایگاه هایو در سیستم هادوپ

کاربرد هایو
راه اندازی هایو و افزودن به کلاستر موجود
ایجاد جداول و دسترسی به داده ها در هایو

 ارتباط با هایو
 تعریف جداول و انواع آن
  لود داده در جدول
 انجام پرس و جو

Apache Pig Overview - 4 ساعت

معرفی pig

 ویژگی ها
 کاربرد ها
 اجزاء
 جایگاه pig در سیستم هادوپ

مزایا و معایب Pig
راه اندازی Pig
زبان پرس و جو در Pig

Storm – Real Time Big Data Processing - 4 ساعت

معرفی جریان داده
تعریف و توصیف پردازش جریان داده
کاربرد های پردازش جریان داده
پردازش جریان داده

 ابزار ها
 پردازش جریان داده بدون استفاده از سیستم فایل توزیع شده
 پردازش جریان داده با استفاده از سیستم فایل توزیع شده

معرفی storm
مفاهیم storm
اجزاء

توپولوژی
Bolt
 Spout
انتقال داده به storm و از storm

حل مسائل نمونه
تشکیل توپولوژی
نوشتن نمونه برنامه ها/ توپولوژی storm

 Apache Spark Overview  - 4 ساعت

تعریف و توصیف spark
کاربرد های spark
مدل پردازش توزیع شده در اسپارک
انواع مدل های نصب و راه اندازی اسپارک
مدیریت منابع در اسپارک
نصب و راه اندازی اسپارک
اجراء اسپارک
توانایی ها و نقاظ ضعف
مفاهیم کار با اسپارک و اسپارک کلاستر

 مدل اجرایی وظایف در اسپارک
مدل داده ای RDD
 انواع منابع داده ای و تبدیل آنها به مدل داده ای اسپارک

انواع روش های ارتباط و ایجاد وظایف

Java, scala, r, python, sql

توسعه نمونه برنامه های پردازشی توسط اسپارک

Data Analytics and Visualization with Zeppelin - 4 ساعت

تعریف و توصیف زپلین
کاربرد های zeppelin برای مصور سازی نتایج
کاربرد های zeppelin برای انجام فرایند های علم داده ای
نصب و راه اندازی زپلین
مصور سازی در زپلین
روش های ارتباط با داده ها در زپلین
استفاده از مفسر های مختلف در زپلین

Sql, R, python ,shell, spark, jdbc
افزودن مفسر ها

YARN Architecture 1.5 ساعت

معرفی yarn
معماری
کاربرد yarn
مدیریت منابع توسط yarn
مزایا و معایب yarn
جایگزین های yarn
نصب و پیکربندی yarn

Hadoop Security - 2 ساعت

امنیت در هادوپ
مدیریت دسترسی
ابزارهای مدیریت دسترسی

 معرفی Falcon
 معرفی Atlas

انجام روال های مدیریت دسترسی

 انجام روال های دسترسی پایه ای
 انجام روال های دسترسی پیشرفته

Big Data Solutions Architectures - 2 ساعت

تعریف معماری
معماری یک راه حل تحلیل داده کلان
مدل های معماری

Lambda
kappa

انتخاب ابزار ها در ایجاد یک سیسم ذخیره سازی

 لزوم و عدم لزوم استفاده از روش های توزیع شده

انتخاب ابزار ها در ایجاد یک سیسم پردازشی موازی و توزیع شده  

Production Case Study - 2 ساعت

بررسی و مطالعه موردی پروژهای کلان داده و موارد موفق و ناموفق در حل مسائل محیط های عملیاتی



ساخت رزومه حرفه ای با امکان خروجی گرفتن با فرمت pdf و word در قالب های متنوع

مشاهده نمونه رزومه های ساخته شده