Applied Big Data Fundamentals


عنوان دوره طول دوره زمان برگزاری تاریخ شروع دوره شهریه استاد وضعیت ثبت نام ثبت نام
Applied Big Data Fundamentals 15 جلسه 45 ساعت دوشنبه از ساعت 17:30 الی 20:30
چهارشنبه از ساعت 17:30 الی 20:30
چهارشنبه ۲۱ فروردین ۱۳۹۸ 1,553,000 تومان حسن احمدخانی

سرفصل و محتوای دوره مفاهیم کاربردی در کلان داده

( پردازش و مدیریت کلان داده)


معرفی و هدف دوره :

در دوره آموزشی مفاهیم بنیادی پردازش و مدیریت کلان داده ها به بررسی نظری و عملی کلان داده ها، معماری کلان داده ها و  ابزارهای پردازشی در حوزه داده های کلان پرداخته خواهد شد. هدف از این دوره آموزشی ایجاد توانمندی در دانشجو برای درک حوزه کلان داده ها، توانمندی در استفاده از ابزارهای مدیریتی و پردازشی پایه ای در پردازش کلان داده ها، شناخت اکوسیستم هدوپ(Hadoop)، اسپارک(Spark) و NoSQL، و توان انتخاب و استفاده از ابزار های مورد نیاز در این حوزه می باشد. در پایان دوره انتظار میرود دانشجو علاوه بر درک کلان داده ها، تکنیک ها و ابزارهای آن، توان استفاده از ابزارهای مربوطه را برای انجام فعالیت های معمول در حوزه کلان داده داشته باشد.

طول دوره : 45 ساعت

مشاهده رزومه استاد

پیش نیاز دوره : ندارد


سرفصل و رئوس مطالب دوره :

What is Big Data  - 3 ساعت

مقدمه

بررسی ویژگی های کلان داده ها

انواع داده های ساخت یافته و غیر ساخت یافته

کاربرد کلان داده ها و تحلیل آنها

منابع تولید کننده کلان داده ها

چالش های داده های کلان

 نمایش و بررسی نمونه داده های کلان و ارزیابی آنها

چالش های مدل های سنتی ذخیره سازی با کلان داده ها

مسائل مدل های پرس و جو و پردازش داده های کلان در سیستم های سنتی


Parallel Processing 1.5 ساعت

تعریف و توصیف پردازش موازی

تعریف و توصیف ذخیره سازی موازی

دسترسی موازی به داده ها

چالش های پردازش موازی

چالش های دسترسی موازی به داده ها

راه کار های موجود


Hadoop Ecosystem and Spark - 3 ساعت

معرفی هادوپ

مشخصات هادوپ

مزایا و معایب هادوپ

اجزاء هادوپ

سیستم ذخیره سازی هادوپ

      اجرای سناریو های ذخیره سازی

      ارزیابی و بررسی نحوه ذخیره سازی

سیستم پردازشی MapReduce

     معرفی مدل پردازشی

    مسائل قابل حل در این مدل

    تبدیل مسئله به نگاشت کاهش

    اجرای مثال های نگاشت کاهش

    مزایا و معایب

روش های نصب و راه اندازی هادوپ

معرفی اسپارک

       مدل پردازش توزیع شده در اسپارک

       ایده ایجاد اسپارک

      مزایا و معایب

      کاربرد ها

                   مدل های نصب و راه اندازی

HDFS Architecture - 3 ساعت

سیستم ذخیره سازی توزیع شده در هادوپ

ساختار ذخیره سازی توزیع شده

مدل ها و انواع روش های ذخیره سازی

اجرای سناریو های ذخیره سازی مختلف

مقایسه انواع مدل های ذخیره سازی

       اجرای سناریو های نگاشت کاهش در روش های ذخیره سازی مختلف

                    ارزیابی و کاربرد هر کدام از روش های ذخیره سازی

مدل های ذخیره سازی ترکیبی

Ingesting Data - 3 ساعت

تزریق و ورود داده به سیستم فایل توزیع شده هادوپ

نصب و راه اندازی سیستم تزریق داده

روش ها و ابزار های ورود داده غیر ساخت یافته

  معرفی ابزار ورود داده غیر ساخت یافته یه سیستم توزیع شده هادوپ

   -تست و مقایسه اجمالی ابزار ها

  اجرای سناریو های مختلف ورود داده به سیستم ذخیره سازی توزیع شده

  بررسی و ارزیابی داده های وارد شده به سیستم 

روش ها و ابزار های ورود داده ساخت یافته

 علت ورود داده های ساخت یافته به سیستم توزیع شده هادوپ

 معرفی ابزار ورود داده ساخت یافته

 اجرای سناریو های مختلف ورود داده

  بررسی و ارزیابی داده های وارد شده به سیستم

Big Data Processing Cluster Deployment and Management - 4 ساعت

چالش های نصب و راه اندازی کلاستر هادوپ

ابزار های نصب و استقرار کلاستر

ابزار های مدیریت منابع در کلاستر

لزوم یا عدم لزوم راه اندازی کلاستر هادوپ

  کلاستر ذخیره سازی

 -جایگزین ها

  کلاستر پردازشی

 -جایگزین ها

نصب و راه اندازی یک کلاستر نمونه

Apache Hive Overview - 4 ساعت

معرفی انبار داده

معرفی هایو

   ویژگی ها

  لزوم یا عدم لزوم هایو

  اجزاء

 جایگاه هایو در سیستم هادوپ

کاربرد هایو

راه اندازی هایو و افزودن به کلاستر موجود

ایجاد جداول و دسترسی به داده ها در هایو

 ارتباط با هایو

 تعریف جداول و انواع آن

  لود داده در جدول

 انجام پرس و جو

Apache Pig Overview - 4 ساعت

معرفی pig

 ویژگی ها

 کاربرد ها

 اجزاء

 جایگاه pig در سیستم هادوپ

مزایا و معایب Pig

راه اندازی Pig

زبان پرس و جو در Pig

Storm – Real Time Big Data Processing - 4 ساعت

معرفی جریان داده

تعریف و توصیف پردازش جریان داده

کاربرد های پردازش جریان داده

پردازش جریان داده

 ابزار ها

 پردازش جریان داده بدون استفاده از سیستم فایل توزیع شده

 پردازش جریان داده با استفاده از سیستم فایل توزیع شده

معرفی storm

مفاهیم storm

اجزاء

توپولوژی

Bolt

 Spout

انتقال داده به storm و از storm

حل مسائل نمونه

تشکیل توپولوژی

نوشتن نمونه برنامه ها/ توپولوژی storm

 Apache Spark Overview  - 4 ساعت

تعریف و توصیف spark

کاربرد های spark

مدل پردازش توزیع شده در اسپارک

انواع مدل های نصب و راه اندازی اسپارک

مدیریت منابع در اسپارک

نصب و راه اندازی اسپارک

اجراء اسپارک

توانایی ها و نقاظ ضعف

مفاهیم کار با اسپارک و اسپارک کلاستر

 مدل اجرایی وظایف در اسپارک

مدل داده ای RDD

 انواع منابع داده ای و تبدیل آنها به مدل داده ای اسپارک

انواع روش های ارتباط و ایجاد وظایف

Java, scala, r, python, sql

توسعه نمونه برنامه های پردازشی توسط اسپارک

Data Analytics and Visualization with Zeppelin - 4 ساعت

تعریف و توصیف زپلین

کاربرد های zeppelin برای مصور سازی نتایج

کاربرد های zeppelin برای انجام فرایند های علم داده ای

نصب و راه اندازی زپلین

مصور سازی در زپلین

روش های ارتباط با داده ها در زپلین

استفاده از مفسر های مختلف در زپلین

Sql, R, python ,shell, spark, jdbc

افزودن مفسر ها

YARN Architecture 1.5 ساعت

معرفی yarn

معماری

کاربرد yarn

مدیریت منابع توسط yarn

مزایا و معایب yarn

جایگزین های yarn

نصب و پیکربندی yarn

Hadoop Security - 2 ساعت

امنیت در هادوپ

مدیریت دسترسی

ابزارهای مدیریت دسترسی

 معرفی Falcon

 معرفی Atlas

انجام روال های مدیریت دسترسی

 انجام روال های دسترسی پایه ای

 انجام روال های دسترسی پیشرفته

Big Data Solutions Architectures - 2 ساعت

تعریف معماری

معماری یک راه حل تحلیل داده کلان

مدل های معماری

Lambda

kappa

انتخاب ابزار ها در ایجاد یک سیسم ذخیره سازی

 لزوم و عدم لزوم استفاده از روش های توزیع شده

انتخاب ابزار ها در ایجاد یک سیسم پردازشی موازی و توزیع شده  

Production Case Study - 2 ساعت
بررسی و مطالعه موردی پروژهای کلان داده و موارد موفق و ناموفق در حل مسائل محیط های عملیاتی



ساخت رزومه حرفه ای با امکان خروجی گرفتن با فرمت pdf و word در قالب های متنوع

مشاهده نمونه رزومه های ساخته شده