Big Data – Praktyczne wprowadzenie do Apache Spark w Pythonie – kurs online
PB/11835
Prawo, Biznes i IT
Kurs realizowany w formie zdalnej na platformie ZOOM.
Do udziału w kursie niezbędne jest posiadanie konta Google oraz środowiska Google Colab lub lokalnej instalacji Apache Spark. Wymagana podstawowa znajomość Pythona.
Kurs stanowi praktyczne wprowadzenie do nowoczesnych metod przetwarzania dużych zbiorów danych w Apache Spark. Słuchacze poznają zarówno podstawy teoretyczne Big Data, jak i praktyczne aspekty pracy z PySpark – od wczytywania danych, przez transformacje, aż po budowę modeli analitycznych.
Szczególny nacisk położony zostanie na:
- praktyczne ćwiczenia z przetwarzania danych,
- optymalizację zapytań,
- analizę wydajności,
- pracę na rzeczywistych zbiorach danych (case studies).
Ostatnia część kursu poświęcona będzie pracy projektowej – każdy Słuchacz przygotuje własny pipeline analityczny lub projekt Big Data (ETL + analiza + wizualizacja wyników).
Grupa ze zmniejszonym limitem osób.
Cel ogólny:
nauczenie Słuchaczy praktycznych umiejętności przetwarzania, analizy i wizualizacji dużych zbiorów danych z wykorzystaniem platformy Apache Spark i języka Python (PySpark); rozwinięcie kompetencji w zakresie pracy z danymi typu Big Data, budowy wydajnych pipeline’ów analitycznych oraz stosowania metod analizy danych w środowiskach rozproszonych.
Cele szczegółowe:
- zrozumienie idei Big Data oraz architektury Apache Spark,
- poznanie środowiska PySpark i pracy w trybie lokalnym oraz chmurowym,
- przetwarzanie dużych zbiorów danych z użyciem DataFrame i Spark SQL,
- optymalizacja zapytań i wydajności obliczeń,
- budowa pipeline’ów przetwarzania danych,
- wprowadzenie do uczenia maszynowego w Spark MLlib,
- integracja Sparka z plikami Parquet, CSV, JSON oraz bazami danych,
- praca z danymi strumieniowymi (Structured Streaming – podstawy).
Korzyści dla Słuchacza:
Wiedza – Słuchacz:
- zna podstawy architektury Apache Spark,
- rozumie różnice między przetwarzaniem lokalnym a rozproszonym,
- zna pojęcia: RDD, DataFrame, Spark SQL, MLlib, Structured Streaming.
Umiejętności – Słuchacz:
- potrafi wczytywać i przetwarzać duże zbiory danych w PySpark,
- umie tworzyć zapytania analityczne w Spark SQL,
- potrafi budować pipeline’y przetwarzania danych,
- umie trenować proste modele ML w Spark MLlib,
- potrafi optymalizować obliczenia (cache, partitioning, broadcast).
Kompetencje społeczne – Słuchacz:
- potrafi pracować zespołowo nad projektem Big Data,
- potrafi prezentować wyniki analiz w sposób zrozumiały,
- jest świadomy ograniczeń i kosztów obliczeń Big Data.
Metody pracy:
- warsztaty z kodem w środowisku PySpark (Google Colab / lokalnie),
- ćwiczenia praktyczne na rzeczywistych zbiorach danych,
- miniwykłady teoretyczne,
- analiza przypadków (case studies),
- samodzielna i zespołowa praca projektowa,
- prezentacja projektów i wspólna dyskusja.
Metody weryfikacji efektów kształcenia:
egzamin dla chętnych Słuchaczy: realizacja projektu końcowego (pipeline Big Data lub analiza danych w Apache Spark).