Big Data – Praktyczne wprowadzenie do Apache Spark w Pythonie

Strona Główna
Kursy
Big Data – Praktyczne wprowadzenie do Apache Spark w Pythonie – kurs online

powrót wydrukuj

Big Data – Praktyczne wprowadzenie do Apache Spark w Pythonie – kurs online

PB/11835 Prawo, Biznes i IT

Kurs realizowany w formie zdalnej na platformie ZOOM.

Do udziału w kursie niezbędne jest posiadanie konta Google oraz środowiska Google Colab lub lokalnej instalacji Apache Spark. Wymagana podstawowa znajomość Pythona.

Kurs stanowi praktyczne wprowadzenie do nowoczesnych metod przetwarzania dużych zbiorów danych w Apache Spark. Słuchacze poznają zarówno podstawy teoretyczne Big Data, jak i praktyczne aspekty pracy z PySpark – od wczytywania danych, przez transformacje, aż po budowę modeli analitycznych.

Szczególny nacisk położony zostanie na:

praktyczne ćwiczenia z przetwarzania danych,
optymalizację zapytań,
analizę wydajności,
pracę na rzeczywistych zbiorach danych (case studies).

Ostatnia część kursu poświęcona będzie pracy projektowej – każdy Słuchacz przygotuje własny pipeline analityczny lub projekt Big Data (ETL + analiza + wizualizacja wyników).

Grupa ze zmniejszonym limitem osób.

Cel ogólny:

nauczenie Słuchaczy praktycznych umiejętności przetwarzania, analizy i wizualizacji dużych zbiorów danych z wykorzystaniem platformy Apache Spark i języka Python (PySpark); rozwinięcie kompetencji w zakresie pracy z danymi typu Big Data, budowy wydajnych pipeline’ów analitycznych oraz stosowania metod analizy danych w środowiskach rozproszonych.

Cele szczegółowe:

zrozumienie idei Big Data oraz architektury Apache Spark,
poznanie środowiska PySpark i pracy w trybie lokalnym oraz chmurowym,
przetwarzanie dużych zbiorów danych z użyciem DataFrame i Spark SQL,
optymalizacja zapytań i wydajności obliczeń,
budowa pipeline’ów przetwarzania danych,
wprowadzenie do uczenia maszynowego w Spark MLlib,
integracja Sparka z plikami Parquet, CSV, JSON oraz bazami danych,
praca z danymi strumieniowymi (Structured Streaming – podstawy).

Korzyści dla Słuchacza:

Wiedza – Słuchacz:

zna podstawy architektury Apache Spark,
rozumie różnice między przetwarzaniem lokalnym a rozproszonym,
zna pojęcia: RDD, DataFrame, Spark SQL, MLlib, Structured Streaming.

Umiejętności – Słuchacz:

potrafi wczytywać i przetwarzać duże zbiory danych w PySpark,
umie tworzyć zapytania analityczne w Spark SQL,
potrafi budować pipeline’y przetwarzania danych,
umie trenować proste modele ML w Spark MLlib,
potrafi optymalizować obliczenia (cache, partitioning, broadcast).

Kompetencje społeczne – Słuchacz:

potrafi pracować zespołowo nad projektem Big Data,
potrafi prezentować wyniki analiz w sposób zrozumiały,
jest świadomy ograniczeń i kosztów obliczeń Big Data.

Metody pracy:

warsztaty z kodem w środowisku PySpark (Google Colab / lokalnie),
ćwiczenia praktyczne na rzeczywistych zbiorach danych,
miniwykłady teoretyczne,
analiza przypadków (case studies),
samodzielna i zespołowa praca projektowa,
prezentacja projektów i wspólna dyskusja.

Metody weryfikacji efektów kształcenia:

egzamin dla chętnych Słuchaczy: realizacja projektu końcowego (pipeline Big Data lub analiza danych w Apache Spark).

więcej

965.00 PLN 40 godzin 24.13 PLN / h

Grupa PB/11835/1

Zaloguj się, aby zapisać na kurs.

18.04.2026 - 26.04.2026 Lokalizacja:

l.p.	data	rozpoczęcie	zakończenie
1	18.04.2026 , Sobota	09:00:00	17:00:00
2	19.04.2026 , Niedziela	09:00:00	17:00:00
3	25.04.2026 , Sobota	09:00:00	17:00:00
4	26.04.2026 , Niedziela	09:00:00	15:00:00

965.00 PLN 40 godzin 24.13 PLN / h