Opis projektu :
Projekt dotyczy budowy platformy Big Data opartej na otwartoźródłowych technologiach, takich jak Hadoop, Spark, Hive i Ranger. Celem jest stworzenie skalowalnego silnika analitycznego do kategoryzacji transakcji bankowych oraz budowy scoringów kredytowych. Kandydat będzie współpracować z zespołem DevOps, inżynierami danych i architektami, wspierając migrację, testowanie komponentów oraz dokumentację techniczną.
Zakres obowiązków :
- Projektowanie i implementacja komponentów w Apache Spark i Hadoop.
- Kompilacja i rozwój modułów Hadoop / Spark bezpośrednio ze źródeł.
- Tworzenie skryptów migracyjnych i automatyzujących w Python.
- Testowanie i walidacja nowych komponentów platformy Big Data.
- Współpraca z zespołem DevOps, architektami oraz inżynierami danych.
- Dokumentowanie procesów, konfiguracji oraz wdrożeń.
- Udział w orkiestracji zadań przetwarzania danych w Apache Airflow.
- Praca z narzędziami budującymi : Maven, Gradle, pip, virtualenv.
Wymagania i doświadczenie :
Minimum 3 lata doświadczenia w projektach Big Data.Znajomość Java, w szczególności kompilacja i rozwój Hadoop / Spark.Doświadczenie z Python - automatyzacja procesów, skrypty migracyjneBardzo dobra znajomość Apache Spark, Hadoop, Hive, Airflow.Praktyczne doświadczenie w pracy na systemach Linux.Umiejętność pracy z narzędziami budującymi : Maven, Gradle, pip, virtualenv.Znajomość narzędzi : Git, IntelliJ, VSCode, PyCharm.Wykształcenie wyższe techniczne.Znajomość języka angielskiego na poziomie umożliwiającym czytanie dokumentacji.Mile widziane :
Doświadczenie z Ansible i praktykami CI / CD.Znajomość konteneryzacji (Podman, Docker).Doświadczenie w sektorze bankowym.