Weryfikacja Możliwości Zastosowania Technologii Big Data Do Analiz Ryzyka Kredytowego

Na rynku działa wielu dostawców technologii Big Data. Rozwiązania te często posiadają pewne indywidualne funkcje, które mogą wpływać na proces wdrożenia i użytkowania systemu. Dogłębne poznanie możliwości technologii oferowanej przez ważniejszych dostawców zabiera sporo czasu. Nie jest to jednak długoterminowa korzyść, ponieważ rozwiązania te ciągle się rozwijają. Bardziej optymalne kosztowo jest skorzystanie z usług firmy doradczej, która doskonale zna rynek rozwiązań i potrafi przeprowadzić proces weryfikacji nowych rozwiązań pod kątem wymagań klienta.

Dla naszego klienta przygotowaliśmy i przeprowadziliśmy projekt PoC prezentujący możliwości wybranych technologii big data. Podczas warsztatów z wykorzystaniem rzeczywistych danych analitycy finansowi po stronie klienta mogli samodzielnie ocenić potencjalne możliwości rozwiązań. W ten sposób zostało obniżone ryzyko wyboru oraz zostały skonkretyzowane cele i parametry planowanego rozwiązania Big Data.

Szkolenia obejmowało między innymi przekrój narzędzi wykorzystywanych w środowisku Hadoop, przykłady użycia, pisanie własnych skryptów i programów.

  1. Ogólne wprowadzenie – wstęp do środowiska Hadoop, omówienie komponentów, zapoznanie z takimi zagadnieniami jak HDFS, YARN, mechanizmy zabezpieczeń danych, ogólna koncepcja map i reduce, sposoby łączenie się do zewnętrznych baz danych
  2. Hive – omówienie technologii oferującej możliwości zbliżone do tradycyjnych hurtowni danych, zapoznanie z językiem HiveQL i przeprowadzenie warsztatów na danych klienta
  3. Paradygmat MapReduce – wprowadzenie do podstawowej koncepcji związanej z działaniem środowiska MapReduce, przeprowadzenie szkoleń z programowania w czystym API Javy jak i za pomącą technologii streamowania, która pozwala na wykorzystanie innych języków programowania np. bardzo popularnego w środowisku finansowym Pythonie
  4. PIG – zapoznanie z platformą analityczną PIG, sposobem pobierania danych z różnych źródeł, ich przetwarzania i eksportu/zapisu, tworzenie własnych fukcji. Ćwiczenia na danych.
  5. HBase – omówienie rozproszonej bazy kolumnowej, przykłady użycia pod kątem wyzwania przedstawionego przez klienta, zapoznanie z interakcją z innymi komponentami Hadoopa (Hive, PIG), nauka programowania paradygmatu MapReduce w HBase
  6. Spark – wprowadzenie do alternatywnego silnika przetwarzania równoległego – Spark. Omówienie jego komponentów, współdziałania z Hadoop-em, praktyczne zapoznanie z jego oprogramowywaniem  i różnymi trybami działania.
  7. Podsumowanie – zebranie wszystkich wiadomości przedstawionych na szkoleniu, przedstawienie przykładowego środowiska produkcyjnego, omówienie i przykłady przepływu danych wykorzystujące różne technologie, ogólne wprowadzenie do silnika indeksującego teksty – Solr.

Dzięki firmie BSSG poznaliśmy Hadoopa i skojarzone komponenty na tyle dokładnie, by wiedzieć czym są i czym nie są, by wyrobić sobie intuicję w rozumieniu, gdzie warto wykorzystywać poznane technologie. Rekomendujemy współpracę z firmą BSSG zarówno w zakresie szkoleń, jak i merytorycznych konsultacji.

Karol Przanowski
Head of Customer Intelligence
Sygma Bank


Więcej informacji o projektach związanych z technologiami Big Data

Zostaw nam swoje dane kontaktowe. Odezwiemy się do Ciebie tak szybko jak to możliwe i wspólnie opracujemy ofertę dostosowaną do Twoich potrzeb.