Menu Zamknij

Kategoria: Chmura

Czy już nadszedł odpowiedni moment, żeby pomyśleć o BigQuery? Z historią w tle! [Podcast]

Czy wiesz, że dzięki BigQuery można zbudować małą hurtownię danych zupełnie za darmo? Czy wyobrażasz sobie wykorzystanie BigQuery w małej rodzinnej firmie, która produkuje dania obiadowe i kanapki?

Ten odcinek się trochę różni się od pozostałych, ponieważ Marcin opowiada w nim o BigQuery, ale z nieco innej perspektywy niż możesz się spodziewać.

BigQuery na pewno kojarzy się z przetwarzaniem ogromnych ilości danych, w petabajtowej skali, czyli klasyczne Big Data. I to wszystko się zgadza, jednak nie jest to cała prawda o BigQuery.

Spojrzymy na to trochę od strony biznesowej, trochę z perspektywy architekta rozwiązań, który może zbudować całkiem potężny system zarządzający procesami w przedsiębiorstwie, którego model działania nie może wykorzystać istniejących rozwiązań. A wszystko to w błyskawicznym tempie i niskim kosztem, wykorzystując w większości gotowe narzędzia.

W odcinku dowiesz się, czym różni się BigQuery od innych narzędzi Big Data, takich jak np. Hadoop oraz o tym, kiedy można czerpać największe korzyści z usług typu serverless, bo nie do końca prawdą jest, że serverless sprawdza się najlepiej w dużej skali.

A wszystko to będzie poparte realnym przykładem z życia wziętym, w którym koszty infrastruktury systemów informatycznych dla małego przedsiębiorstwa mieściły się w kwocie 5 zł miesięcznie. Tak, nie ma tu pomyłki, słownie pięć złotych miesięcznie, a konkretnie około 1$.

Kimball, Inmon czy Linstedt – rozmowa o hurtowniach danych [Podcast]

Dzisiejszy temat trochę w innej (zupełnie dla mnie nowej!) formie. Tym razem nie będzie długiego artykułu. Zamiast tego zapraszam Cię do wysłuchania podcastu Marcina Siudzińskiego: Od Danych Do Danych, którego byłem gościem.

Poniżej w artykule znajdziesz więcej informacji jak i dodatkowe materiały. A samego nagrania możesz posłuchać tutaj:

Inmon, Kimball a może Linstedt (Data Vault)?

Rozmawialiśmy o różnych koncepcjach związanych z hurtowniami danych. Oczywiście pojawił się Kimball oraz Inmona. Nie mogło również zabraknąć również Data Vaulta.

Starałem się temat ująć tak, abyś jak najlepiej zrozumiał(a) różnice pomiędzy tymi podejściami. Oczywiście temat jest znacznie głębszy i był to jedynie wierzchołek góry lodowej.

Pojawił się również kontekst dużych danych oraz nowoczesnych hurtowni danych w chmurze.

Certyfikacja z Google Cloud? To żaden problem! [Wideo]

Ostatnimi czasy temat certyfikacji jest bardzo często poruszany. Zwłaszcza chmurowych. A biorąc pod uwagę ostatnie newsy związane z centrum danych Google w Polsce, to certyfikacja GCP jest naprawdę “gorącym” tematem.

Jeżeli się tym interesujesz, to idealnie się składa! 🙂 Mam coś, co może Ci pomóc.

Zapraszam Cię do poznania się z krótką recenzją spotkania grupy GDG Cloud Poznań, na którym miałem okazję dzielić się doświadczeniem i prezentować swoje przemyślenia w kwestii certyfikacji.

Bardzo wartościowym elementem spotkania był panel dyskusyjny z ekspertami z branży. Samo spotkanie składało się z kilku części:

  1. Wprowadzenie
  2. Moja prezentacja dotycząca certyfikatów [6:15]
  3. Przedstawienie ścieżek certyfikacyjnych Google – [22:50]
  4. Panel dyskusyjny [41:00]

ETL vs. ELT – różne podejścia do procesowania danych (OZDB #6)

W poprzednich artykułach z serii Od Zera Do Bohatera omówiłem różnego rodzaju pliki, z którymi możesz się spotkać oraz sposoby przechowywania danych nie tylko ustrukturyzowanych. W ostatnim z kolei opowiedzieliśmy sobie o nowoczesnych podejściach do projektowania systemu opartego o dane.

Do pełnego (wysokopoziomowego) obrazu brakuje nam jeszcze elementu odpowiadającego za przerzucanie danych z jednego miejsca do drugiego. I tu pojawiają się dwa podejścia – ETL vs. ELT.

Te idee nie są szczególnie nowe i już kiedyś o nich pisałem:

ETL vs. ELT, czyli różne podejścia do zasilenia hurtowni i repozytoriów danych

Powyższy tekst ma już kilka lat, ale zerknij do niego jeżeli jesteś ciekaw, jak te dwa podejścia można zastosować w samych relacyjnych bazach danych.

Ten artykuł traktuję jako wersję 2.0. Temat odświeżam tak, aby uwzględnić kontekst chmurowy. Ale zacznijmy pokrótce od podstaw.

Mieliśmy hurtownie, mieliśmy Data Lake. Czy teraz czas na Lakehouse? (OZDB #5)

Modern data warehouse a może lakehouse?

Czy Data Lake + Data Warehouse = Lakehouse? Czy będziemy używać podejścia Modern Data Warehouse?

Chciałbym przeprowadzić Cię przez dostępne koncepcje i zastanowić się jak będzie wyglądała przyszłość.

W ostatnim wpisie z serii Od Zera Do Bohatera przyjrzeliśmy się możliwością przechowywania danych nie tylko relacyjnych. Skupiliśmy się na poszczególnych produktach lub usługach. Natomiast, gdy budujemy system przetwarzający dane, to te wszystkie elementy składają się w pewną całość. Dzięki czemu potrafimy nad danymi zapanować.

Wiele z tych koncepcji ma już swoje lata. Napisano na ten temat mnóstwo artykułów i książek. Nie ma sensu odkrywać koła na nowo. Pozwól, że po prostu przeprowadzę Cię przez świat możliwości wraz z linkami do szczegółów.

Ale zacznijmy od początku. Na początku była… baza danych, ale ten etap przeskoczmy i skupmy się na analitycznych rozwiązaniach. Następna była:

Jak przechowywać dane (nie tylko) relacyjne? Na przykładzie Google Cloud Platform (OZDB #4)

Dane ustrukturyzowane czy nie? Relacyjne czy nie? Duże lub małe? Silna spójność w danych (ang. strong consistency) czy ostateczna (ang. eventual consistency)?

Sporo tego, prawda? W tym artykule rozwieję trochę wątpliwości. Myślę, że jak to omówimy, to w połączeniu z rozumieniem typów plików (przybliżonych w poprzednim wpisie), będzie Ci łatwiej poruszać się w świecie przetwarzania danych.

Temat różnych typów danych poruszyłem już we wpisie omawiających 7 pytań, które musisz zadać, projektując system przetwarzający dane. Jeżeli go nie znasz, to mocno zachęcam, aby spojrzeć na niego w pierwszej kolejności. Dzisiejszy artykuł jest jego rozwinięciem.

Z racji, że aktualnie najbardziej na czasie są technologie chmurowe, a mi z kolei najbliżej do Google Cloud Platform, to na tym rozwiązaniu się głównie skupimy, od strony narzędziowo-praktycznej. Większość z wymienionych tu usług odwiedzimy jeszcze osobno, aby dokładniej się im przyjrzeć, ale teraz chciałbym Ci te rozwiązania przedstawić z “lotu ptaka”. Umożliwi Ci to poznanie możliwości, które mamy w naszej palecie.

5 typów plików, z którymi spotkasz się pracując z danymi (OZDB #3)

W ostatnim wpisie serii Od Zera Do Bohatera omówiliśmy sobie jak podejść do tworzenia systemów przetwarzania danych. Wspomniałem tam, że przybliżę Ci różne źródła danych.

W tym wpisie skupmy się na plikach, bo bardzo często korzysta się z nich przy dostarczaniu danych, a wielokrotnie napotykałem przeróżne problemy z plikami, w których dostarczane są dane. Zarówno takie, które powodowały błędy podczas procesowania danych, jak po prostu schemat dostarczony wraz z plikami, kompletnie nie pomagał, aby dane zrozumieć.

Wyobraź sobie, że mamy taki diagram (model logiczny), który ma na celu zobrazować dane, które przetwarzamy:

Model logiczny

Wynika z niego, że mamy tabelę KLIENT, która przechowuje klientów z ich podstawowymi danymi i tabelę ADRES, która przechowuje adresy. Nie chciałbym wchodzić w analizę danych relacyjnych, ale na potrzeby tych przykładów zwróćmy uwagę, że jeden klient może mieć wiele adresów, a jeden adres w systemie może być przypisane jedynie do danego klienta. Nawet gdy mamy dwóch klientów pod tym samym adresem (np. małżeństwo), to adres występuje dwa razy i jest przypisany do dwóch różnych klientów.

O chmurze w biznesie (i nie tylko) z Krzysztofem Zalasą z Google

Krzysztof Zalasa - wywiad

W tym wpisie znajdziesz nie lada gratkę – wywiad z Krzysztofem Zalasą z Google 🙂 Krzysiek z zamiłowania jak i wykonywanej pracy bardzo dużo pracuje z technologiami chmurowymi. Dzięki temu możesz przeczytać o doświadczeniach osoby, która długo siedzi w branży oraz posiada dużo historii “z placu boju”.

Z tego wywiadu dowiesz się między innymi:

  • Jak Krzysiek zaczynał w IT.
  • Dlaczego warto zainteresować się technologiami chmurowymi.
  • Do czego potrzebne są kanistry w IT 🙂
  • Jak rozwija się chmura na świecie i w Polsce.
  • Co zdaniem Krzyśka przyniesie rok 2021.
  • Kto powinien korzystać z rozwiązań multicloud, a dla kogo przywiązanie do jednego dostawcy nie musi być niebezpieczne.

7 największych dostawców technologii chmurowych na świecie

We wcześniejszych wpisach oraz dokumencie wprowadzającym do chmury kilkukrotnie pojawiały się nazwy takich produktów jak Amazon Web Services (AWS), Google Cloud Platform (GCP) oraz Microsoft Azure.

Zdecydowanie te firmy można uznać za czołowych graczy. Ale czy tylko? Chciałbym pokazać Ci, że świat chmur jest trochę większy i zaprezentować wybraną przez siebie listę TOP 7 firm, które pojawiają się na tym rynku.

Wszystkie rozwiązania (poza jednym, ale o tym dalej) są bardzo zbliżone do siebie jeżeli chodzi o podstawowe komponenty. Na każdej chmurze utworzymy np. maszynę wirtualną, bazę danych, skorzystamy z konteneryzacji i całość połączymy siecią wirtualną.

Jednak pomiędzy trzema wymienionymi powyżej a całą resztą dość łatwo znaleźć różnice, które sprawiają, że akurat te, a nie inne wiodą prym. Sprawa się komplikuje jeżeli chcemy porównać trzech głównych graczy. Często jest tak, że porównanie ich pod względem konkretnych funkcji, wydajności i możliwości kończy się tzw. flame war, a wtedy nikt już nie bierze jeńców 🙂

22 zagadnienia, które pomogą Ci zrozumieć technologie chmurowe

Korzystasz z Google Drive, Dropbox, a może OneDrive? Super! To technicznie rzecz ujmując, korzystasz z bardzo modnej technologii, czyli chmury obliczeniowej (ang. Cloud Computing). A może korzystasz z więcej niż jednego rozwiązania? Jeżeli tak, to już jesteś na bieżąco z trendami w branży, ponieważ model Multicloud, gdzie korzystamy z więcej niż jednej chmury, zyskuje na popularności. Oczywiście w praktyce jest to trochę bardziej skomplikowane. Ale tylko trochę 🙂

O co chodzi z tą całą chmurą?

Kojarzysz pomysł samochodów, rowerów lub hulajnóg na minuty? Jeżeli tak to właśnie wyjaśniliśmy sobie główną ideę chmury 🙂 Dla osób, które nie miały okazji z takich usług korzystać, to krótkie wyjaśnienie. W większych miastach firmy udostępniają samochody, rowery, hulajnogi, które można wynająć za pomocą smartfona. Płacimy jedynie za wykorzystany czas i/lub kilometry (dodatkowo czasem pojawia się opłata początkowa).

Podobnie jest z chmurą publiczną, tylko zamiast pojazdów masz elementy systemu IT, takie jak infrastruktura, oprogramowanie, a nawet usługi. Idea polega na tym, abyś Ty, Twoja firma, Twój klient, nie musieli w to inwestować. Zamiast tego wszystko jest dostępne w jednym miejscu, a Ty płacisz jedynie za to co zużyłeś. Brzmi ciekawie, prawda?