Datová architektura

Lekce: 7/13
Začátek: 25. 2. 2023
Podrobný program

Tomáš Kumsta

Tomáš se dlouhodobě zaměřuje na datovou analytiku napojenou především na online byznys. Profesní zkušenosti nabíral hlavně v Medio Interactive (RIP) a Seznam.cz.
Momentálně působí v Livesportu, kde se aktivně věnuje velkým datům a rozjezdu sportovního zpravodajství. To ho zavedlo do hlubin GA4 360 a BigQuery. Doufá, že se vynoří a zůstane příčetný, aby mohl dál na workshopech předávat své zkušenosti.

Václav Ráš

Vašek pracuje s daty především na databázové úrovni. Baví ho jak datová čistota a automatizované datové transformace v BigQuery, tak složitější analýzy v Pythonu.
Využívá zkušeností, které nabral ve velkých korporátech, jako jsou O2, Creditas či Česká televize, ale i u menších startupů, jako je například Qerko.

Podrobný program

práce a skladování dat v BigQuery
users in BQ (security,..)
obnova dat (smazané / změněné tabulky)
lokace dataset (US / EU) – rozdíl v ceně, rychlosti, nekompatibilitě, ale i ve funkcích
data transfery (lokace)
transformace dat
typy tabulek/views a jejich využití v praxi
výběry dat dle použití
rozdělení dat na menší celky podle eventů a platforem – odlišné zpracování, napojení a práce
metrika „Users” in BQ
HyperLogLog++ (HLL++) – inkrementální zpracování distinctových dat
jak ji používat
nevýhody pro současný reporting
příklady dalších distinct metrik
agregace
různé úrovně agregací
předpřipravení a omezení úrovně agregací – vhodné především pro unikátní (a jiné nesoučtové) metriky
scheduled queries přímo v BQ / mimo BQ (Dataform, DBT)
scheduled queries a jejich využití i nevýhody
Dataform – současná podoba, ukázka bety (zřejmě nepraktická)
obohacování dat (propojování s mimo webovými daty)
Práce s dataset / G Ads transferem
napojení – pomalu se měnící dimenze v čase
Částečně součást předchozího tématu
CRM
mediální data (Ads dataset)
CDP
verzování (GIT / Dataform / DBT) - optional
proč verzovat
základní plusy a mínusy

Další lekce

Máš otázku?

Napiš si o odpověď Adamovi