Způsob pro vyhodnocení povahy změny dat. To je věta co :-D.
Cílem je stáhnout data ze zdroje, ale ne formou full extraktu, ale delty. Hodí se zejména tam jde je hodně zdrojových dat a trvalo by věčně dostat je všechny do landing/stage. CDC je způsob identifikace, stažení a doručení delty z dat zdroje. Jde vlastně o formu ETL.
Identifikace změněných dat na zdroji může být provedena různými způsoby a všechny závisí na tom jak je zdroj designovaný.
Zdrojová tabulka na úrovni řádku obsahuje:
– timestamp se značkou kdy byla data přidána/změněna (stáhneme data co se změnila od)
– označení verze záznamu (stáhneme data, která mají verzi)
– status záznamu (označení, že proběhla změna a data se mají stáhnout)
Identifikace nemusí probíhat na úrovni dat, ale je možné využít metadata, která se zpracováním dat souvisí:
– triggery = v datové tabulce zdroje je nastaven trigger na insert/update/delete, který uloží tato změnová metadata do řídící tabulky, kterou se řídí stahování dat ze zdroje
– hrabaní v transakčních lozích (to už je trošku hardcore)
Výhody:
– rychlost zpracování (lepší je stahovat část než celek)
– je možné rovnou identifikovat nová/změněna/smazaná data (pokud vám to zdroj dovolí)
– atd. 🙂