Tags: data streaming, Event grid, Azure, ADF, CDC
Profiel: Data enginneering, (web) software development
Traditioneel wordt een data warehouse eens per dag bijgewerkt. Near real-time data warehouses elimineren deze verversing beperking en werken de data bijna real-time bij. Eén van onze producten beschikt over een data warehouse dat iedere nacht wordt bijgewerkt. De applicatie en het datawarehouse draaien in Azure, waarbij de Azure Data Factory (cloud ETL service) het data warehouse (Azure Elastic Pool) vult en bijwerkt.
Het steeds opnieuw genereren van het datawarehouse blijft een langdurig proces dat beperkt schaalbaar is. Bovendien kijkt een gebruiker altijd naar data die een dag oud is.
Opdracht:
Onderzoek verschillende manieren om het datawarehouse real-time bij te werken. In plaats van een dagelijks ETL moet het mogelijk zijn om elke individuele datawijziging in de transactie database autonoom over te brengen in het sterschema. De oplossing dient schaalbaar te zijn, zodat we voorbereid zijn op grotere hoeveelheden data en gebruikers.
Geef een advies en werk op basis van de voorkeursoplossing een prototype uit voor het real-time bijwerken van het datawarehouse.
Sleutelwoorden/richtingen:
– SQL Change Tracking / Change Data Capture
– Azure Data Factory
– Event based architecture in Azure
– Real-time ETL
– Streaming ETL