Het succes van een Data Scientist hangt af van de kwaliteit van de data waartoe hij of zij toegang heeft. De meeste bedrijven slaan hun gegevens op in allerlei verschillende formaten en data stores.
Hier is een belangrijke rol weggelegd voor de Data Engineers. Zij ontwikkelen zogenaamde data pipelines: interfaces en mechanismen voor de uitwisseling van, en toegang tot data, veelal gebruik makend van API’s. De data kan al dan niet getransformeerd worden, en wordt vaak real time (via streaming) verwerkt in plaats van in batches.
Stel je vraag aan Eric