Hoe krijg je Data Scientists en ML Engineers op één lijn?

blog-header

In het langzame proces van het ontwikkelen van Machine Learning-modellen moeten Data Scientists en ML Engineers samenwerken, maar de praktijk leert dat ze vaak, onbewust, met tegengestelde doelstellingen werken.

Hoe belachelijk het misschien ook klinkt, het komt in de markt voor dat het maanden duurt om een Machine Learning model in productie te nemen omdat de Data Scientists wachten op de ML Engineers om productiesystemen te bouwen die bij het model passen, terwijl de ML Engineers wachten tot de Data Scientists een model bouwen dat werkt met de productiesystemen.

Achtergrond

Negen van de tien van de Machine Learning-projecten haalt de productiefase niet, en een combinatie van zorgen over data en gebrek aan samenwerking zijn de primaire factoren. Data Scientists en ML Engineers zijn altijd al een beetje als water en vuur geweest.

De ML Engineers zijn belast met bouwen, bedienen en onderhouden van systemen, dus richten ze zich op de eenvoudigste, meest efficiënte en betrouwbare systemen die mogelijk zijn. Aan de andere kant hebben Data Scientist de taak om alles te doen wat nodig is om de meest nauwkeurige modellen te bouwen, dus ze willen toegang tot alle gegevens en ze willen deze op unieke, geavanceerde manieren kunnen manipuleren.

Aan de samenwerkingskant kan de spanning tussen ML Engineers en Data Scientists - en de wijze waarop ze samenwerken - leiden tot onnodige frustratie en vertragingen. Hoewel teambuilding en het opbouwen van empathie deze spanningen kunnen verlichten, kan het gebruik van een aantal ontwikkelende MLOps-technologieën helpen om problemen bij de oorzaak te verminderen.

MLops

MLOps is een opkomend gebied dat de ideeën en principes van DevOps-praktijken toepast op het ecosysteem van Data Science en Machine Learning. Het verlicht de last van het bouwen en onderhouden van ML Engineers en biedt tegelijkertijd flexibiliteit en vrijheid voor Data Scientists. Dit is een win-win-oplossing. Laten we eens kijken naar enkele veelvoorkomende problemen en de wijze om ze effectief op te lossen.

Modelorkestratie

De eerste grote hindernis wanneer je probeert een model in productie te nemen, is de implementatie: waar moet je het bouwen, host je het en hoe beheer je het. Dit is grotendeels een technisch probleem, en valt binnen een team van Data Scientists en Data Engineers meestal onder de verantwoordelijkheid van laatstgenoemden. Het bouwen van dit systeem kost weken, zo niet maanden - tijd die de Data Scientist of ML-engineers hadden kunnen besteden aan het verbeteren van datastromen of het verbeteren van modellen.

Modelorkestratieplatforms standaardiseren deze modelimplementaties door specifieke frameworks, en helpen deze stap aanzienlijk eenvoudiger te maken. Er zijn ook open source-systemen die dit proces aan kunnen, zoals MLFlow en KubeFlow. Beide systemen gebruiken containerisatie om de infrastructuurkant van modelimplementatie te helpen beheren.

Feature stores

De tweede grote hindernis om een ​​model van het laboratorium naar productie te brengen, ligt bij de data. Vaak worden modellen getraind met behulp van historische gegevens die zich in een datawarehouse bevinden, maar worden opgevraagd met gegevens uit een productiedatabase. De verschillen tussen deze systemen zorgen ervoor dat modellen slecht of helemaal niet presteren, en vereisen vaak veel extra data-engineeringwerk om dingen opnieuw te implementeren in de productiedatabase. Het komt voor dat Data Scientists weken besteden aan het uitbouwen van prototypen van indrukwekkende functies, die vervolgens nooit in productie zijn genomen omdat de ML Engineers niet de bandbreedte hadden om ze te implementeren.

Feature stores, of datastores die speciaal zijn gebouwd om de training en productie van Machine Learning-modellen te ondersteunen, proberen dit probleem te verminderen door ervoor te zorgen dat de data en functies die in het lab zijn gebouwd, onmiddellijk klaar zijn voor productie. Data Scientists hebben de gemoedsrust dat hun modellen worden gebouwd, en ML Engineers hoeven zich geen zorgen te maken over het perfect op één lijn houden van twee verschillende systemen.

DataOps

Er is geen ergere ervaring dan 's avonds laat opgepiept worden omdat je model zich vreemd gedraagt. Na een korte controle van de modelservice kom je tot de onvermijdelijke conclusie: er is iets veranderd met de gegevens. Het vinden van het probleem is dan als het zoeken naar een speld in een hooiberg. Gelukkig komen er nieuwe frameworks en tools die monitoring en testen voor data en databronnen opzetten en waardevolle tijd kunnen besparen.

Conclusie

Door tools te gebruiken om die complexiteit van bepaalde vragen te verminderen wordt de kloof tussen Data Scientist en ML Engineers kleiner, en het vertrouwen en empathie groter. Beide teams kunnen zich concentreren op de dingen die hen verenigen: een toewijding aan tijdige, hoogwaardige informatie en goed ontworpen systemen.

Meer weten?

Wil je meer weten over de waarde die Data Science je bedrijf kan bieden? Download dan de ‘Handleiding voor succesvolle Data Science projecten”. Daarin vertellen we je wat de factoren van een geslaagd Data Science project zijn, en in welke stappen je van een idee tot een goede oplossing komt.

CTA Handleiding voor succesvolle Data Science projecten