Steeds meer bedrijven passen Data Science of Machine Learning (ML) toe om voorspellingen en verwachtingen te kunnen maken op basis van hun data. Dit doen ze om sneller te kunnen reageren op mogelijke veranderingen die van invloed zijn op hun bedrijfsprocessen, hun onderscheidend vermogen in de markt of het automatiseren van beslissingen. Enkele (bekende) voorbeelden zijn:
Veel organisaties hebben de afgelopen jaren geïnvesteerd om kennis en expertise op te bouwen op het gebied van data analyse en Data Science. Vaak is dit versnipperd binnen de organisatie. Als er successen worden geboekt, dan blijkt het vaak dat het operationaliseren van de oplossing in het IT-landschap complex is, dit niet integreert en daardoor stagneert of het blijft bij Data Scientists die hun prototypes zelf in de lucht houden.
De laatste jaren zijn voor dit probleem heel veel (deel)oplossingen op de markt gekomen en hierdoor wordt het steeds lastiger door de bomen het bos te zien.
In dit blog bespreek ik de 5 best practices voor het succesvol operationaliseren van Data Science projecten, die ook wel onder de noemer van MLOp worden gevat.
Data Science is vaak gescheiden van de IT organisatie en de IT teams die een data platform bouwen en onderhouden. Vaak wordt een voorspellende model "over de schutting geworpen" richting IT als het geoperationaliseerd moet worden. Als de afstand tussen de Data Scientist en de ML of Data engineers te groot is, leidt dit tot onbegrip, lange trajecten, veel herbouw. Hybride DevOps teams, waarin de verschillende expertises dichtbij elkaar zitten en aan dezelfde analytics producten werken, zorgen ervoor dat men vanuit innovatie snel tot operationalisatie komt.
De waarde van de voorspellende modellen is om betere, geautomatiseerdere beslissingen te kunnen nemen. De business die met deze modellen werkt, moet kunnen en durven vertrouwen op de uitkomsten. Meestal is er weerstand of onbegrip die het vertrouwen ondermijnen. Neem daarom de eindgebruikers vroegtijdig mee in de ontwikkeling van die modellen, en laat ze met de resultaten werken, bijvoorbeeld in de schaduw van hun huidig proces. Hiermee krijgen ze voldoende tijd voor adoptie.
Neem ook hun feedback mee met betrekking tot de bruikbaarheid van de resultaten om hiermee de kwaliteit van het model te verbeteren. Het ultieme doel is om een continue feedback mechanisme te integreren, zodat de modellen door gebruik in de tijd beter en accurater gemaakt kunnen worden.
De accuraatheid van een model valt of staat met de kwaliteit van de data. In een productie situatie kan er van alles voorbij komen (geen data, ontbrekende data , foute data, etc). Bij het operationalieseren moet het model dusdanig robuust worden gemaakt dat het hiermee om kan gaan.
Als gebruiker wil je ook inzicht hierin hebben. Daarom is integrale monitoring van essentieel belang. Enkele aspecten :
Het is niet noodzakelijk om eerst een dataplatform te realiseren, voordat je kunt operationaliseren. Als meer modellen worden geoperationaliseerd, is een dataplatform wel een essentieel onderdeel om te kunnen schalen. Tegenwoordig hebben de meeste organisaties al een dataplatform in een verschillende staat van volwassenheid. Het is belangrijk om de groeistrategie van het dataplatform af te stemmen op de Data Science innovaties die op de rol staan om geoperationaliseerd te worden.
Een hedendaags dataplatform gericht op het operationaliseren van Data Science bevat de volgende 5 kern-functionaliteiten:
De realisatie van een dataplatform kan door aanschaf van één integrale ‘gesloten' oplossing, het afnemen van cloudprovider services, of door verschillende open source componenten aan elkaar te koppelen. Voor de laatste optie steeds meer oplossingen beschikbaar die de best-of-breed open source technologieën combineren.
Vanuit de DevOps principes overgenomen en ter bevordering van onderhoudbaarheid , reproductie, fout reductie en schaalbaarheid is het van belang zoveel mogelijk te automatiseren. Dit kan in een iteratief proces waarin steeds meer stappen uit de keten worden ge-automatiseerd. Hierdoor kan het model in een vroeg stadium al worden gebruikt en zijn waarde leveren, ondanks handmatige stappen, terwijl gaandeweg steeds meer wordt geautomatiseerd om de ‘OPS’ kwaliteit en performance te verbeteren. De tools uit de DevOps hoek zijn ook inzetbaar om Data Science workflows te automatiseren.
MLOps wint de laatste jaren steeds meer aan populariteit. In eerste helft van 2021 zijn al miljoenen geïnvesteerd in verschillende MLOps bedrijven.
Wil je meer weten over de waarde die Data Science je bedrijf kan bieden? Download dan de ‘Handleiding voor succesvolle Data Science projecten”. Daarin vertellen we je wat de factoren van een geslaagd Data Science project zijn en in welke stappen je van een idee tot een goede oplossing komt.