De rol van domeinkennis in Data Science projecten

blog-header

Data Science heeft tot doel gegevens uit een bepaald domein te halen en tot een beschrijving of model op hoog niveau van deze gegevens te komen dat praktisch kan worden gebruikt om een ​​bepaalde uitdaging in dat domein op te lossen. Maar hoe belangrijk is domeinkennis om goed werk te kunnen leveren? Dat is de vraag die we in dit Blog proberen te beantwoorden.

Data Science

Alvorens aan een Data Science-project te beginnen, is het belangrijk om:

  1. het precieze domein te definiëren waarop moet worden gefocust
  2. de specifieke uitdaging te bepalen die moet worden opgelost
  3. de gegevens te verzamelen die moeten worden gebruikt
  4. de manier te bepakken waarop de antwoorden aan de gebruikers moeten worden aangeleverd

Alle vier deze aspecten zijn op zich geen Data Science, maar hebben een grote impact op zowel de Data Science als het de bruikbaarheid van de uitkomsten. Zoals weergegeven in onderstaand figuur kan een Data Science worden opgesplitst in vijf verschillende fasen:

Flow Data Science Domeinkennis (2)

  1. probleemformulering
  2. dataverzameling
  3. data voorbereiding
  4. modellering
  5. resultaatinterpretatie.

Stap voor stap wordt nu aangegeven hoe domeinkennis ons kan helpen bij het uitvoeren van de diverse fasen van het Data Science project.

1. Probleemformulering

Een nauwkeurige en precieze probleemdefinitie is van cruciaal belang voor het algehele succes van een Data Science project. Domeinkennis kan ons helpen deze precisie en nauwkeurigheid te bereiken. Als we bijvoorbeeld een aanbevelingssysteem voor een e-commerceplatform willen bouwen, moeten we begrijpen hoe gebruikers door online winkels bladeren. Zonder domeinkennis zouden we ons doel eenvoudig kunnen definiëren als "het bouwen van een goed aanbevelingssysteem dat de netto omzet verhoogt", wat niet precies genoeg is.

Een domeinexpert zou echter kunnen toevoegen dat we bij het evalueren van onze aanbevelingssystemen de toegenomen gebruikersinteresse die door aanbevelingen wordt gegenereerd, op de juiste wijze moeten interpreteren. Naast de aanbevelingen kunnen er andere redenen zijn voor de omzetstijging, zoals aankomende events of feestdagen waardoor het dus beter kan zijn om je te concentreren op de CTR (click-through rate) van de website.

2. Dataverzameling

Als we de juiste domeininzichten hebben, kunnen we de benodigde tijd voor dataverzameling reduceren omdat we specifieker kunnen zoeken. Ook kunnen op basis hiervan data van betere kwaliteit verzamelen. Een voorbeeld hiervan is het bouwen van een model om een bepaalde gezondheidsuitkomst te voorspellen, bijvoorbeeld of een patiënt gastro-intestinale bloedingen heeft of waarschijnlijk zal krijgen. De juiste expertise is hierbij van cruciaal belang omdat we moeten weten welke variabelen verband kunnen houden met de uitkomst, zodat we er zeker van kunnen zijn dat we de juiste gegevens verzamelen.

3. Datavoorbereiding en functiebepaling

Vervolgens is het cruciaal om onze gegevens te begrijpen binnen de context van het probleem dat we proberen op te lossen voordat we overgaan tot modellering. Domeinkennis kan ons helpen begrijpen hoe onze gegevens worden verzameld en welke de juiste methoden zijn voor het voorbereiden van de data voor interpretatie.

Met domeinkennis hebben we ook richtlijnen over welke functies nuttig kunnen zijn voor ons model. Stel dat we een regressiemodel willen bouwen om het BBP (bruto binnenlands product) van een land te voorspellen op basis van verschillende economische grootheden. Een direct probleem waarmee we worden geconfronteerd, is bepalen welke functies we in ons model willen opnemen. Sommige basishoeveelheden zoals "totale export goederen en diensten" en "totale import goederen en diensten" kunnen ons een relatief goed model geven. Maar met een beter begrip van de onderliggende economie, willen we misschien kenmerken op een hoger niveau berekenen, zoals "handelsopenheid" en "binnenlandse vraag per BBP".

4. Modellering

Hoewel modelselectie en -evaluatie normaal gesproken worden beschouwd als puur technische problemen die het meest geschikt zijn voor Data Scientists, kan domeinkennis ook bij deze stap onmisbaar zijn. Laten we als voorbeeld een voorspellende model voor een hartaanval nemen op basis van een elektrocardiogram (ECG) nemen: mensen hebben de neiging om de sequentiële aard van een ECG te bestuderen met behulp van bijvoorbeeld terugkerende neurale netwerken (RNN) of andere tijdreeksmodellen. Mensen met een klinische achtergrond weten echter dat artsen meer belang hechten aan lokale patronen in een ECG, omdat deze vaak meer informatie bevatten dan herhaalde patronen op de lange termijn.

5. Interpretatie van resultaten

Last but not least is domeinkennis ook erg nuttig voor ons om inzicht te krijgen in de prestaties van het model. We moeten immers weten of de resultaten van een Data Science project belangrijk of triviaal zijn. Significante coëfficiënten betekenen niet noodzakelijk dat de resultaten belangrijk zijn. Bij een zorgdataproject bivoorbeeld is vaak domeinkennis vereist tijdens de resultaatpresentatie en communicatie. Als medicijn A een positief effect heeft op de behandeling van ziekte B, kunnen alleen clinici de voordelen afwegen tegen de bijwerkingen om te bepalen of de behandeling gerechtvaardigd is.

Conclusie

Een succesvol Data Science project heeft relevante domeinkennis nodig in alle verschillende fasen van het project. Het is onredelijk te verwachten dat een Data Scientist met technologische en wiskundige vaardigheden ook nog eens de noodzakelijke diepgaande domeinkennis zal hebben. Succesvolle Data Science projecten zullen dan ook bestaan uit kleine teams, waarbij business domein experts met Data Scientist samenwerken om gezamenlijk waardevolle inzichten te kunnen creëren.

Meer weten?

Wil je meer weten over de waarde die Data Science je bedrijf kan bieden? Download dan de ‘Handleiding voor succesvolle Data Science projecten”. Daarin vertellen we je wat de factoren van een geslaagd Data Science project zijn, en in welke stappen je van een idee tot een goede oplossing komt.

CTA Handleiding voor succesvolle Data Science projecten