De sterk in opmars zijnde Data Lakes worden meestal gedefinieerd als grote opslagplaatsen van gegevens, opgeslagen in hun oorspronkelijke formaat en gehost op standaard hardware. Hun aantrekkingskracht ten opzichte van traditionele Datawarehouses ligt in het vermogen om snel grote hoeveelheden ongefilterde data te verzamelen en goedkoop op te slaan. De uitdaging ligt echter in het kunnen harmoniseren van alle data en deze beschikbaar stellen aan zakelijke gebruikers. Dit proces is arbeidsintensief en vereist geschoolde Data Science en IT-personeel.
Hieronder volgen 5 belangrijke factoren die essentieel zijn om een Data Lake project daadwerkelijk toegankelijk en bruikbaar te maken voor zakelijke gebruikers:
Er moet een standaard manier zijn om bedrijfsdata te transformeren en te harmoniseren, ongeacht de bron (gestructureerd of ongestructureerd) of afkomst (binnen of buiten de onderneming). Een voorbeeld hiervan is het op basis van een semantisch model omzetten van gegevens van alle formaten, gestructureerd en ongestructureerd, in een zogenaamd RDF/XML-formaat. De onderliggende schaalbare servers passen zich daarbij automatisch aan de hoeveelheid binnenkomende data.
Een semantisch datamodel kan eenvoudig de "betekenis" van gegevens in een data lake vastleggen en leveren met alle inherente relaties en attributen. De gegevens worden precies opgeslagen op de manier waarop ze zijn gemodelleerd, en op de wijze waarop zakelijke gebruikers denken, waardoor er relatief makkelijk vragen kunnen worden gesteld en nieuwe hypothesen onderzocht. In de datawarehouse wereld zou een dergelijk model worden vertaald naar een relationeel logisch model met indexen om sets van bekende of verwachte vragen te optimaliseren. Het bevragen van een dergelijk model vereist vertaling naar SQL queries, hetgeen voor veel zakelijke gebruikers een brug te ver is.
Er moeten selfservice-mogelijkheden bestaan voor zakelijke gebruikers om naar voor hen relevante data sets te kunnen zoeken, ze te kunnen combineren en er in te kunnen browsen. Zakelijke gebruikers moeten zelf visualisatie-dashboards kunnen configureren voor het verkrijgen waardevolle inzichten uit data analyse.
Er moeten goede tools zijn voor voor ad-hoc data discovery en analytics. Een state of the art query-engine moet zakelijke gebruikers in staat stellen om snel en zonder support van IT, antwoorden te krijgen op gestelde vragen, zelfs als deze van tevoren niet voorzien waren
“Gedemocratiseerde” big data, het in staat stellen van meerdere gebruikers om gegevens te kunnen ontdekken en analyseren, vereist een zorgvuldig programma van flexibiliteit en hergebruik van data, gecombineerd met een goede controle om databeveiliging, data lineage en data context te kunnen waarborgen.
Er komen in toenemende mate slimme tools beschikbaar die het mogelijk maken om diverse data, gestructureerd en ongestructureerd, op big data-schaal semantisch te koppelen, analyseren en beheren en beschikbaar te maken voor selfserviceconsumptie door zakelijke gebruikers.
Wil je meer weten over de waarde die Data Science je bedrijf kan bieden? Download dan de klantcase, en lees hoe Agentschap Telecom Data Science technieken inzet om de hoge directe herstelkosten van graafschade te reduceren.
Wil je meer weten over de waarde die Data Science je bedrijf kan bieden? Download dan de klantcase, en lees hoe Agentschap Telecom Data Science technieken inzet om de hoge directe herstelkosten van graafschade te reduceren.