Hoe staat het met jouw data? Bruikbaar of soepzooitje?

25 augustus 2020
Hoe staat het met jouw data? Bruikbaar of soepzooitje?

Als organisaties aan de slag gaan met data, komen ze er vaak achter dat hun data vervuild is en dat het minder bruikbaar is dan in eerste instantie werd gedacht. De algemene aanname is dat data die wordt opgeslagen, klopt. Of dat in de praktijk ook zo is, vertelt Dony van Vliet, onze Data Scientist, in deze blog.

Onbekend

Als je data vastlegt in een systeem – laten we zeggen: de gegevens van een klant – moet je voor veel gegevens van die klant een optie kiezen uit een dropdownlijstje. Tenzij je zeker weet dat die data uit dat lijstje ook daadwerkelijk gebruikt wordt, ben je als gebruiker al snel geneigd de eerste optie te selecteren, of een nietszeggende optie als ‘overige’ of ‘onbekend’. Op het moment dat je dan aan de slag gaat met die data, worden daardoor de mogelijkheden tot data-analyse behoorlijk beperkt.

Investeren in datakwaliteit

Dat betekent dat wanneer je als organisatie met business intelligence begint, je ook moet investeren in je datakwaliteit. Je moet dan gaan bekijken wat er wel en niet goed wordt vastgelegd. Van de zaken die niet goed worden vastgelegd, moet je onderzoeken waarom dat zo is. Kan het misschien niet goed worden vastgelegd in het systeem? Of gebruiken mensen hun eigen lijstjes in bijvoorbeeld Excel? Zorg dat mensen de juiste prikkels krijgen om data goed en nauwkeurig vast te leggen in het systeem. Pas dan kun je instaan voor de kwaliteit van je data.

Het eeuwige nu

Een andere oorzaak van datavervuiling moet je zoeken in de hoek van historische data. Het gros van de systemen die in omloop zijn, leven in het eeuwige nu. Die leggen wel vast waar een klant nu woont, maar niet waar hij vorig jaar woonde. Of die registreren wel welke medewerkers er nu in dienst zijn en wat ze doen, maar niet welke functies ze in het verleden hebben gehad. Dergelijke systemen leggen wel allerlei informatie over entiteiten als klanten, medewerkers en prospects vast, maar koppelen daar niet een datum of een periode aan. Tegelijkertijd wil je bij het doen van een analyse vaak het resultaat vergelijken met dat van vorig jaar. En daar gaat het mis.

Datasoep

Een voorbeeld. Bij MostWare hebben wij een klantteam en een techteam. Als een medewerker doorgroeit van het klantteam naar het techteam, lijkt het net alsof alle tickets die die medewerker in het verleden bij het klantteam heeft behandeld, nu ook door het techteam zijn opgelost. Dat geeft een vertekend beeld, en maakt het moeilijk om bepaalde gegevens te vergelijken met die van vorig jaar. En die historie is nou juist heel belangrijk om trends te kunnen herkennen of om groei of krimp te kunnen constateren. Wil je weten of een team vorig jaar in juni meer tickets heeft behandeld dan in juni van dit jaar, dan moet je wel betrouwbare gegevens hebben van juni van het vorige jaar. Je hebt dan als het ware te maken met datasoep. Net als bij de plasticsoep lijkt het er aan de oppervlakte allemaal keurig uit te zien. Maar onder water zit de verborgen vervuiling.

Langzaam opschroeven

Dit probleem doet zich vooral voor als je net begint met business intelligence. Als je daar eenmaal mee bezig bent, zie je de waarde van betrouwbare data direct terug in je rapporten en dashboards en ga je vanzelf je data beter onderhouden waardoor je gaandeweg de kwaliteit opschroeft. Het is daarbij natuurlijk van groot belang ook je medewerkers hiervan te doordringen. Kijk ook kritisch naar je systemen. Besef dat je historische data zelf op moet slaan en ga er niet zomaar vanuit dat je systemen dat wel doen. Dat is namelijk meestal niet het geval. En totdat je datakwaliteit is opgeschroefd, moet je voorzichtig zijn met het interpreteren van trends. Zo weten wij bij MostWare inmiddels dat als het lijkt dat het techteam het nu rustiger heeft dan vorig jaar, dat mogelijk mede wordt veroorzaakt door het feit dat de personeelswisselingen niet meegenomen zijn.

Goed nieuws

Gelukkig is er ook goed nieuws. Meestal kun je ervan uitgaan dat de gegevens die direct van belang zijn voor je primaire processen, wel kloppen. Data om die processen in je bedrijf te sturen is zo essentieel, dat die in bijna alle gevallen correct is. Als je begint met business intelligence, begin dan ook met de analyse van de primaire processen binnen je bedrijf. De meeste organisaties roepen dan: maar daar weten we alles al van! Juist bij dat soort onderzoeken blijkt dat de bekende onderbuikgevoelens lang niet altijd kloppen en dat de data andere dingen laat zien. Richt je in eerste instantie op je primaire proces. Kijk eerst eens wat je daar nog kunt verbeteren in plaats van direct willen kijken naar hoe je je marktaandeel kunt vergroten. Dat laatste klinkt natuurlijk heel aanlokkelijk, maar zorg liever eerst dat je over genoeg kwalitatief goede data beschikt om de juiste analyses te maken. Vanuit het perspectief van datakwaliteit is ons advies: kijk eerst naar binnen voor je naar buiten gaat kijken. Op die manier kun je ook je eigen collega’s makkelijk betrekken bij het gebruik van hun eigen data, en de kwaliteit van die data. Kijk eerst wat je in je eigen organisatie kunt verbeteren, bouw een kwalitatief goede datahistorie op, en ga dan pas naar buiten toe allerlei spannende dingen met data doen.

Zin in een data-date?

Ben je geïnspireerd? Die inspiratie werken we graag samen met je uit op een data-date. Ga bij jezelf eens te rade welke databronnen je hebt en welke vragen je daaraan zou willen stellen, welke antwoorden je in die bronnen hoopt te vinden, en wat de datakwaliteit is van die bronnen. Heb je daar een beeld bij? Regel dan een data-date met een van onze mensen. Vraag hier je intakegesprek aan.