Hoe controleer je de betrouwbaarheid van data?

5 min leestijd

Het verkeer, werkomstandigheden, ons voedsel: alles is voor onze veiligheid en gezondheid gereguleerd en staat onder streng toezicht. Hoe zit dat met data, nu veel beslissingen op basis van big data en data-analyses worden genomen? In veel gevallen staat allerminst vast of de data van voldoende kwaliteit is en we daar blindelings op kunnen vertrouwen. Tijd voor nieuwe inzichten. TNO pakt de handschoen op.

“Het is de hoogste tijd om dit onderwerp stevig op de maatschappelijke agenda te zetten”, zegt data-expert Freek Bomhof van TNO. “We zijn al met grote partijen als het CBS en normalisatie-instituut NEN in gesprek om inzichten en ervaringen te delen. We zouden het toejuichen als andere grote dataverwerkers, bij overheden en in het bedrijfsleven zich hierbij aansluiten. Het onderwerp betrouwbaarheid van dataverwerking is te belangrijk om te laten liggen.” Volgens TNO zou een data-analyse-autoriteit een optie kunnen zijn. Zoals de ‘Autoriteit Consument en Markt’ consumentenbelangen beschermt of de ‘Autoriteit Persoonsgegevens’ over onze privacy waakt, kan een vergelijkbare instantie toezien op de kwaliteit en betrouwbaarheid van data. “Als we ons als samenleving zo afhankelijk maken van data, moeten we daar serieus en gestructureerd naar kijken.”

“Als we ons als samenleving zo afhankelijk maken van data, moeten we daar serieus en gestructureerd naar kijken”

Aandacht voor de kwaliteit van data

TNO is enkele jaren geleden al het programma ‘Making sense of big data’ gestart. Doel was waarde creëren door gegevens uit verschillende bronnen te combineren en te verrijken. Daarbij was en is er aandacht voor technische zaken als standaarden, protocollen en systemen om gegevens correct te kunnen uitwisselen, maar ook voor de kwaliteit van de data. Verkeerde data-analyses kunnen immers leiden tot foutieve beslissingen met grote gevolgen. Het eerste dodelijke ongeluk met een zelfrijdende Tesla kan hier als voorbeeld dienen. Bomhof noemt nog een ander voorbeeld uit de VS waarbij wetenschappers aan de hand van big data accurate voorspellingen dachten te kunnen doen. Google Flu Trends beloofde op basis van geraadpleegde zoektermen nauwkeurig te kunnen voorspellen waar en wanneer zich in een groot aantal landen een griepepidemie zou aandienen. Aanvankelijk leek het model te werken, maar uiteindelijk bleken de cijfers sterk af te wijken van de werkelijkheid.

“Een heel klein foutje aan het begin van de datapijplijn kan gaandeweg tot totaal verkeerde uitkomsten leiden. Daarom hebben we een methode ontwikkeld om die fouten op te sporen en te elimineren”

Fouten opsporen en elimineren

“Het geeft aan hoe voorzichtig je moet zijn”, zegt Bomhof. “Want hoe goed doordacht ook, een heel klein foutje aan het begin van de datapijplijn kan gaandeweg tot totaal verkeerde uitkomsten leiden. Daarom hebben we een analysemethode ontwikkeld om die fouten op te sporen en te elimineren. Dat levert een checklist op waarmee partijen de kwaliteit van hun datapijplijn kunnen controleren.” TNO-experts hebben literatuuronderzoek gedaan en een groot aantal concrete praktijkgevallen bestudeerd. Daaruit hebben ze een lijst samengesteld van bronnen van onzekerheden die zich in de datapijplijn kunnen bevinden. Gewapend met die lijst hebben ze de betrokkenen bij zo’n twintig casussen geïnterviewd. Daaruit bleek dat de onzekerheden die de experts hadden bedacht in de praktijk, ook echt zo terug te vinden waren.

“Uit interviews bleek dat veel analyses zijn gestoeld op data waarvan de betrouwbaarheid op z’n minst onzeker is. Maar een manager of wethouder neemt op basis van die analyse wel beslissingen”

Big data en big lies

“We stelden vragen als ‘Weet u wel zeker of de sensoren waarmee u meet feilloos werken? Heeft u de data op de juiste manier gefilterd? Is uw datamodel nog steeds valide en correct getraind?’, vervolgt Bomhof. “Dan blijkt dat veel analyses zijn gestoeld op data waarvan de betrouwbaarheid op z’n minst onzeker is. Maar een manager of wethouder neemt op basis van die analyse wel beslissingen. Ook hebben we de visualisatie van data-analyses onder de loep genomen, want je hebt big data en big lies. Zoals het gezegde luidt: lies, damned lies, and statistics. Wat presenteer je aan wie en op welke manier? Ik kan dezelfde resultaten op verschillende manieren in grafieken verwerken en een uitkomst suggereren die de ontvanger graag wil horen.”

Betrouwbaarheid van data beoordelen

Bij elke stap in de pijplijn is volgens hem wel iets aan te wijzen waar het mis kan gaan. En met de exponentiële groei van de hoeveelheid data neemt de kans op fouten navenant toe. Nadat een groot aantal casussen door TNO op de wetenschappelijke pijnbank is gelegd, werken de onderzoekers de methode om datamodellen op betrouwbaarheid te testen momenteel verder uit. Ook komen ze met een concept om al in het ontwerp van datamodellen onzekerheden uit te bannen. De eerste resultaten zijn onlangs tijdens een internationaal congres aan experts gepresenteerd. “De reacties waren zeer positief. Blijkbaar had nog niemand dit onderwerp op deze manier opgepakt. Wie weet zetten we straks een internationale standaard om de betrouwbaarheid van data te kunnen beoordelen.”

Uitgelicht: twee casussen

Twee van de twintig eerder genoemde casussen zijn HERMESS en de gemeente Rotterdam. Samen met hen werkt TNO op dit moment aan betrouwbare datamodellen.

Casus 1: innovatief ETA-model kritisch beoordelen

HERMESS is een bedrijf dat innovatieve oplossingen ontwikkelt voor havens en de offshore-sector. De samenwerking met TNO is erop gericht de aankomsttijd (ETA) van containerschepen nauwkeuriger te kunnen voorspellen. Directeur dr. Charles Calkoen: “Er komt steeds meer publieke, maar ook commerciële data beschikbaar waarvoor we veel nuttige toepassingen kunnen bouwen. We gebruiken informatie die schepen meten om de hele logistieke keten erachter efficiënter te maken. Daar hebben onder meer rederijen, terminals, transportbedrijven en havenautoriteiten baat bij. We hebben nu een prototype van een innovatief ETA-model klaar, dat TNO-experts nu kritisch beoordelen. Zo kunnen we het systeem optimaliseren en sneller operationeel hebben. Het weten van een nauwkeurige aankomsttijd, is voor de hele keten van belang: het voorkomt wachttijden, vergroot efficiency en bespaart kosten.”

“Wie weet zetten we straks een internationale standaard om de betrouwbaarheid van data te kunnen beoordelen”

Casus 2: hybride model voor verbeteren jeugdbeleiD

TNO werkt samen met de gemeente Rotterdam om de factoren die een rol spelen bij de ontwikkeling van de jeugd beter in beeld te brengen. Denis Wiering, programmamanager Jeugdbeleid van de gemeente: “We hebben zelf al veel kennis over beschermende en risicofactoren voor ons jeugdbeleid. Die kennis gaan we combineren met de big data-analysemethode van TNO. We werken aan een hybride model om beleid en uitvoering steeds beter en effectiever te krijgen. We weten al veel over factoren die een rol spelen bij het kansrijk, veilig en gezond opgroeien van jeugdigen en hebben daar met wetenschappers een model voor gebouwd. Voor bijvoorbeeld schoolverzuim als voorspeller van onder meer schooluitval is het belangrijk om te weten hoe zwaar bepaalde factoren wegen en of we met die kennis in een eerder stadium kunnen interveniëren. Eigenlijk combineren we twee benaderingen tot een hybride model: dat van de huidige staat van de wetenschap en de nieuwe manier van analyseren die met big data-technieken mogelijk wordt. Betere datamodellen helpen ons te bevorderen dat jongeren kansrijk, veilig en gezond opgroeien.”

nieuws
evenementen
lees ook
vacatures
aandachtsgebieden
  • Industrie
  • Defensie & Veiligheid
  • Leefomgeving