Door datarestricties is het vaak niet mogelijk om data met elkaar uit te wisselen. Fedor Baart van de TU Delft en Deltares werkt in DigiShape verband aan een alternatief: algoritmen naar de data brengen.
Daarbij worden niet de data zelf, maar alleen de uitkomsten van de algoritmen gedeeld met de vraagsteller. Een interessante ontwikkeling, die veel nieuwe toepassingen binnen handbereik brengt. Een interview met Fedor.
Fedor, waarom zouden we algoritmen naar de data brengen?
“Soms is de data te groot, bijvoorbeeld alle satellietbeelden of alle hoogtemetingen. Dan is het niet meer te doen om al die data per organisatie op te slaan. En aan de andere kant omdat veel data niet openbaar toegankelijk is, maar wel veel informatie kan geven als je er je formules op los kan laten. Je algoritme naar de data brengen betekent dat je de data laat staan op een centrale plek (als de data groot is) of bij de eigenaar (als de data niet naar buiten mag) en jouw algoritme op diens server laat draaien. Zo hoef je zelf niks te downloaden, maar krijg je wel de informatie waar je naar zocht. Dit gebeurt voor grote datasets nu al veel bij rekencentra van Google, Amazon en Microsoft. Als die een toenemende vraag naar bepaalde data zien, bijvoorbeeld het klimaat, dan slaan zij die op in hun rekencentra en verhuren die. Zo kun je als gebruiker heel snel je algoritmes laten draaien en informatie beschikbaar hebben. Binnen DigiShape houden wij ons nu echter bezig met data die heel vertrouwelijk zijn.”
Kun je een voorbeeld geven van rekenen bij vertrouwelijke data?
“Jazeker. Neem het schip dat laatst als een bowlingbal door een windmolenpark op zee heen ging. Dat schip zendt, net als alle andere schepen op zee, om de zoveel tijd een signaal uit. Wil je snel zien dat een schip in de problemen is, dan moet je 1) een algoritme hebben dat een signaal afgeeft als een schip een onverwachte beweging maakt en 2) een enorme server met bijbehorende rekenkracht waar je dat algoritme op kunt laten draaien. Daar werken we nu samen met Rijkswaterstaat aan. Op hun rekencentrum staat de vertrouwelijke AIS-database, waar we dit soort gegevens uit kunnen halen. Die data zijn echter niet openbaar, dus moeten we kijken hoe we ons algoritme op dat rekencentrum kunnen zetten, zodat de gewenste informatie kan worden gegenereerd.”
Wat moet je daarvoor doen?
“Daar zitten best wat haken en ogen aan. In zo’n vertrouwelijke dataset wil je natuurlijk niet zomaar wat algoritmes hebben draaien. We werken nu aan een procedure die aangeeft welke stappen er moeten worden gezet voordat er toestemming kan worden verleend. Zo moet je bijvoorbeeld op verschillende manieren aantonen dat het algoritme (en de schrijver daarvan) betrouwbaar is, moet de code worden getoond en zijn er verschillende experts die het algoritme reviewen. Maar dan heb je als vragensteller dus wel een enorme mogelijkheid in handen, want dan heb je toegang tot informatie waar je eerder nooit bij kon!”
Wat gebeurt er binnen DigiShape aan deze ontwikkeling?
“Wij werken nu echt aan de gesloten datasets, dus data die niet naar buiten mogen. Die willen we toch op een legitieme manier toegankelijk maken voor analyses. Het leuke aan werken binnen DigiShape-verband, is dat iedereen die hier een toepassing voor ziet kan aanhaken. Op dit soort plekken, waar data niet gedeeld mag worden, maar waar je wel relevante publieke informatie uit kunt halen, ligt volgens mij nog veel onontgonnen terrein. Dus heb je een gesloten dataset, waar je openbare informatie uit zou kunnen halen, of andersom, wil je informatie halen uit een dataset van iemand die gesloten is, Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken.. Dan kijken we of jouw scenario goed past in onze use case.”