Amsterdam: eerst Small Data – Column Dimitri Tokmetzis

Stadsleven ‘Big data: wat weet de stad van mij?’ onderzoekt de invloed die het verzamelen van steeds meer data door stedelijke instellingen heeft op haar inwoners. Dimitri Tokmetzis is auteur van De Digitale Schaduw en journalist Data en Transparantie bij De Correspondent. In zijn column stelt hij dat iedereen weliswaar iets wil met big data, maar dat ongericht data verzamelen weinig zin heeft: “Laten we eerst eens beginnen met het beheersen van Small Data”. 

Big data: het nieuwe goud?

Big Data is een buzz woord. Consultants zien in Big Data het nieuwe goud, dat net zo belangrijk zal blijken als olie. De veronderstelling is dat Big Data ons slimmer, rijker, efficiënter, democratischer, veiliger en gezonder maken.

2438119267_710c645784_o (1)

Credits: Mark Herpel

Lokale overheden hebben zich ook op het digitale goud gestort.  Amsterdam leidt al enkele jaren de troepen door steeds meer gemeentelijke data – van de locaties van openbare wc’s tot besluiten van de gemeenteraad – in machineleesbare vorm vrij te geven. De hoop is dat slimme hackers deze data gebruiken om nuttige apps op de markt te brengen. En inderdaad verscheen vorig jaar de WC Amsterdam app. Handig voor wie hoge nood heeft. Ook belooft Big Data Amsterdam slimmer te maken. Real time verkeersdata moeten congestie helpen beperken. Data over energieverbruik moeten inwoners aansporen milieubewuster te leven. Massaal verzamelde psychosociale data over kleuters moeten gezinsdrama’s voorkomen.

Big data zijn weerbarstig en subjectief

De praktijk is echter weerbarstiger. Het is vaak lastiger dan gedacht om verschillende systemen aan elkaar te koppelen. De Amerdamse politie kan daar over meepraten. Zij wil al jaren een digitale slotgracht aanleggen die al het inkomende en uitgaande autoverkeer op de A10 vastlegt. De oplossing leek simpel: gebruik kentekenherkenningscamera’s van de milieudienst. Maar dat is drie jaar na het besluit hierover voor zover ik weet, nog steeds niet gelukt die data uit te wisselen.

Daarnaast zijn er vaak te hoge verwachtingen van wat je met data kunt doen, wat data precies zijn. Data hebben de reputatie hard te zijn, maar in de praktijk zijn ze vaak heel subjectief. Het gevolg van allerlei keuzes, die net zo goed heel anders hadden kunnen uitpakken.

Meer vragen dan antwoorden

De eerste keuze is wat je precies meet (en wat niet). Stel je wil als stadsbestuur de stemming van de dag kunnen bepalen in de stad. Dat kan prima met behulp van social media, zoals Twitter. Maar als je de Twitterstemming meet, maak je al een keuze door andere social media niet te meten. En lang niet iedereen zit op Twitter. Je maakt dus al een belangrijke selectie die de conclusie zal beïnvloeden.

Data laten zich ook niet zomaar combineren. Het Centraal Bureau voor de Statistiek houdt betrouwbare werkloosheidscijfers bij per regio, maar deze cijfers worden met enkele maanden vertraging gepubliceerd (vanwege de controles die erop zitten). Het UWV publiceert maandelijks nieuwe cijfers, maar die zijn nog vrij ruw. Deze twee bronnen zijn ook weer niet zomaar te combineren omdat beide instanties met andere definities werken over werkloosheid.

Daarnaast beïnvloedt het verzamelen van data de uitkomst van wat je vindt op een meer subtiele wijze. Steeds meer politiekorpsen en stadsbesturen werken met zogenoemde crime maps, interactieve kaarten die misdaadcijfers op stad, buurt- of straatniveau laten zien. Dit als service aan de bewoners. Maar in Londen leidde dit ertoe dat er minder aangifte werd gedaan in sommige wijken: de bewoners vreesden waardedaling van hun huis.

Deze voorbeelden geven aan dat Big Data vaak net zo veel nieuwe vragen oproepen als dat ze moeten beantwoorden.

14404844024_a28124eb9d_k (1)

Credtis: Yasmeen

Het alternatief: Small Data

Er is een alternatief: Small Data. Vaak heb je geen enorme bakken data nodig om een fenomeen te onderzoeken. Wetenschappers doen niet anders. Met een goede analyse met een beperkte hoeveelheid data bereik je vaak ook je doel, dikwijls met minder problemen tijdens het bewerkingsproces.

Voordat de stad dus op grote schaal data gaan verzamelen van alles wat in de stad gebeurt en alles wat de stedelingen doen, moeten er keuzes gemaakt worden: wat willen we precies onderzoeken en wat hebben we daarvoor nodig? Kan het makkelijker met minder? In het datajargon staat dit bekend als de tegenstelling tussen collect before you select, or select before you collect. Of in goed Hollands: bezint eer gij begint.

Meer lezen?