Spoorzoeken tussen miljoenen woorden


Hoe vind je gemakkelijk de weg in de digitale archieven van miljoenen woorden? Op het Science Park Amsterdam is daar een speciale zoekmachine voor ontworpen. Maarten Marx, politicoloog en informaticus van het Instituut voor Informatica aan de UvA, ontwikkelde er een zoekmachine voor die bijna een eeuw politieke geschiedenis even transparant maakt als een aquarium. Hierdoor is dat ene citaat uit 1918 opeens gemakkelijk te vinden.

Political Mashup heet het project dat Marx heeft ontwikkeld en waar onder andere alle dagelijkse notulen van de Tweede Kamer sinds 1918 zijn verwerkt. Hierdoor kan elke uitspraak sinds die tijd niet alleen worden gevonden, maar ook geanalysee

Limburgse mijnen

Political Mashup heeft als doel het eenvoudig digitaal doorzoekbaar en analyseerbaar maken van grote hoeveelheden politieke data. Te denken valt aan partijprogramma’s, kamerhandelingen, krantenberichten en berichten op weblogs van politici of politiek-geïnteresseerden. Zo kunnen we razendsnel te weten komen welke politicus voor het eerst de sluiting van de Limburgse mijnen aanroerde in het parlement of welke politieke partij als eerste pleitte voor landbouwsubsidies.

Marx en zijn onderzoeksteam ontdekten dankzij deze methode ook fouten in de informatievoorziening van de overheid. Marx: ‘Elke Kamervraag moeten worden gedocumenteerd, zodat alles terug te vinden is in het archief. Iedereen dacht dat dit volledig was, maar wij ontdekten dat er kamerstukken ontbraken. Daar zijn zelfs Kamervragen over gesteld, met de titel Duizenden Kamervragen verdwenen. Ik heb geleerd dat je maar beter eerlijk en open kunt zijn. Hierdoor is de informatievoorziening van het parlement veranderd. Ze voelen dat we kijken.’

Parlementsvrouwen

Wat nu ook kan worden onderzocht is het vrouwelijk aandeel van volksvertegenwoordigers sinds 1918. Afgelopen voorjaar verscheen een postdoc-onderzoek over vrouwen in het Nederlandse parlement. Veel informatie kwam uit Political Mashup. Marx: ‘Voor elke politieke partij in de Tweede Kamer hebben wij onderzocht op welke terreinen vrouwen zich profileren en hoe dat in het verleden zat. Van alle parlementsleden is 40 procent vrouw, maar is hun bijdrage ook veertig procent? We kunnen met tekstanalysemethoden zien in hoeverre zij zich lieten horen in de Tweede Kamer sinds 1918.’

Topic ownership

Political Mashup doet ook veel onderzoek naar agendasetting. ‘Dat noemen we topic ownership. Een partij zet een onderwerp de agenda en hoopt dat andere partijen het onderwerp ook overnemen. We kunnen onderzoeken hoe zich dat uitspreidt over de tijd en over de partijen. Dat is interessant voor onder andere politicologen.’

Mashup meer dan politiek

Het Political Mashup-methode is ook toepasbaar op andere gigantische databestanden. Marx: ‘Vorig jaar heeft het NIOD het 18.000 pagina’s, 29 boeken en 14 delen tellende werk van historicus Loe de Jong online gezet, De geschiedenis van het koninkrijk tijdens de Tweede Wereldoorlog. Probeer hierin maar eens iets te vinden. Wij maken dan een tekststructuur die voor een mens leesbaar is, ook leesbaar voor een computer door de tekst in logische stukjes op te knippen.

’In samenwerking met de Koninklijke Bibliotheek en de Tweede Kamer, worden nu ook alle Handelingen der Staten Generaal sinds 1814 toegankelijk gemaakt. En de methode wordt door een letterkundige toegepast voor haar onderzoek naar eigennamen in de literatuur in maar liefst tienduizend Nederlandse romans.’

In deze editie:

Maarten Marx - Foto: Jan Willem Steenmeijer
Maarten Marx - Foto: Jan Willem Steenmeijer