De popularisering van wetenschap moet op de schop

Gisteren schreef Maarten Keulemans een opinieartikel in De Volkskrant, getiteld Wetenschap, neem de bloggende wetenschapper eens serieus. Zijn belangrijkste punt: bij al dat gepraat over ‘maatschappelijke impact’ van wetenschap worden bloggers vergeten. Dat is zonde, en daar moet iets aan veranderen. Wetenschapsbloggers leveren vaak een geweldige bijdrage aan het publieke debat, ze zijn kritisch, delen kennis, geven inzicht in de wetenschap, en doen dat allemaal gratis en voor iedereen toegankelijk. Ik kan me alleen maar aansluiten bij Keulemans’ stuk. Ik zou zelfs verder gaan: de hele manier waarop er op dit moment wordt omgegaan met popularisering door wetenschappers moet veranderen.

Doorgaan met het lezen van “De popularisering van wetenschap moet op de schop”

“Wat een ree wijf!” Meer vreemde woorden uit 1937

Eind vorig jaar besprak ik al eens het vreemde taaladvieswerkje Op en Top Nederlands, een taaladviesgids uit 1937. Later besprak ik ook de verbazingwekkende inhoud, met woorden als vlijmkoker, tuf-tuf (Verkieselijk boven: „wagen”) en fep (Aan de fep). Maar wacht, er is nog veel meer! Bij het ter persé gaan van de vorige blogpost had ik het werkje nog niet uit, maar nu wel. En dat leverde opnieuw een schat aan mij onbekende woorden op.

ree, bnw. (Een ree wijf)
prouveer, ww. (Dat prouveert niet voor haar)
pulkippetje
praaisein (Verkieselijk boven: „roepnaam”)
prang, ww. (Geprangde boezem)
poesmooi
pondpondsgewijze
plekkerig
piereverschrikkertje
overkluis, ww. (Een overkluisde beek)
onwijsgerig
ontveins, ww.
omkoud (Hij is er omkoud)
neepjesmuts
mitsgaders
molik
miers, bnw.
masteluin (Masteluin is een mengsel van rogge en tarwe)
matjesvijgen
mandélig (mandélige muur)
lamoen
lebmaag
lammenadig
kor-oester
komenijswinkel
kluisprop
karnpols
jank aan (Hij jankt zijn baas aan)
hij (Te hij of te fij)
hei (Te hei of te fij)
heusjes
haam ( = net, juk)
etgroen
eest, ww.
durk
baars, bnw. (= als een baar, totok) *

Ik kan echt alleen maar ongelooflijk smullen van deze woorden. Wat een heerlijkheid, iedere vorm van nadruk schiet te kort. Allemaal woorden die ik niet ken. Goed, sommige woorden schijnen wel nog voor te komen, zoals etgroen en pondspondsgewijs, hoewel ze dan niet heel frequent zijn. Andere uitdrukkingen zijn veel zeldzamer. ‘Een ree wijf’ bijvoorbeeld komt maar 4 keer voor op het hele internet (met dank aan mij nu zes keer). Helemaal bont maakt het woord praaisein het: dat komt helemaal niet voor op het Nederlandse interweb! Ook lollig: praaisein is niet eens meer een vergeetwoord: het is zelfs daarvoor blijkbaar al te ver weggezakt.

Gelukkig is er nog het Woordenboek der Nederlandse Taal. Daar heb je nou echt wat aan. Dankzij dit parel onder de woordenboeken kom ik erachter wat een kluisprop is (“Tegen het binnenstroomen van het water werden vroeger de kluizen digt gemaakt met zoogenaamde kluisproppen, zijnde houten stoppen met poortlaken bekleed”). En dat lammenadig misschien wel een oude contaminatie is van lam en ongenadig! Overigens is praaisein wederom nergens te bekennen…

Maar serieus: wie gebruikt deze woorden nog? Ik hoor het graag.

* Deze lijst is tot stand gekomen met hulp van mijn vader Jan van der Meulen, die zo vriendelijk was een deel van het werk in de KB te scannen.

Liever schone data dan veel data

Vorige week schreef ik een blogpost naar aanleiding van een stuk van Marc van Oostendorp (die weer reageerde op een tweet van Geert Wilders). In de post beschreef ik het gebruik van een bepaald woord, difficulteren, aan de hand van een aantal verschillende corpora van het Nederlands. Mijn post bleek op haar beurt aanleiding voor professor Jan Odijk om een post te schrijven over de structuur en interface achter de door mij gebruikte corpora. Het onderzoekje dat ik in twee uur op een dinsdagochtend had uitgevoerd leek daarmee plotseling te worden opgevoerd als rechtvaardiging voor meerdere miljoenenprojecten. Dat is al te veel eer: het was een alleszins triviaal onderzoekje. Maar dit geeft mij wel een mooi haakje om wat kritisch commentaar te geven op deze interface. Vooral op twee punten is er nog een enorme winst te behalen: de kwaliteit van de data is nog aan drastische verbetering toe, en over het type data kan beter worden nagedacht.

Schone data

Laat vooropstaan dat ik zeker niet ondankbaar wil lijken. Wat er al gebeurd is binnen Clariah (zo heet het project achter de interface) is fijn en handig. Zo is een grote hoeveelheid corpora makkelijk toegankelijk binnen Nederlab, en kunnen deze zowel apart als gezamenlijk worden doorzocht met verschillende tools. Je kunt inderdaad vrij complexe zoekfuncties bedenken. Ik was bijvoorbeeld laatst op zoek naar zelfstandig naamwoorden die in het meervoud staan, voorafgegaan door een woord dat eindigt op –tal maar dat níet aantal is (bv. vijftal, honderdtal), en gevolgd door een werkwoord. Dat gaat vrij eenvoudig.

Maar het is dus niet alles goud wat blinkt, ten eerste dus wat betreft de kwaliteit van de data. Men lijkt namelijk toch in de zogenaamde Big Data-val te trappen, waarbij de focus vooral ligt op kwantiteit. Neem het sub-corpus KB Kranten. Dat bevat een ontstellende 10 miljard woorden. Als zodanig is het integraal in Nederlab beschikbaar, en er volgt binnenkort nog minstens zo’n groot aantal woorden. Die omvang heeft bepaalde voordelen. Het zoeken naar zeldzame woorden, zoals difficulteren, wordt makkelijker: hoe meer data, hoe groter de kans dat het woord er een keertje tussen zit. Ook voor het bouwen van taalmodellen is meer data beter. Maar er zitten nog wel wat haken en ogen aan. Zo is een groot deel van de data nog niet opgeschoond. Dan kun je wel zoeken, maar dan zijn je precision en recall zowel onduidelijk als laag. Met andere woorden: je weet niet hoeveel van de totale gevallen van een zoekopdracht je daadwerkelijk te pakken krijgt, en je weet niet hoeveel van de gevallen die je wél krijgt ook daadwerkelijk de juiste zijn. Hoe vies die data is, laat dit voorbeeld uit 1618 zien:

Screenshot 2018-06-13 16.09.57

Tsja, dat is nauwelijks leesbaar, laat staan dat je er op kan zoeken. Nu is het verbeteren van dit soort tekstdata een bekend probleem, en het is héél lastig om er met de computer echt goed iets aan te doen (ik schreef er al eerder over). Maar je kunt je afvragen of het dan wel zinnig is om het online te slingeren. Willen we meer slechte data, of minder goede? Mijn mening is duidelijk. Liever minder maar beter. Ik durf best te stellen dat veel onderzoekers het met me eens zullen zijn.

Juiste data

Schone data is dus één van de belangrijkste parameters voor goede data. Het andere belangrijke punt is dat het handig is om het juiste type data te hebben. Mijn onderzoek gaat bijvoorbeeld over grammaticale variatie in het Nederlands in de twintigste eeuw. In het beste geval onderzoek ik die variatie in verschillende genres, waarvan telkens een gebalanceerd sample is genomen, en op basis van een mooie verdeling over de tijd. Dat is vele malen handiger dan een gargantueske bak aan krantendata. Een dergelijk diachroon, multi-genre, gebalanceerd (en schoon) corpus bestaat voor het Nederlands echter niet. En dat terwijl het in principe geen gigantisch innovatieve aanpak vereist: voor het Engels bestaat zo’n soort corpus (het ARCHER-corpus) al sinds 1994.

Het is echter de vraag of dit is waar Clariah voor bedoeld is. Het mission statement van het project stelt namelijk dat het gaat om “het ontwikkelen van een goede, bruikbare, duurzame en gebruiksvriendelijke infrastructuur voor de Geesteswetenschappen.” Het gaat dus niet zozeer om het kiezen van data, als wel om het beschikbaar stellen. Maar kunnen die twee dingen zonder elkaar? Dan krijg je dus heel veel vervuilde data, en er is in ieder geval één onderzoeker die daar weinig mee opschiet. Maar wacht: een ander doel is “to increase our empirical base”. Dat zou weleens een handvat kunnen bieden!

Toekomst

Onlangs werd bekend dat Clariah Plus maar liefst 13,8 miljoen euro krijgt om verder te werken aan de interface. Een bizar bedrag: daar kun je ongeveer 27 promovendi voor aanstellen. Ik hoop dat een deel van dat bedrag wordt ingezet voor het schoonmaken van data. Laat dat nou niet tot het einde wachten, maar geef daar prioriteit aan. Niemand heeft iets aan onbetrouwbare data. Stel dus een stel studentassistenten aan die betrekkelijk handmatig de data opschonen, of maak een makkelijk tooltje voor ze. Zo’n studentassistent kost (volgens mijn snelle berekening) ongeveer €30.000 per jaar. Wanner je er tien (!) aantrekt, heb je nog geen deuk in je budget geslagen. Tien studentassistenten kunnen in een full-time jaar ongelooflijk veel nuttig werk verrichten. Ja, het is niet digitaal, maar dat is nou eenmaal de staat van de techniek. Zolang OCR niet goed werkt moet in ieder geval een deel van het werk handmatig.

En als het even kan: maak gewoon ook wat ruimte voor de creatie van dat grote, diachrone, multi-genre, gebalanceerde corpus. Er zijn echt zat mensen die dat kunnen. Pluk ze weg van BYU, uit Manchester of Leuven, en je hebt binnen een paar jaar een geweldig instrument voor onderzoek naar de ontwikkeling van de Nederlandse taal. De expertise is er, de data is er, het geld is er: nu alleen nog het initiatief.

Taalkundige fact check: wie gebruikt het werkwoord ‘difficulteren’?

Vanochtend stond er op Neerlandistiek.nl een interessant stuk van Marc van Oostendorp over een tweet van Geert Wilders, waarin deze het woord ‘difficulteren’ gebruikte. Van Oostendorp ontkracht een aantal misverstanden rond dit werkwoord. Zo is het waarschijnlijk niet afkomstig uit het Engels, want het werd al gebruikt in een tijd waarin de invloed van het Engels klein was. Daarnaast is het aantoonbaar géén neologisme dat door Ruud Lubbers is geïntroduceerd. Deze observaties zijn op zich al geweldig: ze laten zien hoe (taal)mythes blijven rondzingen, en hoe snel er naar Engelse invloed wordt verwezen, ook als dat onterecht is. Maar het boeiendste staat in de slotalinea van het stuk:

Wel is het een taalkundige aanwijzing dat Geert Wilders diep ingebed zit in een eeuwenlange traditie van bestuur en politiek, die de rest van het volk maar niet heeft weten te bereiken.

Eerder noemt Van Oostendorp dit ook al: het woord difficulteren wordt al lang gebruikt in de politiek, maar komt daarbuiten niet voor. Dat is toetsbaar: we hebben grote collecties taalgebruik van binnen en buiten de politiek tot onze beschikking. Hierbij dus een taalkundige fact check: wordt het werkwoord dfficulteren inderdaad uitsluitend in de politiek gebruikt?

Corpusonderzoek

Een vraag als deze valt methodologisch gezien binnen de corpustaalkunde. Dat is een veld binnen de taalwetenschap waarin onderzoek wordt gedaan op basis van verzamelingen taal. Die verzamelingen kunnen allerlei taalvarianten omvatten: gesproken of geschreven, uit kranten of dagboeken, informeel of formeel etc. Zie hier of hier voor meer uitleg over corpustaalkunde. Voor het Nederlands zijn er al flink wat corpora beschikbaar. Van bijzonder belang in eerste instantie is Staten Generaal Digitaal. Dit corpus, dat beschikbaar is binnen Nederlab, bevat alle Kamerverslagen, Kamerstukken en Kamervragen van de Eerste Kamer en de Tweede Kamer voor de periode 1814-2014. Een schitterende verzameling teksten om te kijken naar het gebruik van een woord binnen de politiek.

Difficulteren in de politiek

Allereerst is het natuurlijk zo dat dit corpus niet alle politieke taal van Nederland omvat. De tweet van Wilders zou er bijvoorbeeld niet instaan. Toch kan deze verzameling volgens mij een mooi antwoord geven op de vraag of dit woord voorkomt in de politiek of niet. Het antwoord daarop is ja, enigszins. Het lemma difficulteren (dus alle vormen van dat werkwoord) komt sinds 1814 namelijk slechts 84 keer voor. Op bijna 900 miljoen woorden is dat bepaald marginaal te noemen. Lubbers heeft het woord in de Kamer nooit gebruikt, anderen deden dat wel. Er lijkt een toename te zijn van het gebruik van het woord sinds de jaren ’90: 23 van de voorkomens worden in sindsdien gevonden. De ‘piek’ zit in 2014, als het woord 4 keer wordt gebruikt.

Screenshot 2018-06-04 10.26.07

Er is een duidelijke voorkeur voor de infinitief en het voltooid deelwoord: die komen respectievelijk 35 en 36 keer voor. Als vervoegd werkwoord komt slechts de derde persoon enkelvoud voor: difficulteerde (8 keer) en difficulteert (5 keer). Ik weet niet in hoeverre dit typisch is voor Nederlandse werkwoorden, maar het lijkt mij ongebruikelijk dat een infinitief vaker voorkomt dan de vervoegde vormen. Sowieso weten we dat werkwoordsvormen zeker niet allemaal even vaak voorkomen (zie bijvoorbeeld hier).

Difficulteren in andere corpora

Om te kijken of difficulteren ook buiten de politiek wordt gebruikt zijn er verschillende corpora beschikbaar. Die bevestigen in eerste instantie wat Marc stelt: het komt niet voor. Niet in het Corpus Gesproken Nederlands, niet in het Corpus Hedendaags Nederlands, niet in het Brieven als Buit Corpus. In Sonar komt het twee keer voor, in tweets die beiden met politiek te maken hebben. In de corpora van Nederlab komt het echter wél voor: 1337 keer maar liefst. 1058 hits daarvan vallen binnen het genre ‘politiek’. Dat laat toch zien dat het woord een aantal keer voorkomt buiten de politiek. Deze voorkomens lijken zich echter te beperken tot het Early Dutch Books Online (EDBO) corpus, een verzameling teksten uit de periode 1781-1800. De voorkomens in die teksten zijn deels politiek, maar bevinden zich ook in andere genres, zoals de rechtswetenschap en andere wat formelere non-fictieteksten.

Er zijn drie laatste manieren om het woord te zoeken, en die hebben allemaal met internet te maken. Allereerst kun je simpelweg googlen. Dat levert meer dan 3500 hits op: teveel om nu te analyseren. Een snelle blik lijkt er wel op te wijzen dat het woord vooral in politieke context wordt gebruikt. Vervolgens kunnen we op Twitter zoeken. Het woord difficulteren (dus niet het lemma) komt 99 keer voor; difficulteert komt 14 keer voor. Gedifficulteerd en difficulteerde komen niet voor. Op dit totaal van 113 voorkomen staan er 17 in relatie tot de tweet van Wilders. De andere voorkomens lijken (waar dat herleidbaar is) allemaal betrekking te hebben tot een politiek onderwerp. Ten slotte kunnen we nog één ander corpus bekijken: het Corpus of the Web (COW). Dat bevat een grote verzameling online beschikbare teksten. Het is met 7 miljard woorden behoorlijk fors, maar overzichtelijker dan het hele internet. COW sluit aan bij de eerdere corpora: het woord difficulteren komt 21 keer voor, waarvan 18 keer in politieke context (en drie keer op de site van Onze Taal). De andere vormen komen nog minder vaak voor: difficulteert één keer, difficulteerde drie keer, difficulteerden één keer, en gedifficulteerd ook éen keer.

Conclusie

In dit geval bevestigt corpusonderzoek het vermoeden van Marc van Oostendorp: het lemma difficulteren lijkt de laatste 200 jaar vrijwel uitsluitend te worden gebruikt in politieke context. Zeker weten doen we het niet: de data uit EDBO suggereert dat het ook in andere formelere of wetenschappelijke teksten gebruikelijk was. Dit laat zien hoe interessant en belangrijk het is om dit soort vermoedens te toetsen: er is altijd meer over een woord te zeggen. Bovendien kunnen intuïties fout zijn, door bijvoorbeeld de recency illusion, de frequency illusion en andere cognitieve biases. Maar nu difficulteer ik de zaak misschien te veel, dat komt een andere keer wel.