“Een een een een een boek”: over lidwoordherhaling in gesproken taal

Ik ben dezer dagen voor allerlei onderzoeksdoeleinden lekker aan het klooien in het onvolprezen Corpus Gesproken Nederlands (CGN). Een van de voorbeelden die ik tegenkwam bevatte het volgende fragment:

het ook een een een boek dat

Een grappig voorbeeld: drie keer een op een rij! Ik wist wel dat mensen af en toe lidwoorden herhalen. In gesproken taal komt het best eens voor: het wordt gedaan om tijd te rekken, om even na te kunnen nadenken. Uh en uhm worden soms om dezelfde reden gebruikt. Maar voor zover ik weet houdt het wat betreft lidwoorden hierbij op: welke we herhalen en hoe vaak we dat doen, daar ben ik nog geen artikel over tegengekomen.

Bepaald of onbepaald

Worden bijvoorbeeld bepaalde of onbepaalde lidwoorden vaker herhaald? Ik had het daar toevallig over met een van mijn hooggeachte promotoren, Helen de Hoop. Zij hypothetiseerde dat onbepaalde lidwoorden vaker worden herhaald, omdat je bij zo’n lidwoord nog meer mogelijkheden hebt voor wat je gaat zeggen. Het woord onbepaald is hier doorslaggevend. Zo’n hypothese is in het CGN makkelijk te testen. Het enige wat ik moet doen is lidwoorden zoeken die op elkaar volgen. Een probleem: in principe zit natuurlijk ‘een een’ ook in ‘een een een’. Ik loste dit op door in mijn zoekopdracht telkens de combinatie van lidwoorden zowel te starten als te eindigen door ‘woord is níet (het lidwoord waar ik naar zoek)’. Ook zocht ik alleen op woorden die als lidwoord waren aangemerkt, om zo het telwoord één buitenspel te zetten. Zie hier beneden de resultaten.

  de het een
2x  2321 279 2919
3x  387 29 607
4x  96 9  133
5x  20 3  32
6x  6 0  14
7x  7 0  3
8x  0 0  2
9x  0 0  1
totaal 2837 349 3711

Ik moet zeggen: ik was toch behoorlijk verbaasd over hoe vaak dit voorkwam. In totaal vinden we herhalende lidwoorden in maar liefst 6897 gevallen. Ook opvallend vind ik de voorbeelden met heel veel opeenvolgende lidwoorden. Die gevallen zien er zo uit:

dat is een zeg maar een een een een een een een een een manier van genezing die uit Japan komt (9x een)

de de de de de de de zogenaamde aanschuifconferenties die we in Oudemanhuispoort hebben georganiseerd (7x de)

het is ’t is allemaal wat meer buiten het het het het het Haagse gekonkel (5x het)

De en een

Vervolgens valt op dat de en een veel vaker voorkomen dan het. Maar dat is misschien een effect van de totale aanwezigheid van die lidwoorden. Daar is makkelijk achter te komen door de relatieve frequentie van de lidwoorden in het corpus.

totaal corpus % lidwoord corpus % dubbele lidwoorden
de 249.339 52,5% 41,1%
het 53.230 11,2% 5,1%
een 172.332 36,3% 53,8%

Inderdaad komt het relatief minder voor, en dat verklaart deels ook het feit dat het minder voorkomt bij de verdubbelde lidwoorden. Maar daar is niet alles mee gezegd. Dan de andere hypothese: komt lidwoordherhaling inderdaad vaker voor bij onbepaalde lidwoorden? Het antwoord daarop is absoluut ja. Onbepaalde lidwoorden zijn stevig oververtegenwoordigd bij de verdubbelingen. Ze komen bovendien ook in langere combinaties voor.

Aanwijzende voornaamwoorden

Een andere collega van me, Joske Piepers, kwam op vervolgens op het lumineuze idee om ook naar aanwijzende voornaamwoorden te kijken. Deze (sic) zoekopdracht sluit aan bij een serie waar Marc van Oostendorp mee bezig is over het verschil tussen hier en daar, dit en datdit en deze zijn formeler en specifieker dan dat en die. Mijn vermoeden is dat dat en die dus vaker voorkomen, opnieuw vanwege de onzekerheid die in de woorden besloten ligt. Ik vermoed bovendien dat deze weinig wordt herhaald, omdat het niet eenlettergrepig is.

  die dat dit deze
2x  2986 8497 113 35
3x  411 542 12 3
4x  70 108 0 0
5x 13 11 0 0
6x  7 2 0 0
7x  2 0 0 0
totaal 3489 10160 125 38

Mijn vermoedens worden wederom bevestigd. Het verschil in frequentie is bovendien veel groter dan bij de lidwoorden: het meer specifieke dit en deze worden slechts bij uitzondering herhaald. Opvallend is het hoge aantal verdubbelingen van dat ten opzichte van die: dat strookt niet met de frequenties van de bijbehorende lidwoorden. Voor een deel kan het misschien verklaard worden door zinnen als Ik denk dat dat klopt, maar meer gedetailleerd onderzoek zou moeten uitwijzen of dat zo is.

Meer onderzoek

Het is weer een klein en behoorlijk oppervlakkig onderzoekje (net als bij difficulteren), maar het laat toch een paar interessante dingen zien. Zo komen aanwijzend voornaamwoord- en lidwoordverdubbelingen behoorlijk vaak voor. Veel vaker dan ik had gedacht in ieder geval. Bovendien komen verdubbelingen vaker voor bij het onbepaalde lidwoord en de onbepaaldere aanwijzende voornaamwoorden. Daarmee is de kous niet af. Om in een goede wetenschappelijke traditie te besluiten: er moet meer onderzoek worden gedaan. Zijn er bijvoorbeeld nog nadere patronen te bespeuren in het gebruik? Welke woorden volgen op de verdubbelingen? Zijn er nog effecten van genre? Komen verdubbelingen bijvoorbeeld meer voor in informelere situaties (je zou denken van wel)? Sowieso ben ik van mening dat lidwoorden nog wel wat meer onderzoek verdienen. Geïnteresseerden kunnen zich te allen tijde bij ondergetekende vervoegen.

De popularisering van wetenschap moet op de schop

Gisteren schreef Maarten Keulemans een opinieartikel in De Volkskrant, getiteld Wetenschap, neem de bloggende wetenschapper eens serieus. Zijn belangrijkste punt: bij al dat gepraat over ‘maatschappelijke impact’ van wetenschap worden bloggers vergeten. Dat is zonde, en daar moet iets aan veranderen. Wetenschapsbloggers leveren vaak een geweldige bijdrage aan het publieke debat, ze zijn kritisch, delen kennis, geven inzicht in de wetenschap, en doen dat allemaal gratis en voor iedereen toegankelijk. Ik kan me alleen maar aansluiten bij Keulemans’ stuk. Ik zou zelfs verder gaan: de hele manier waarop er op dit moment wordt omgegaan met popularisering door wetenschappers moet veranderen.

Doorgaan met het lezen van “De popularisering van wetenschap moet op de schop”

“Wat een ree wijf!” Meer vreemde woorden uit 1937

Eind vorig jaar besprak ik al eens het vreemde taaladvieswerkje Op en Top Nederlands, een taaladviesgids uit 1937. Later besprak ik ook de verbazingwekkende inhoud, met woorden als vlijmkoker, tuf-tuf (Verkieselijk boven: „wagen”) en fep (Aan de fep). Maar wacht, er is nog veel meer! Bij het ter persé gaan van de vorige blogpost had ik het werkje nog niet uit, maar nu wel. En dat leverde opnieuw een schat aan mij onbekende woorden op.

ree, bnw. (Een ree wijf)
prouveer, ww. (Dat prouveert niet voor haar)
pulkippetje
praaisein (Verkieselijk boven: „roepnaam”)
prang, ww. (Geprangde boezem)
poesmooi
pondpondsgewijze
plekkerig
piereverschrikkertje
overkluis, ww. (Een overkluisde beek)
onwijsgerig
ontveins, ww.
omkoud (Hij is er omkoud)
neepjesmuts
mitsgaders
molik
miers, bnw.
masteluin (Masteluin is een mengsel van rogge en tarwe)
matjesvijgen
mandélig (mandélige muur)
lamoen
lebmaag
lammenadig
kor-oester
komenijswinkel
kluisprop
karnpols
jank aan (Hij jankt zijn baas aan)
hij (Te hij of te fij)
hei (Te hei of te fij)
heusjes
haam ( = net, juk)
etgroen
eest, ww.
durk
baars, bnw. (= als een baar, totok) *

Ik kan echt alleen maar ongelooflijk smullen van deze woorden. Wat een heerlijkheid, iedere vorm van nadruk schiet te kort. Allemaal woorden die ik niet ken. Goed, sommige woorden schijnen wel nog voor te komen, zoals etgroen en pondspondsgewijs, hoewel ze dan niet heel frequent zijn. Andere uitdrukkingen zijn veel zeldzamer. ‘Een ree wijf’ bijvoorbeeld komt maar 4 keer voor op het hele internet (met dank aan mij nu zes keer). Helemaal bont maakt het woord praaisein het: dat komt helemaal niet voor op het Nederlandse interweb! Ook lollig: praaisein is niet eens meer een vergeetwoord: het is zelfs daarvoor blijkbaar al te ver weggezakt.

Gelukkig is er nog het Woordenboek der Nederlandse Taal. Daar heb je nou echt wat aan. Dankzij dit parel onder de woordenboeken kom ik erachter wat een kluisprop is (“Tegen het binnenstroomen van het water werden vroeger de kluizen digt gemaakt met zoogenaamde kluisproppen, zijnde houten stoppen met poortlaken bekleed”). En dat lammenadig misschien wel een oude contaminatie is van lam en ongenadig! Overigens is praaisein wederom nergens te bekennen…

Maar serieus: wie gebruikt deze woorden nog? Ik hoor het graag.

* Deze lijst is tot stand gekomen met hulp van mijn vader Jan van der Meulen, die zo vriendelijk was een deel van het werk in de KB te scannen.

Liever schone data dan veel data

Vorige week schreef ik een blogpost naar aanleiding van een stuk van Marc van Oostendorp (die weer reageerde op een tweet van Geert Wilders). In de post beschreef ik het gebruik van een bepaald woord, difficulteren, aan de hand van een aantal verschillende corpora van het Nederlands. Mijn post bleek op haar beurt aanleiding voor professor Jan Odijk om een post te schrijven over de structuur en interface achter de door mij gebruikte corpora. Het onderzoekje dat ik in twee uur op een dinsdagochtend had uitgevoerd leek daarmee plotseling te worden opgevoerd als rechtvaardiging voor meerdere miljoenenprojecten. Dat is al te veel eer: het was een alleszins triviaal onderzoekje. Maar dit geeft mij wel een mooi haakje om wat kritisch commentaar te geven op deze interface. Vooral op twee punten is er nog een enorme winst te behalen: de kwaliteit van de data is nog aan drastische verbetering toe, en over het type data kan beter worden nagedacht.

Schone data

Laat vooropstaan dat ik zeker niet ondankbaar wil lijken. Wat er al gebeurd is binnen Clariah (zo heet het project achter de interface) is fijn en handig. Zo is een grote hoeveelheid corpora makkelijk toegankelijk binnen Nederlab, en kunnen deze zowel apart als gezamenlijk worden doorzocht met verschillende tools. Je kunt inderdaad vrij complexe zoekfuncties bedenken. Ik was bijvoorbeeld laatst op zoek naar zelfstandig naamwoorden die in het meervoud staan, voorafgegaan door een woord dat eindigt op –tal maar dat níet aantal is (bv. vijftal, honderdtal), en gevolgd door een werkwoord. Dat gaat vrij eenvoudig.

Maar het is dus niet alles goud wat blinkt, ten eerste dus wat betreft de kwaliteit van de data. Men lijkt namelijk toch in de zogenaamde Big Data-val te trappen, waarbij de focus vooral ligt op kwantiteit. Neem het sub-corpus KB Kranten. Dat bevat een ontstellende 10 miljard woorden. Als zodanig is het integraal in Nederlab beschikbaar, en er volgt binnenkort nog minstens zo’n groot aantal woorden. Die omvang heeft bepaalde voordelen. Het zoeken naar zeldzame woorden, zoals difficulteren, wordt makkelijker: hoe meer data, hoe groter de kans dat het woord er een keertje tussen zit. Ook voor het bouwen van taalmodellen is meer data beter. Maar er zitten nog wel wat haken en ogen aan. Zo is een groot deel van de data nog niet opgeschoond. Dan kun je wel zoeken, maar dan zijn je precision en recall zowel onduidelijk als laag. Met andere woorden: je weet niet hoeveel van de totale gevallen van een zoekopdracht je daadwerkelijk te pakken krijgt, en je weet niet hoeveel van de gevallen die je wél krijgt ook daadwerkelijk de juiste zijn. Hoe vies die data is, laat dit voorbeeld uit 1618 zien:

Screenshot 2018-06-13 16.09.57

Tsja, dat is nauwelijks leesbaar, laat staan dat je er op kan zoeken. Nu is het verbeteren van dit soort tekstdata een bekend probleem, en het is héél lastig om er met de computer echt goed iets aan te doen (ik schreef er al eerder over). Maar je kunt je afvragen of het dan wel zinnig is om het online te slingeren. Willen we meer slechte data, of minder goede? Mijn mening is duidelijk. Liever minder maar beter. Ik durf best te stellen dat veel onderzoekers het met me eens zullen zijn.

Juiste data

Schone data is dus één van de belangrijkste parameters voor goede data. Het andere belangrijke punt is dat het handig is om het juiste type data te hebben. Mijn onderzoek gaat bijvoorbeeld over grammaticale variatie in het Nederlands in de twintigste eeuw. In het beste geval onderzoek ik die variatie in verschillende genres, waarvan telkens een gebalanceerd sample is genomen, en op basis van een mooie verdeling over de tijd. Dat is vele malen handiger dan een gargantueske bak aan krantendata. Een dergelijk diachroon, multi-genre, gebalanceerd (en schoon) corpus bestaat voor het Nederlands echter niet. En dat terwijl het in principe geen gigantisch innovatieve aanpak vereist: voor het Engels bestaat zo’n soort corpus (het ARCHER-corpus) al sinds 1994.

Het is echter de vraag of dit is waar Clariah voor bedoeld is. Het mission statement van het project stelt namelijk dat het gaat om “het ontwikkelen van een goede, bruikbare, duurzame en gebruiksvriendelijke infrastructuur voor de Geesteswetenschappen.” Het gaat dus niet zozeer om het kiezen van data, als wel om het beschikbaar stellen. Maar kunnen die twee dingen zonder elkaar? Dan krijg je dus heel veel vervuilde data, en er is in ieder geval één onderzoeker die daar weinig mee opschiet. Maar wacht: een ander doel is “to increase our empirical base”. Dat zou weleens een handvat kunnen bieden!

Toekomst

Onlangs werd bekend dat Clariah Plus maar liefst 13,8 miljoen euro krijgt om verder te werken aan de interface. Een bizar bedrag: daar kun je ongeveer 27 promovendi voor aanstellen. Ik hoop dat een deel van dat bedrag wordt ingezet voor het schoonmaken van data. Laat dat nou niet tot het einde wachten, maar geef daar prioriteit aan. Niemand heeft iets aan onbetrouwbare data. Stel dus een stel studentassistenten aan die betrekkelijk handmatig de data opschonen, of maak een makkelijk tooltje voor ze. Zo’n studentassistent kost (volgens mijn snelle berekening) ongeveer €30.000 per jaar. Wanner je er tien (!) aantrekt, heb je nog geen deuk in je budget geslagen. Tien studentassistenten kunnen in een full-time jaar ongelooflijk veel nuttig werk verrichten. Ja, het is niet digitaal, maar dat is nou eenmaal de staat van de techniek. Zolang OCR niet goed werkt moet in ieder geval een deel van het werk handmatig.

En als het even kan: maak gewoon ook wat ruimte voor de creatie van dat grote, diachrone, multi-genre, gebalanceerde corpus. Er zijn echt zat mensen die dat kunnen. Pluk ze weg van BYU, uit Manchester of Leuven, en je hebt binnen een paar jaar een geweldig instrument voor onderzoek naar de ontwikkeling van de Nederlandse taal. De expertise is er, de data is er, het geld is er: nu alleen nog het initiatief.

Taalkundige fact check: wie gebruikt het werkwoord ‘difficulteren’?

Vanochtend stond er op Neerlandistiek.nl een interessant stuk van Marc van Oostendorp over een tweet van Geert Wilders, waarin deze het woord ‘difficulteren’ gebruikte. Van Oostendorp ontkracht een aantal misverstanden rond dit werkwoord. Zo is het waarschijnlijk niet afkomstig uit het Engels, want het werd al gebruikt in een tijd waarin de invloed van het Engels klein was. Daarnaast is het aantoonbaar géén neologisme dat door Ruud Lubbers is geïntroduceerd. Deze observaties zijn op zich al geweldig: ze laten zien hoe (taal)mythes blijven rondzingen, en hoe snel er naar Engelse invloed wordt verwezen, ook als dat onterecht is. Maar het boeiendste staat in de slotalinea van het stuk:

Wel is het een taalkundige aanwijzing dat Geert Wilders diep ingebed zit in een eeuwenlange traditie van bestuur en politiek, die de rest van het volk maar niet heeft weten te bereiken.

Eerder noemt Van Oostendorp dit ook al: het woord difficulteren wordt al lang gebruikt in de politiek, maar komt daarbuiten niet voor. Dat is toetsbaar: we hebben grote collecties taalgebruik van binnen en buiten de politiek tot onze beschikking. Hierbij dus een taalkundige fact check: wordt het werkwoord dfficulteren inderdaad uitsluitend in de politiek gebruikt?

Corpusonderzoek

Een vraag als deze valt methodologisch gezien binnen de corpustaalkunde. Dat is een veld binnen de taalwetenschap waarin onderzoek wordt gedaan op basis van verzamelingen taal. Die verzamelingen kunnen allerlei taalvarianten omvatten: gesproken of geschreven, uit kranten of dagboeken, informeel of formeel etc. Zie hier of hier voor meer uitleg over corpustaalkunde. Voor het Nederlands zijn er al flink wat corpora beschikbaar. Van bijzonder belang in eerste instantie is Staten Generaal Digitaal. Dit corpus, dat beschikbaar is binnen Nederlab, bevat alle Kamerverslagen, Kamerstukken en Kamervragen van de Eerste Kamer en de Tweede Kamer voor de periode 1814-2014. Een schitterende verzameling teksten om te kijken naar het gebruik van een woord binnen de politiek.

Difficulteren in de politiek

Allereerst is het natuurlijk zo dat dit corpus niet alle politieke taal van Nederland omvat. De tweet van Wilders zou er bijvoorbeeld niet instaan. Toch kan deze verzameling volgens mij een mooi antwoord geven op de vraag of dit woord voorkomt in de politiek of niet. Het antwoord daarop is ja, enigszins. Het lemma difficulteren (dus alle vormen van dat werkwoord) komt sinds 1814 namelijk slechts 84 keer voor. Op bijna 900 miljoen woorden is dat bepaald marginaal te noemen. Lubbers heeft het woord in de Kamer nooit gebruikt, anderen deden dat wel. Er lijkt een toename te zijn van het gebruik van het woord sinds de jaren ’90: 23 van de voorkomens worden in sindsdien gevonden. De ‘piek’ zit in 2014, als het woord 4 keer wordt gebruikt.

Screenshot 2018-06-04 10.26.07

Er is een duidelijke voorkeur voor de infinitief en het voltooid deelwoord: die komen respectievelijk 35 en 36 keer voor. Als vervoegd werkwoord komt slechts de derde persoon enkelvoud voor: difficulteerde (8 keer) en difficulteert (5 keer). Ik weet niet in hoeverre dit typisch is voor Nederlandse werkwoorden, maar het lijkt mij ongebruikelijk dat een infinitief vaker voorkomt dan de vervoegde vormen. Sowieso weten we dat werkwoordsvormen zeker niet allemaal even vaak voorkomen (zie bijvoorbeeld hier).

Difficulteren in andere corpora

Om te kijken of difficulteren ook buiten de politiek wordt gebruikt zijn er verschillende corpora beschikbaar. Die bevestigen in eerste instantie wat Marc stelt: het komt niet voor. Niet in het Corpus Gesproken Nederlands, niet in het Corpus Hedendaags Nederlands, niet in het Brieven als Buit Corpus. In Sonar komt het twee keer voor, in tweets die beiden met politiek te maken hebben. In de corpora van Nederlab komt het echter wél voor: 1337 keer maar liefst. 1058 hits daarvan vallen binnen het genre ‘politiek’. Dat laat toch zien dat het woord een aantal keer voorkomt buiten de politiek. Deze voorkomens lijken zich echter te beperken tot het Early Dutch Books Online (EDBO) corpus, een verzameling teksten uit de periode 1781-1800. De voorkomens in die teksten zijn deels politiek, maar bevinden zich ook in andere genres, zoals de rechtswetenschap en andere wat formelere non-fictieteksten.

Er zijn drie laatste manieren om het woord te zoeken, en die hebben allemaal met internet te maken. Allereerst kun je simpelweg googlen. Dat levert meer dan 3500 hits op: teveel om nu te analyseren. Een snelle blik lijkt er wel op te wijzen dat het woord vooral in politieke context wordt gebruikt. Vervolgens kunnen we op Twitter zoeken. Het woord difficulteren (dus niet het lemma) komt 99 keer voor; difficulteert komt 14 keer voor. Gedifficulteerd en difficulteerde komen niet voor. Op dit totaal van 113 voorkomen staan er 17 in relatie tot de tweet van Wilders. De andere voorkomens lijken (waar dat herleidbaar is) allemaal betrekking te hebben tot een politiek onderwerp. Ten slotte kunnen we nog één ander corpus bekijken: het Corpus of the Web (COW). Dat bevat een grote verzameling online beschikbare teksten. Het is met 7 miljard woorden behoorlijk fors, maar overzichtelijker dan het hele internet. COW sluit aan bij de eerdere corpora: het woord difficulteren komt 21 keer voor, waarvan 18 keer in politieke context (en drie keer op de site van Onze Taal). De andere vormen komen nog minder vaak voor: difficulteert één keer, difficulteerde drie keer, difficulteerden één keer, en gedifficulteerd ook éen keer.

Conclusie

In dit geval bevestigt corpusonderzoek het vermoeden van Marc van Oostendorp: het lemma difficulteren lijkt de laatste 200 jaar vrijwel uitsluitend te worden gebruikt in politieke context. Zeker weten doen we het niet: de data uit EDBO suggereert dat het ook in andere formelere of wetenschappelijke teksten gebruikelijk was. Dit laat zien hoe interessant en belangrijk het is om dit soort vermoedens te toetsen: er is altijd meer over een woord te zeggen. Bovendien kunnen intuïties fout zijn, door bijvoorbeeld de recency illusion, de frequency illusion en andere cognitieve biases. Maar nu difficulteer ik de zaak misschien te veel, dat komt een andere keer wel.

Nederland of Holland?

Ik ben de komende tijd af en toe in het buitenland. Gevraagd waar ik vandaan kom antwoord ik in het Engels steevast ‘Holland’. Dat vind ik nou eenmaal makkelijker uit te spreken. Bovendien is het geografisch correct: ik ben Hagenees en kom dus ook uit dat deel van Nederland dat traditioneel ‘Holland’ wordt genoemd. Maar is het in algemene zin ook goed? Bedoel ik niet eigenlijk Nederland? Er zijn mensen die daar boos van worden, hoewel ze moeilijker te vinden zijn dan ik dacht. Hoe dan ook ben ik mijn taaladviescorpus ook weleens een advies hierover tegengekomen:

Nederland(s) en Holland(s) zijn synoniem. Met het woord Holland bedoelt men nooit de combinatie Noord- en Zuid-Holland. „Is, Neêrland, dit uw beeld?” vraagt Helmers in zijn gedicht De Hollandsche Natie. De Nederlandse maagd en een Hollandse jongen, de Nederlandse Leeuw en de Hollandse haring. (Charivarius 1940:42)

Gebruik liever Nederland, Nederlandsch en Nederlander als u ons vaderland en zijn bewoners bedoelt, en Holland, Hollandschen, Hollander alleen ter aanduiding van de provincies Noord-Holland en Zuid-Holland. (Taalclub 1943:65)

Wij dienen, sprekend over ons land, de term [Holland] te vermijden. (Apeldoorn & Pot 1983:142)

Hollands = van/uit Noord- en/of Zuid-Holland Nederlands = van/uit Nederland
* Duitsland importeert veel Hollandse landbouwproducten.
Duitsland importeert veel Nederlandse landbouwproducten.
* Holland wint hopelijk van Italië.
Nederland wint hopelijk van Italië. (Van der Pol 1996:192)

Het is een vrij zeldzaam probleem, met maar vier voorkomens (als iemand er nog eentje kent houd ik me aanbevolen), maar toch is het interessant. Allereerst is het boeiend dat juist Charivarius, vaak genoemd als een van de eerste taaladviseurs, op dit punt vrije variatie toestaat. Dat toestaan van variatie gaat al in tegen het theoretische uitgangspunt van Milroy en Milroy waar ik laatst over schreef. Ten tweede is het boeiend dat er ook in 1940 variatie mogelijk was. Er wordt wel gezegd dat de taaladviestraditie minder streng wordt (bijvoorbeeld door Haeseryn 1999:237-238). Zulke uitspraken gaan voorbij aan twee feiten: dat taaladvies niet uniform is, en dat er ook vroeger al wel coulance was op een aantal vlakken. Vergelijk dit advies:

Na de vergrotende trap (comparatief) en na ander(e), anders, elders, nergens, niemand niet(s), nooit zijn dan en als even correct (Smeyers 1955:25)

Dit citaat laat ook zien dat sommige taaladviseurs vroeger op sommige punten ruimhartiger waren ten opzichte van variatie dan nu. Dit lijkt ook voor Nederland/Holland op te gaan: de andere drie bovengenoemde adviezen zijn strenger dan Charivarius. Een interessante ontwikkeling, waar ik hopelijk binnenkort meer over kan zeggen (er is een paper under review).

Dit variatiepaar is opnieuw ook qua argumentatie interessant. Duidelijk is dat er mensen zijn die Holland gebruiken in de betekenis van Nederland. Hoeveel dit er zijn is onduidelijk: daar heeft geen taaladviseurs ooit onderzoek naar gedaan (uitspraken als ‘je hoort het steeds vaker’ ten spijt). Charivarius lijkt zich op dit gebruik te baseren: ze worden als synoniemen gebruikt, dus dat kan best. De anderen vinden het niks: er is nou eenmaal een onderscheid, daar heb je je aan te houden. Dit is volgens mij indicatief voor veel taaladvies: er zijn altijd mensen die het nodig vinden bepaalde vrije variatie te onderdrukken door een al dan niet bestaand onderscheid te benadrukken. Hier is best iets voor te zeggen voor het onderscheid: je kunt een betekenisverschil beargumenteren op geografische en historische gronden. Maar je kunt ook vanuit gebruik en begrip redeneren. Dan is Holland niet per se een probleem. Zoals zo vaak hangt het er maar net vanaf wat je belangrijk vindt.

Ik blijf het gewoon ‘Holland’ noemen in het Engels. Mijn argumenten: het levert geen begripsproblemen op, en het vergemakkelijkt de communicatie, omdat ik geen krampachtige uitspraak hoef te bezigen. In het Nederlands houd ik het op Nederland, maar als iemand Holland wil zeggen, doe je ding. Vrije variatie, helemaal zo gek nog niet.

De beste Engelse mop die ik ken

Ik ga straks lekker op vakantie, dus post hier even een licht tussendoortje. Mijn onovertroffen kamergenoot Paul Hulsenboom was laatst een oud blijspel aan het lezen (de titel is me even ontschoten). We kwamen te spreken over humor, en over of dat vroeger anders was, en of oude grappen nog werkten. Het deed mij denken aan de Allerbeste Grap uit de Engelse Geschiedenis (en Misschien wel de Hele Wereldgeschiedenis). Aldus:

A married Gentleman coming through Canterbury, his Horse threw him, which a young Gentlewoman seeing, fell a laughing; the Man being terribly vext that she should laugh at his fall, angerly said, Madam, pray admire not at this, for my Horse always stumbles when he meets a Whore; she sharply reply’d, have a care then Sir, you do not meet your Wife, for then you will certainly break your neck.

(HC, Penny Merriments, ‘Canterbury Tales’, 1687: B1v.–B2r.)

Wow, en dat in de 17e eeuw! Dat is een comeback waar je in 8 Mile nog een ‘o damn dog’ of ‘o snap son’ voor had gekregen. Wat de grap ook grappig maakt: hij is te vinden op pagina 6 van An Introduction to Early Modern English (Nevalainen 2006). De grap staat in het boek als voorbeeld van laat-17e eeuwse grammatica. Ik vind dat geweldig. Van alle voorbeelden die je kan kiezen als schrijfster, kies je een oude mop. Heerlijk. Wat het nog leuker maakt is dat de schrijfster, de Finse Terttu Nevalainen, er niet per se uitziet alsof ze van een goede harde mop houdt. Ze ziet er namelijk intens beschaafd uit. Overigens is ze een levende legende op het gebied van de historische sociolinguïstiek.

Wat maakt deze grap nog meer geweldig? Emancipatie! De vrouw wint duidelijk deze uitwisseling. Ik heb geen idee of dat exemplarisch was voor grappen in de 17e eeuw, maar afgaande op het aantal dommeblondjesmoppen dat over vrouwen gaat is het nu niet per se de norm.

Enfin, dit ter verstrooiing. Ik spreek jullie na mijn vakantie.

‘De verreweg grootste’ of ‘Verreweg de grootste’?

Ik lees graag online-artikelen over voetbal. Niet alleen omdat ik geïnteresseerd ben in de inhoud van die artikelen, maar ook omdat je nog weleens een leuk taalfenomeen tegenkomt. Ik schreef elders bijvoorbeeld over het woord rabona, en over de verschillende typen hattrick die bestaan. Nu echter was er een grammaticaal fenomeen dat mijn aandacht trok. In dit artikel kwam ik namelijk de volgende zin tegen:

“De verreweg spannendste titelrace uit Europa verdient eigenlijk twee kampioenen.”

Het gaat me hier om het gebruik van het woord verreweg. In bovenstaande zin wordt dat gebruikt als graadaanduidend bijwoord, dat spannendste bijstelt. Ik kende het echter alleen op een iets andere manier, namelijk zo:

“Verreweg de spannendste titelrace uit Europa verdient eigenlijk twee kampioenen.”

Voorkomen

Enfin, één voorkomen van variatie maakt nog geen zomer. Gelukkig ben ik momenteel veel door de corpora van het Nederlands aan het struinen, en kan ik kijken hoeveel de beide volgordes daarin voorkomen. Dat leverde de volgende resultaten op:

(1) verreweg de (2) de verreweg
Corpus Gesproken Nederlands 13 0
Corpus Hedendaags Nederlands 1695 15
Sonar 743 4
Nederlab 20.374 93
Corpus of the Web 12.804 116

Het moge duidelijk zijn: optie 1 is de verreweg meestvoorkomende. De andere volgorde is bepaald marginaal te noemen: zelfs in de grootste corpora (in Nederlab staan ongeveer 10 miljard woorden) komt hij nauwelijks voor. Een interessant gegeven is nu nog de tijdlijn. Is volgorde 2 een nieuw fenomeen? Niet per se. Onderstaande grafiek laat het aantal hits zien in drie verzamelingen in Nederlab. Duidelijk te zien is dat volgorde 2 weinig voorkomt, maar dat het wél al lange tijd voorkomt. Ook lijkt er niet per se heel veel toename te zijn.

svg-vis-timeline

Grammatica

Nu was ik natuurlijk benieuwd: had ik nieuwe grammaticale variatie ontdekt? Natuurlijk niet. Sterker nog: het is al gezien, en het schijnt zelfs onderdeel te zijn van een algemener fenomeen. Er is namelijk een tendens om het bijwoord op te nemen in de zelfstandig-naamwoordsgroep. Dat stellen Van der Horst & Van der Horst in ieder geval in hun geweldige Geschiedenis van het Nederlands in de twintigste eeuw. Ze geven zowaar nog wat voorbeelden:

(3) het voor u beste abonnement
(4) het misschien wel belangrijkste deel van het onderzoek.

Ah domper, heb ik toch niets nieuws ontdekt. Gelukkig is er later nog een passage waar iets over te zeggen is. Van der H. & van der H. stellen namelijk het volgende:

Dat leidt tot de veronderstelling dat de volgorde || de verreweg grootste, en || de verreweg meesten, zich pas in de loop van de 20e eeuw is gaan voordoen, hetgeen goed aansluit bij het taalgevoel van velen, ook nu, dat deze volgorde ongewoon is.

Ze baseren deze veronderstelling op het feit dat het Woordenboek Nederlandse Taal (WNT) alleen volgorde (1) noemt. Dat lemma is gebaseerd op materiaal van vóór 1921, en dus zal er toen nog geen variatie zijn geweest. Maar inmiddels weten we beter: die variatie was er al wel. De Van der Horsten hebben het dus mis,  en het WNT heeft het dus ook mis. Vooral dat laatste is interessant en problematisch.

Taaladvies?

Net zo interessant en problematisch is de andere opmerking die ik tegenkwam over het gebruik van verreweg.  In het monumentale Syntax of Dutch van Hans Broekhuis staat het volgende:

“the modifier cannot be adjacent to the superlative in attributive position; it precedes the definite determiner (deel Adjectives and Adjective Phrases p. 260)

Wat deze opmerking nog net wat lastiger maakt dan die van het WNT is dat Syntax of Dutch eind 20e eeuw geschreven is. Waar de schrijvers van het WNT nog geen computers tot hun beschikking hadden om te checken of er ergens bepaalde variatie voorkwam, is dat eind jaren ’90 veel minder waarschijnlijk. Toch blijft de mogelijkheid bestaan dat ook Broekhuis simpelweg niet wist dat er variatie was. Nogmaals, volgorde (2) lijkt een betrekkelijk marginaal verschijnsel te zijn. Maar feit blijft dat er aantoonbaar variatie is, en dat die niet wordt benoemd.

Onbedoeld normatief

Deze casus is een mooi voorbeeld van een groot probleem voor de taalwetenschap. Men wil in de taalwetenschap namelijk sinds een jaar of honderd een onderscheid maken tussen descriptie (beschrijving) en prescriptie (voorschrijving). Taalwetenschappers zouden moeten beschrijven wat er gebeurt, en niet wat er zou moeten gebeuren. In de praktijk zijn die twee echter ontzettend moeilijk te scheiden. Je kunt een beschrijving namelijk altijd interpreteren als een norm. Zeker als je zulke onvoorwaardelijke uitspraken doet als in Syntax of Dutch. Want stel dat ik tekstschrijver ben, en me afvraag ‘hoe het moet’. Met googelen kom je al snel juist deze uitspraak tegen: ‘cannot be adjacent’. Het lijkt dus alsof Broekhuis zegt: alleen verreweg de is goed, iets anders kan niet. Of hij het nou wilde of niet, door een onvoldoende genuanceerd beeld van de variatie te geven, wordt de meer frequente vorm tot norm verheven. Overigens kun je best beargumenteren dat deze vorm ook daadwerkelijk de norm is, maar dat is een andere discussie. Dat hangt maar net af van hoe je een norm vaststelt, en bovendien, dan ben je eigenlijk dus een taaladviesboek aan het schrijven.

Al met al is het voor taalwetenschappers dus zaak om zeer zorgvuldig met bestaande variatie om te gaan. In dit geval zou ik zeggen: Verreweg de is verreweg de frequentste vorm, maar de verreweg komt ook marginaal voor. In taaladviestermen: wat mij betreft is het prima om hier vrije variatie toe te staan. Verreweg het interessants.

 

Taaladvies is de onderdrukking van variatie

Op dit blog heb ik tot nu toe af en toe iets inhoudelijks over mijn onderzoek verteld en een paar keer iets over de methodologie. Ik heb nog niet geschreven over de theorie achter wat ik doe. Ook die is interessant, en de moeite van het delen waard. Daarom vandaag iets over de rol van prescriptivisme en taaladvies in taalstandaardisatie, en vooral over de relatie tussen taaladvies en variatie.

Standaardisatie

Een aantal talen, waaronder het Nederlands en het Engels, heeft een standaardisatieproces ondergaan. Dat proces vindt meestal plaats omdat er de behoefte ontstaat aan een zogenaamde supraregionale taal: een taal waarmee mensen uit verschillende regionen met elkaar kunnen praten. Die behoefte kan voortkomen uit handel, maar vaak ook uit politiek (zie Burke 2004 voor een interessante kijk hierop). Taalstandaardisatie is een complex proces, maar waar het in het kort op neer komt is dat er een bepaalde taalvariant wordt gekozen, dat die variant in steeds meer situaties gebruikt wordt, en dat een op zeker moment deze variant wordt vastgelegd. Die gebeurtenis, codificatie genoemd, is belangrijk voor taaladvies, maar is meestal niet één moment. Voor het Nederlands bijvoorbeeld zou je kunnen zeggen dat de spelling van Siegenbeek en de grammatica van Weiland belangrijke codificatiemomenten inhielden. Het ging toen namelijk om de eerste officieel door de regering gesanctioneerde vastlegging van het Nederlands. Maar ja, het hield daar niet op, en het begon er ook niet.

Overigens is er steeds meer bewijs voor het feit dat er alleen in uitzonderlijke gevallen sprake is van standaardisatie die ‘af’ is, waar een bepaalde groep zich onder bepaalde omstandigheden volledig aan de vastgestelde standaard houdt. Er is eigenlijk altijd veel meer variatie dan je denkt (zie bijvoorbeeld werk van Gijsbert Rutten en anderen in Leiden) Daarom wordt ook wel gezegd dat standaardisatie geen punt is maar een richting. De codificatie is in die richting een bepaald punt, waar mensen op kunnen terugvallen. Zó moet het, zoals toen vastgelegd. En zo komen we bij prescriptivisme.

Prescriptivisme

Volgens een van de theorieën over taalstandaardisatie (die van James en Leslie Milroy) gaat een taalgemeenschap na de codificatie een laatste fase in: die van onderhoud. In deze prescriptivistische fase wordt de gecodificeerde norm verspreid en in stand gehouden. Dat gebeurt o.a. door integratie van de norm in het onderwijs, en door taaladvies. Taaladvies kan verschijnen in boekvorm, in tijdschriften, op radio en via ieder ander medium. Misschien wel het belangrijkste aspect van taaladvies is dat het zich niet meer richt op de taal als geheel. Het richt zich alleen op die stukjes van taal waar variatie bestaat.

Variatie

Als je nadenkt over standaardisatie als algemeen fenomeen, dan is het niet moeilijk om te begrijpen dat variatie en standaardisatie elkaar niet goed liggen. Sterker nog, ze klinken eigenlijk als elkaars tegenpolen. Kun je een standaard hebben die variabel is? Dat is een interessante, zelfs filosofische vraag lijkt me. Voor veel dingen kan het denk ik niet, of is het in ieder geval niet wenselijk. Het is onhandig als dingen als de kilo, het spoor, de indeling van tijd en rechtspraak allemaal anders zijn. Dan weten we waar we aan toe zijn, en dan kunnen we met elkaar in dezelfde samenleving wonen. Veel mensen zijn het erover eens dat standaarden handig zijn: er is zelfs een heel instituut voor, het NEN!

Voor taal lijkt men dezelfde keuze te hebben gemaakt. De norm voor de standaardtaal staat in gevallen waar variatie is bijna altijd slechts één van de vormen toe. Dit noemt men in de theorie de ‘suppression of optional variability‘, de onderdrukking van optionele variatie. Waar variatie is, daar zeggen taaladviseurs: slechts een vorm is juist. Of het nou gaat om groter als/dan, awkward/ongemakkelijk, de NS is/zijn en ga zo maar door: de mogelijkheid om te kiezen wordt onderdrukt. Allerlei andere aspecten van taaladvies kunnen verschillen, zoals de doelgroep, de onderwerpen, de toon, de argumenten, maar dit basisbeginsel blijft overeind.

Altijd?

Taaladvies onderdrukt variatie, dat is het uitgangspunt van de theorie. Maar of dat in de praktijk altijd zo is, dat is eigenlijk nog maar de vraag. Wat mij betreft is dit typisch zo’n algemene, theoretische uitspraak, die niet per se gestoeld is op minutieus onderzoek in de data. Gelukkig ben ik bereid om dat soort onderzoek te doen.  Ik heb tot nu toe twee onderzoeken gedaan, allebei op basis van taaladvies in Nederland in de 20e eeuw. In mijn eerste onderzoek nam ik een willekeurig sample van 1678 taaladviezen uit 130 gidsen (1917-2016), in het tweede onderzoek bekeek ik de ontwikkeling van advies over het gebruik van als en dan, dat waren 250 gevallen in 75 publicaties (1932-2017). Ik vertel graag een andere keer gedetailleerder over de onderzoeken (bijvoorbeeld over die vreemde aantallen).

Uit mijn onderzoek blijkt dat taaladvies zeker niet altijd alle variatie uitsluit. In verreweg het grootste deel van de taaladviezen gebeurt dat echter absoluut wel: in respectievelijk 85% en 84% van de gevallen werd geen variatie toegestaan. In die andere gevallen werd soms variatie volledig toegestaan, soms onder bepaalde omstandigheden (bijvoorbeeld wel in gesproken maar niet in geschreven taal) en soms werden dingen gezegd als ‘het is niet fout maar niet fraai’. Opvallend zijn de bevindingen als je kijkt naar het verloop over de tijd: bij mijn algemene sample wordt er steeds ietsje meer variatie toegestaan (naar 29% vanaf 2010), maar bij als/dan wordt er steeds minder variatie toegestaan. Taaladvies over als/dan lijkt dus strenger te worden. Ik ben er nog niet over uit waarom dit gebeurt, en waarom dit tegen de trend in gaat. Mijn hypothese is dat sprake is van stereotyperende focus: men laat over het algemeen de teugels vieren, maar is bij bepaalde sjibbolets juist extra streng. Daarover later meer.

Nodig?

Kortom, de titel van dit blog is niet helemaal waar. En de theorie lijkt dus óók niet helemaal waar te zijn. Het onderdrukken van variatie gebeurt heel veel in taaladvies, maar er wordt ook variatie toegestaan. Die toegestane variatie is bereboeiend, en geeft inzicht in de willekeur van taaladviezen. Waarom mag wel de/het gordijn maar niet meisje die? Enfin, daarover een andere keer meer.

Acroniemen in de wetenschap

De afgelopen maanden werkte ik mee aan een project dat als doel had werken over de Nederlandse taal bijeen te brengen en beschikbaar te maken. Inmiddels is een deel hiervan ontsloten via deze website. Er is nog een wereld te winnen, je kunt het bijvoorbeeld niet doorzoeken, maar daar wordt aan gewerkt. Enfin, daar wilde ik het eigenlijk niet over hebben. Ik wil het hebben over mijn bijdrage aan het project. Die bestond vooral uit begeleiding van de noestwerkende studentassistent Bo Grisel, maar ik heb ook de naam van de database bedacht. En dat is heel leuk, en geeft me een mooi excuus om over een van mijn vele obscure hobbys te praten: wetenschappelijke acroniemen.

Even voor de duidelijkheid: een acroniem is een afkorting die je als woord kan uitspreken. GFT is dus géén acroniem, noch is KNMI dat, of VVD. Wel acroniemen zijn bijvoorbeeld RIAGG, NAVO en NASA. In de wetenschap is het al een tijd de sport om voor projecten, databases, tools en andere academische uitwassen een mooi acroniem te bedenken. Ik vind dat geweldig, en ik ga hier dan ook volledig in mee. Het zijn de geweldigste processen om aan deel te nemen ook, echt brainstormen met een grote B. De vereisten zijn als volgt:

  • het acroniem moet lekker uit te spreken zijn. PRZEWAL werkt net, en is misschien leuk als genealogische database voor Russische paarden, maar ideaal is het niet. Beter zijn bijvoorbeeld de Nederlandse voorbeelden DANS en CLARIAH.
  • het kan een verwijzing naar een bestaande naam of bestaan woord zijn (zie Momfer). Nadeel is dan wel dat je minder makkelijk gevonden kan worden op Google. Als je bijvoorbeeld iets TRUMP noemt zul je eerst wat ander materiaal tegenkomen denk ik. Ook hier is CLARIAH dus best handig. En DAGENTA overigens ook.
  • het kan een grap zijn (zie NoDaD)

Inmiddels heb ik de volgende acroniemen ter wereld gebracht:

DAGENTA – DAtabase GEschiedenis Nederlandse TAalkunde

DAVONS – DAtabase VOorbeeldzinnen Nederlandse Schoolboeken. Voor een projectje waar ik mee aan de slag ga. Geen bestaand woord, maar het bekt wel lekker vind ik.

NoDaD – Normative Database of Dutch. Dit is de werktitel voor mijn overzicht van taaladviesliteratuur in de 20e eeuw. Ja, in het Engels, maar in het Nederlands kreeg ik er geen grap uitgeperst. Ik sta open voor suggesties. Overigens is het best mogelijk dat deze opgaat in DAGENTA

MOMFER – Meertens Online Motif FindER. Voor deze kan ik maar een beetje credits nemen, hij komt vooral uit de koker van Folgert ‘Robokapje’ Karsdorp. Extra grap van hem is het gebruik van de landcode van Mali, ml. Daarmee is de link naar een bepaald geliefd kinderkarakter best groot geworden…

Wel bijna allemaal met database, nou ja, daar is even niets aan te doen. Ik zal de eerste zijn om te zeggen dat het allemaal nog beter kan, maar ik ben dan ook nog slechts de Jongste Bediende. Het fenomeen is in ieder geval genoegzaam bekend (heerlijke uitdrukking), kijk maar eens hier, hier, hier of hier voor lijstjes.

Mensen hebben er zelfs papers over geschreven (ja, papers meervoud). Schitterend materiaal, zo navelstaarderig en meta als maar kan. “Tussen 2000 en 2012 is het aantal acroniemen in de titels van medische publicaties toegenomen”, zo concludeert een paper, “maar de technische en esthetische kwaliteit is wel verminderd.” Daar kunnen we het mee doen zeg… Hoe dan ook, als altijd ben ik benieuwd naar jullie favorieten, of eigen creaties!