Het probleem met taalverloedering

Jongens, we kunnen ons weer verheugen: er is een nieuw programma over taal op tv! Gisteren was de eerste aflevering van de S.P.E.L.-show. Ik zal eerlijk zijn: mijn maag begon al bij het zien van de titel te borrelen, en ik heb dus ook niet gekeken. De tekst op de website van BNNVARA bracht namelijk een flinke portie antiperistaltiek met zich mee: “Het gemiddelde taalniveau in Nederland daalt: jongeren kunnen minder goed lezen en schrijven dan bijvoorbeeld twintig jaar geleden. De S.P.E.L.-show van Astrid Joosten komt als geroepen.” Alsof zij daar ook maar íets aan gaat veranderen zeg, allemachtig… Een interview in het AD opende bovendien met dit stukje tekst:

Astrid Joosten (60) windt – met dt – zich op. Ze signaleert om zich heen taalverloedering en dat gaat de presentatrice aan het hart. “Ik constateer dat onze taalvaardigheden achteruitgaan.”

Het deed me denken aan een interview met Ad Verbrugge van Beter Onderwijs Nederland (BON). In een stuk op de site van NOS werd hij een tijdje terug als volgt geciteerd:

“Er is sprake van taalverloedering en achteruitgang van de uitdrukkings-vaardigheid in het Nederlands bij mensen die later belangrijke functies in het openbaar bestuur en de rest van de maatschappij innemen.”

Dat begrip, taalverloedering: dat hoor je wel vaker (bijvoorbeeld bij de huidige kampioen taalzeuren Japke-d), maar het is eigenlijk een heel lastig iets. Want wat is het eigenlijk, en hoe kom je erachter of er sprake van is?

Wat is taalverloedering?

Het lijkt simpel: taalverloedering is verloedering op het gebied van taal. Verloedering betekent een verslonzing (aldus Van Dale), en dat is dan weer het ‘door on­zorg­vul­di­ge be­han­de­ling er slor­dig uit doen zien’. Een belangrijk element in de woorden verloedering en verslonzing is -ing: dat betekent dat er sprake is van een ontwikkeling, niet van een statische situatie. Taalverloedering dus impliceert een verloop van tijd. Taalverloedering is altijd iets wat optreedt ten opzichte van een situatie in het verleden. Het is nooit duidelijk of die situatie een bepaald punt is, of dat de taal verloedert in relatie tot een langere periode, maar er is altijd sprake van (laten we sjiek blijven) temporele degradatie. Dit lijkt dus vrij helder: als er sprake is van taalverloedering dan betekent dit dat er nu meer slordige taal wordt gebruikt dan eerder.

Hoe kun je taalverloedering constateren?

Het eerste probleem is de slordigheid. Dat woord suggereert dat er geen sprake is van structurele taalfouten per se, maar van onverzorgdheid. Voor mij impliceert slordigheid een verschrijving, een per ongelukke afwijking. Een student die structureel ‘groter als’ schrijft in plaats van ‘groter dan’ schrijft niet in overeenstemming met de standaardtaalnorm, maar is er sprake van slordigheid? Ik zou zeggen van niet. Dit maakt het idee van slordigheid, en daarmee van taalverloedering, lastig te meten: wanneer is er wel, wanneer geen sprake van? Je zou het taalsysteem van iedere taalgebruiker die je bestudeert in kaart moeten brengen om te zien wat structureel is en wat slordig. Maar goed, een beetje onderzoeker bekijkt dit van alle kanten en operationaliseert een mooie werkdefinitie.

Stel dat je zo’n werkdefinitie hebt, en je weet welke fouten je wil bestuderen. Dan kun je met data aan de slag. Vanwege de tijdsdimensie is het ogenschijnlijk eenvoudig taalverloedering te meten. Je neemt simpelweg een hoeveelheid taaldata (essays van studenten bijvoorbeeld) over een bepaalde tijd, en die vergelijk je met elkaar. Zeg tussen 1900 en 2010 ieder decennium 100 essays, liefst over hetzelfde onderwerp, liefst ongeveer evenveel woorden. Je telt de fouten, vergelijkt de samples, maakt een mooi grafiekje en trekt je conclusies. Makkelijk als een appeltaart, zoals onze Angelse buufjes zeggen.

Is er ‘sprake van taalverloedering’?

Zowel Verbrugge (“er is sprake van taalverloedering”) als Joosten (“Ik constateer dat onze taalvaardigheden achteruitgaan”) zijn zeer categorisch. Hun uitspraken suggereren dat er dus daadwerkelijk vergelijkend onderzoek is gedaan, uitgaande van een werkbare definitie van wat taalverloedering is. Maar hier zit het probleem: dat onderzoek is er niet. Er is (voor zover ik weet) nog nóóit een onderzoek geweest dat twee punten in de tijd heeft genomen en heeft laten zien dat er meetbaar meer slordige fouten worden gemaakt dan vroeger. Er is dus sprake van een gevoel. Dat gevoel kan leiden tot interessant onderzoek, maar het is dus niet gestaafd door data. Om daar zó categorisch uitspraken over te doen, dat is dus je reinste onzin.

Waarom denken we dat er taalverloedering plaatsvindt?

Nu wordt het wat mij betreft interessant: waarom doen Verbrugge en Joosten dan die uitspraken? Waar komt dat gevoel dan vandaan? Daar zijn volgens mij drie oorzaken voor te identificeren. De eerste is een set van cognitieve biases, waaronder de frequency illusion. De bekende taalkundige Arnold Zwicky stelt dat die als volgt werkt: als je iets eenmaal ziet, ga je het steeds meer zien. Dit staat ook wel bekend als het Zwangere Vrouwen Syndroom, waarbij je, als je zwanger bent, opeens overal zwangere vrouwen ziet. Bij taal werkt dat net zo. Bovendien is er de recency illusion: als jij iets pas sinds kort waarneemt, denk je dat iets pas sinds kort voorkomt. En dan heb je bij taal ook nog last van een negative bias: je let meer op dingen die fout zijn. Sowieso vallen dingen die afwijken meer op dan dingen die niet afwijken. Kortom: zowel het feit dat je ‘foute’ taalvormen ziet, als dat je denkt dat het er meer zijn, dat kán allemaal tussen je oren zitten.

De tweede oorzaak kan het Golden Age Syndrom zijn, bekend van de slogan Vroeger Was Alles Beter. Als er sprake is van taalverloedering, dan moet er een periode zijn geweest waarin taal beter was. Wanneer was dat dan? Ook vroeger dacht men dat er sprake was van taalverloedering. Willem Diemer schreef in 1964 bijvoorbeeld al dat leerlingen slecht zijn in taal; in haar oratie haalde Muriel Norde een citaat aan van Cicero, uit 46 voor Christus, waarin min of meer hetzelfde werd gezegd. Met andere woorden: dit is een soort algemeen menselijk nostalgisch gevoel. In de woorden van Woody Allen, in Midnight in Paris:

PAUL The name for this fallacy is called Golden Age thinking.
INEZ Touche.
PAUL The erroneous notion that a different time period was better than the one, one’s living in. It’s a flaw in the romantic imagination of those who find coping with the present too difficult.

En dan de derde oorzaak: mensen hebben geen duidelijk idee van hoe het vroeger was. Nu wordt een docent beroepshalve geconfronteerd met fouten, maar er is geen bewijs dat die fouten vroeger niet óók werden gemaakt. Wie van degenen die nu klaagt las tijdens zijn of haar studietijd alle essays van medestudenten? Niemand. Dikke kans (zeker weten doen we ’t niet) dat daar ook allerhande fouten in stonden. De klager zelf, tsja, die is niet representatief: die is namelijk doorgegaan in academia. Je mag nooit je leerlingen spiegelen aan jezelf, dat is basale pedagogiek.

Laten we maar lekker ophouden over taalverloedering

Kortom: beter onderwijs, prima. Rechtszaak aanspannen om dat te bewerkstelligen: als jullie denken dat dat nodig is, doe je ding dan maar. Een tv-show met spelling, nou ja, als er mensen naar kijken, doe je ding dan maar. Als je iets lelijk vindt (niks ís lelijk, dat is een mening), dan moet dat maar. Maar begin alsjeblieft niet over taalverloedering, want dat is niets meer dan een onbewezen gevoel.

Hoe doe ik onderzoek (3) data schoonmaken

Een nieuwe aflevering in mijn serie over methode! Ik vertel met liefde niet alleen over de keuzes die ik maak binnen mijn onderzoek (over temporele afbakening bijvoorbeeld, maar ook over de dagelijkse praktijk van mijn wetenschappelijke bedrijf (bijvoorbeeld over data maken). Vandaag iets over data schoonmaken.

Zoals wellicht bekend gaat mijn promotieonderzoek over de relaties tussen taaladvies en taalgebruik. De eerste poot, taaladvies, heb ik voorlopig afgerond: ik heb een grote verzameling aangelegd van taaladviezen gedurende de twintigste eeuw, en daarover gepresenteerd (publicaties zijn onderweg). Nu ben ik sinds een tijdje bezig met het in kaart brengen van taalgebruik zelf. Zo kan ik advies en gebruik vergelijken. Maar bij het verzamelen van dat taalgebruik loop ik tegen een aantal problemen op. Hoe kom je aan een corpus bijvoorbeeld. Dat is ingewikkelder dan je zou denken (maar daarover een andere keer meer). Nu eerst iets over het schoonmaken van data.

Vieze data

Stel, je hebt een verzameling tekst. Je wil daarin (ik roep maar wat) kijken hoe de verhouding is tussen wil en wilt bij tweede persoon enkelvoud. Bekend is namelijk dat zowel je wil voorkomt als je wilt. Allereerst moet je dan een zoekopdracht (query in het Engels, ik ben gek op dat woord, het klinkt zo koddig) formuleren waarmee je in principe alle relevante gevallen te pakken krijgt. In het geval van wil/wilt kun je natuurlijk alleen op die woorden zoeken. Dan krijg je echter ook alle eerste (ik wil) en derde persoon (hij wil) vormen. Bovendien krijg je ook het zelfstandig naamwoord wil (De wil om verder te werken ontbreekt me). Dat wil je (hoera) allemaal niet. Wel wil je gevallen vinden met waar bijvoorbeeld het werkwoord vóór het persoonlijk voornaamwoord staat (wil je), en ook zijn jij en natuurlijk boeiend.

De juiste zin

Afhankelijk van het corpus dat je gebruikt krijg je op basis van bovenstaande query een set zinnen. Voor de corpora in Nederlab moet je je dan nog door een heleboel zinnen heenwerken die niet goed zijn gedigitaliseerd. Heel frustrerend en tijdrovend, maar ja, schoonmaken van deze data is door een betrokkene “onmogelijk” genoemd en “niet onze prioriteit”. Bovendien “kunnen ook bij vieze data wel onderzoeksvragen gesteld worden.” Ook in de toekomst zullen onderzoekers dus blijven zitten met data als onderstaande:

1928: voldoende ingelicht men weet het . En hier hebben wij een o . ommisSe . ïn vo ” £ & trng tot wie verschillende mensehen , die met de wet te maken hebben , om inlichtingen vragen , en

1947: “gebleken . I k krijg nl. vele verzoeken , die Handelingen dar Staten-GteneBaaL . – . 1 & 46—1947 . — L 44ste VEBGADEEING . — 8 MEI 1947 . eigenlijk op iets anders dan”

1947: “< ” ” ‘ DElFr ; ö .. UNK wr UNK UNK ROTTERDAM / ‘ ‘ f / s / i ‘ » * v w- ” W ” ” ” M i « ia g « • » m—p m « 2 $ Jt * V « V é & * Z * V <* 4 * 2B M * V 2 & * . SQ t J / i Ar / tfus / ltJ UNK óer tóWWRBBlÖKSV ‘ V — ‘”

1958: “het eigenlijk geen woorden van Plato zijn . De geachte afgevaardigde kent dat citaat natuurlijk : „ & iïog fisv Zcoxgarrj ? , aXXa ( piXxeqa r ) dArjêeia ” , hetgeen te vinden is”

Goed, gelukkig zijn er ook corpora die wel schoon zijn, zoals het Corpus Gesproken Nederlands. Daaruit kun je dan op een gegeven moment op basis van je query een set zinnen krijgen die in principe leesbaar is. Dan is het nog zaak om er zeker van te zijn dat die zinnen ook echt kloppen. Hoe specifiek je zoekopdracht ook is, het blijft mogelijk dat er gevallen in zitten die eigenlijk niet aan je opdracht voldoen. Wat betreft wil/wilt kom je bijvoorbeeld dit tegen:

je kan je kunt willen je wil je wilt . zullen jij (praatje over vervoeging)

dat ik uh dat ik je wil … oké . ik zou (wil slaat terug op ik)

klopt . ja of wil je wil je d’r wel heen ? (in principe goed, maar komt zowel als resultaat bij wil je als bij je wil, dus dubbele weggooien)

Van Gent . mevrouw Bussemaker wil u ook nog een vraag stellen (wil slaat terug op mevrouw Bussemaker en is dus derde persoon)

Heel erg goed met programmeren ben ik niet, maar ik denk toch wel te kunnen weten dat het lastig is om dit soort gevallen eruit te halen. Het is moeilijk formaliseren namelijk. Je zou kunnen denken: als ik voor je wil staat, dan slaat wil altijd terug op ik. Maar dat is niet per se zo. Je kunt ook de zin hebben: “Toen zei ik je wil toch niet zeggen dat je een hond bent?” Zelfs als je iets zou kunnen formaliseren, dan gaat het volgens mij om vrij veel condities met weinig resultaten. De vraag is dus of je niet langer bezig bent met condities bedenken dan met handmatig opschonen.

Lang bezig

Dat is wat ik nu aan het doen ben: handmatig opschonen tot ik een ons weeg. De komende maanden zal ik daar nog wel mee bezig blijven. Zo is het nou eenmaal: je zult geen wetenschapper vinden die niet toch nog eentonig handwerk moet doen. In publicaties blijft dat vaak heel impliciet, maar er zitten echt uren van betrekkelijk saaie arbeid achter. Helemaal niet erg, maar wel goed om te weten. Het heeft bovendien wel twee voordelen: ik leer mijn data heel intiem kennen, en ik kom weer eens toe aan het herluisteren van klassieke muziek. De symfonieën van Brahms heb ik gehad, vandaag en morgen staat het verzameld orkestwerk van Stravinsky op het programma. Dat is dan tenminste iets.

Opvallend taaladvies (7): wiens schuld?!

Hoewel ik inmiddels met ander onderzoek bezig ben, heb ik nog een enorme berg aan grappig, interessant en ronduit bizar taaladvies liggen. Vandaag: hoe taaladviseurs wel heel specifieke groepen de schuld geven.

Bij de meeste taaladviezen wordt niet expliciet gemaakt waar een vorm vandaan komt. De grote groep uitzonderingen hierop zijn de barbarismen: in die gevallen worden fouten gelegd bij het Engels, Frans, Latijn of Hebreeuws. Maar wie die fouten dan maakt, daar wordt weinig aandacht aan besteed. Soms zijn het studenten, soms slordige taalgebruikers of mensen die niet van taal houden (zucht). In een paar gevallen wordt een heel specifieke groep mensen als de schuldige voor een bepaald gebruik aangeduid.

De Maasbode brengt een artikel, dat …… Een kellnerterm of zoo iets > Ned. bieden (Haje 1932:36)

Zij waren hoog voldaan. Hoog fijn is in zijn beide deelen een afschuwelijk winkeliersgermanisme, wonderlijk genoeg wat hoog betreft, want hoogst zou allicht tot reclame beter voegen (Haje 1932:53)

Het woord [slagroom] is ingevoerd door de koks, die wij wel mogen beschouwen als weldoeners der mensheid, maar niet als betrouwbare gidsen op taalgebied. (Charivarius 1940:57)

U kent haar [tante Betje] niet? Och kom, dat is ondenkbaar! Iedereen kent haar, en velen vereeren haar zelfs, in het bijzonder handelscorrespondenten en opstellers van reclamegeschriften, maar ook vele anderen, die niet beter weten. (Van Wageningen 1946:102)

Met name bij ingenieurs is – naar mijn ervaring – het streven naar een conserverende verzorging van de taal niet zeldzaam (Veering 1966:27)

En dus niet, al gebeurt het in wielerverslagen vaak: De wielrenners zeiden al op de derde dag van de Tour dat ze geen moraal meer hadden.” (Schaafsma 2013:122)

Zijn deze beschuldigingen reëel? Misschien wel. Het is best begrijpelijk dat het woord slagroom bijvoorbeeld relatief veel wordt gebruikt door mensen die beroepsmatig met eten bezig zijn. Verder is het mogelijk dat handelscorrespondenten meer samengestelde zinnen gebruiken, waardoor de kans op een Tante Betje groter wordt. Ik zeg niet dat het zo is, ik zeg alleen dat het niet helemaal ondenkbaar is. Dat juist kelners relatief vaak het werkwoord brengen/bieden gebruiken is óók beroepshalve voorstelbaar: “Mag ik u nog een advocaatje brengen/bieden?” Alleen eigenlijk de observatie van Schaafsma lijkt me onwaarschijnlijk, en meer een afspiegeling van zijn mediadieet dan van een daadwerkelijke link.

Ik vind dit soort observaties knap interessant, en ik zou ze maar wat graag toetsen aan echt taalgebruik. Daardoor kun je namelijk inzicht krijgen in de opmerkingsgave van taaladviseurs: in hoeverre is wat zij zeggen nou echt gebaseerd op wat er gebeurt? Worden zij ook gehinderd door cognitieve biases zoals de recency illusion en de  frequency illusion? Het leidt verder naar de vraag in hoeverre mensen gelijk hebben als ze zeggen ‘je hoort het steeds vaker’ (waarover een andere keer meer). En daarmee krijg je weer inzicht in het algemene taalbewustzijn ten opzichte van frequentie bij taalgebruikers. Daar is al wel veel onderzoek naar gedaan, maar voor zover ik weet niet met betrekking tot betwiste taalvormen. Als iemand zin heeft hoor ik het graag.

“Een een een een een boek”: over lidwoordherhaling in gesproken taal

Ik ben dezer dagen voor allerlei onderzoeksdoeleinden lekker aan het klooien in het onvolprezen Corpus Gesproken Nederlands (CGN). Een van de voorbeelden die ik tegenkwam bevatte het volgende fragment:

het ook een een een boek dat

Een grappig voorbeeld: drie keer een op een rij! Ik wist wel dat mensen af en toe lidwoorden herhalen. In gesproken taal komt het best eens voor: het wordt gedaan om tijd te rekken, om even na te kunnen nadenken. Uh en uhm worden soms om dezelfde reden gebruikt. Maar voor zover ik weet houdt het wat betreft lidwoorden hierbij op: welke we herhalen en hoe vaak we dat doen, daar ben ik nog geen artikel over tegengekomen.

Bepaald of onbepaald

Worden bijvoorbeeld bepaalde of onbepaalde lidwoorden vaker herhaald? Ik had het daar toevallig over met een van mijn hooggeachte promotoren, Helen de Hoop. Zij hypothetiseerde dat onbepaalde lidwoorden vaker worden herhaald, omdat je bij zo’n lidwoord nog meer mogelijkheden hebt voor wat je gaat zeggen. Het woord onbepaald is hier doorslaggevend. Zo’n hypothese is in het CGN makkelijk te testen. Het enige wat ik moet doen is lidwoorden zoeken die op elkaar volgen. Een probleem: in principe zit natuurlijk ‘een een’ ook in ‘een een een’. Ik loste dit op door in mijn zoekopdracht telkens de combinatie van lidwoorden zowel te starten als te eindigen door ‘woord is níet (het lidwoord waar ik naar zoek)’. Ook zocht ik alleen op woorden die als lidwoord waren aangemerkt, om zo het telwoord één buitenspel te zetten. Zie hier beneden de resultaten.

  de het een
2x  2321 279 2919
3x  387 29 607
4x  96 9  133
5x  20 3  32
6x  6 0  14
7x  7 0  3
8x  0 0  2
9x  0 0  1
totaal 2837 349 3711

Ik moet zeggen: ik was toch behoorlijk verbaasd over hoe vaak dit voorkwam. In totaal vinden we herhalende lidwoorden in maar liefst 6897 gevallen. Ook opvallend vind ik de voorbeelden met heel veel opeenvolgende lidwoorden. Die gevallen zien er zo uit:

dat is een zeg maar een een een een een een een een een manier van genezing die uit Japan komt (9x een)

de de de de de de de zogenaamde aanschuifconferenties die we in Oudemanhuispoort hebben georganiseerd (7x de)

het is ’t is allemaal wat meer buiten het het het het het Haagse gekonkel (5x het)

De en een

Vervolgens valt op dat de en een veel vaker voorkomen dan het. Maar dat is misschien een effect van de totale aanwezigheid van die lidwoorden. Daar is makkelijk achter te komen door de relatieve frequentie van de lidwoorden in het corpus.

totaal corpus % lidwoord corpus % dubbele lidwoorden
de 249.339 52,5% 41,1%
het 53.230 11,2% 5,1%
een 172.332 36,3% 53,8%

Inderdaad komt het relatief minder voor, en dat verklaart deels ook het feit dat het minder voorkomt bij de verdubbelde lidwoorden. Maar daar is niet alles mee gezegd. Dan de andere hypothese: komt lidwoordherhaling inderdaad vaker voor bij onbepaalde lidwoorden? Het antwoord daarop is absoluut ja. Onbepaalde lidwoorden zijn stevig oververtegenwoordigd bij de verdubbelingen. Ze komen bovendien ook in langere combinaties voor.

Aanwijzende voornaamwoorden

Een andere collega van me, Joske Piepers, kwam op vervolgens op het lumineuze idee om ook naar aanwijzende voornaamwoorden te kijken. Deze (sic) zoekopdracht sluit aan bij een serie waar Marc van Oostendorp mee bezig is over het verschil tussen hier en daar, dit en datdit en deze zijn formeler en specifieker dan dat en die. Mijn vermoeden is dat dat en die dus vaker voorkomen, opnieuw vanwege de onzekerheid die in de woorden besloten ligt. Ik vermoed bovendien dat deze weinig wordt herhaald, omdat het niet eenlettergrepig is.

  die dat dit deze
2x  2986 8497 113 35
3x  411 542 12 3
4x  70 108 0 0
5x 13 11 0 0
6x  7 2 0 0
7x  2 0 0 0
totaal 3489 10160 125 38

Mijn vermoedens worden wederom bevestigd. Het verschil in frequentie is bovendien veel groter dan bij de lidwoorden: het meer specifieke dit en deze worden slechts bij uitzondering herhaald. Opvallend is het hoge aantal verdubbelingen van dat ten opzichte van die: dat strookt niet met de frequenties van de bijbehorende lidwoorden. Voor een deel kan het misschien verklaard worden door zinnen als Ik denk dat dat klopt, maar meer gedetailleerd onderzoek zou moeten uitwijzen of dat zo is.

Meer onderzoek

Het is weer een klein en behoorlijk oppervlakkig onderzoekje (net als bij difficulteren), maar het laat toch een paar interessante dingen zien. Zo komen aanwijzend voornaamwoord- en lidwoordverdubbelingen behoorlijk vaak voor. Veel vaker dan ik had gedacht in ieder geval. Bovendien komen verdubbelingen vaker voor bij het onbepaalde lidwoord en de onbepaaldere aanwijzende voornaamwoorden. Daarmee is de kous niet af. Om in een goede wetenschappelijke traditie te besluiten: er moet meer onderzoek worden gedaan. Zijn er bijvoorbeeld nog nadere patronen te bespeuren in het gebruik? Welke woorden volgen op de verdubbelingen? Zijn er nog effecten van genre? Komen verdubbelingen bijvoorbeeld meer voor in informelere situaties (je zou denken van wel)? Sowieso ben ik van mening dat lidwoorden nog wel wat meer onderzoek verdienen. Geïnteresseerden kunnen zich te allen tijde bij ondergetekende vervoegen.

De popularisering van wetenschap moet op de schop

Gisteren schreef Maarten Keulemans een opinieartikel in De Volkskrant, getiteld Wetenschap, neem de bloggende wetenschapper eens serieus. Zijn belangrijkste punt: bij al dat gepraat over ‘maatschappelijke impact’ van wetenschap worden bloggers vergeten. Dat is zonde, en daar moet iets aan veranderen. Wetenschapsbloggers leveren vaak een geweldige bijdrage aan het publieke debat, ze zijn kritisch, delen kennis, geven inzicht in de wetenschap, en doen dat allemaal gratis en voor iedereen toegankelijk. Ik kan me alleen maar aansluiten bij Keulemans’ stuk. Ik zou zelfs verder gaan: de hele manier waarop er op dit moment wordt omgegaan met popularisering door wetenschappers moet veranderen.

Doorgaan met het lezen van “De popularisering van wetenschap moet op de schop”

“Wat een ree wijf!” Meer vreemde woorden uit 1937

Eind vorig jaar besprak ik al eens het vreemde taaladvieswerkje Op en Top Nederlands, een taaladviesgids uit 1937. Later besprak ik ook de verbazingwekkende inhoud, met woorden als vlijmkoker, tuf-tuf (Verkieselijk boven: „wagen”) en fep (Aan de fep). Maar wacht, er is nog veel meer! Bij het ter persé gaan van de vorige blogpost had ik het werkje nog niet uit, maar nu wel. En dat leverde opnieuw een schat aan mij onbekende woorden op.

ree, bnw. (Een ree wijf)
prouveer, ww. (Dat prouveert niet voor haar)
pulkippetje
praaisein (Verkieselijk boven: „roepnaam”)
prang, ww. (Geprangde boezem)
poesmooi
pondpondsgewijze
plekkerig
piereverschrikkertje
overkluis, ww. (Een overkluisde beek)
onwijsgerig
ontveins, ww.
omkoud (Hij is er omkoud)
neepjesmuts
mitsgaders
molik
miers, bnw.
masteluin (Masteluin is een mengsel van rogge en tarwe)
matjesvijgen
mandélig (mandélige muur)
lamoen
lebmaag
lammenadig
kor-oester
komenijswinkel
kluisprop
karnpols
jank aan (Hij jankt zijn baas aan)
hij (Te hij of te fij)
hei (Te hei of te fij)
heusjes
haam ( = net, juk)
etgroen
eest, ww.
durk
baars, bnw. (= als een baar, totok) *

Ik kan echt alleen maar ongelooflijk smullen van deze woorden. Wat een heerlijkheid, iedere vorm van nadruk schiet te kort. Allemaal woorden die ik niet ken. Goed, sommige woorden schijnen wel nog voor te komen, zoals etgroen en pondspondsgewijs, hoewel ze dan niet heel frequent zijn. Andere uitdrukkingen zijn veel zeldzamer. ‘Een ree wijf’ bijvoorbeeld komt maar 4 keer voor op het hele internet (met dank aan mij nu zes keer). Helemaal bont maakt het woord praaisein het: dat komt helemaal niet voor op het Nederlandse interweb! Ook lollig: praaisein is niet eens meer een vergeetwoord: het is zelfs daarvoor blijkbaar al te ver weggezakt.

Gelukkig is er nog het Woordenboek der Nederlandse Taal. Daar heb je nou echt wat aan. Dankzij dit parel onder de woordenboeken kom ik erachter wat een kluisprop is (“Tegen het binnenstroomen van het water werden vroeger de kluizen digt gemaakt met zoogenaamde kluisproppen, zijnde houten stoppen met poortlaken bekleed”). En dat lammenadig misschien wel een oude contaminatie is van lam en ongenadig! Overigens is praaisein wederom nergens te bekennen…

Maar serieus: wie gebruikt deze woorden nog? Ik hoor het graag.

* Deze lijst is tot stand gekomen met hulp van mijn vader Jan van der Meulen, die zo vriendelijk was een deel van het werk in de KB te scannen.

Liever schone data dan veel data

Vorige week schreef ik een blogpost naar aanleiding van een stuk van Marc van Oostendorp (die weer reageerde op een tweet van Geert Wilders). In de post beschreef ik het gebruik van een bepaald woord, difficulteren, aan de hand van een aantal verschillende corpora van het Nederlands. Mijn post bleek op haar beurt aanleiding voor professor Jan Odijk om een post te schrijven over de structuur en interface achter de door mij gebruikte corpora. Het onderzoekje dat ik in twee uur op een dinsdagochtend had uitgevoerd leek daarmee plotseling te worden opgevoerd als rechtvaardiging voor meerdere miljoenenprojecten. Dat is al te veel eer: het was een alleszins triviaal onderzoekje. Maar dit geeft mij wel een mooi haakje om wat kritisch commentaar te geven op deze interface. Vooral op twee punten is er nog een enorme winst te behalen: de kwaliteit van de data is nog aan drastische verbetering toe, en over het type data kan beter worden nagedacht.

Schone data

Laat vooropstaan dat ik zeker niet ondankbaar wil lijken. Wat er al gebeurd is binnen Clariah (zo heet het project achter de interface) is fijn en handig. Zo is een grote hoeveelheid corpora makkelijk toegankelijk binnen Nederlab, en kunnen deze zowel apart als gezamenlijk worden doorzocht met verschillende tools. Je kunt inderdaad vrij complexe zoekfuncties bedenken. Ik was bijvoorbeeld laatst op zoek naar zelfstandig naamwoorden die in het meervoud staan, voorafgegaan door een woord dat eindigt op –tal maar dat níet aantal is (bv. vijftal, honderdtal), en gevolgd door een werkwoord. Dat gaat vrij eenvoudig.

Maar het is dus niet alles goud wat blinkt, ten eerste dus wat betreft de kwaliteit van de data. Men lijkt namelijk toch in de zogenaamde Big Data-val te trappen, waarbij de focus vooral ligt op kwantiteit. Neem het sub-corpus KB Kranten. Dat bevat een ontstellende 10 miljard woorden. Als zodanig is het integraal in Nederlab beschikbaar, en er volgt binnenkort nog minstens zo’n groot aantal woorden. Die omvang heeft bepaalde voordelen. Het zoeken naar zeldzame woorden, zoals difficulteren, wordt makkelijker: hoe meer data, hoe groter de kans dat het woord er een keertje tussen zit. Ook voor het bouwen van taalmodellen is meer data beter. Maar er zitten nog wel wat haken en ogen aan. Zo is een groot deel van de data nog niet opgeschoond. Dan kun je wel zoeken, maar dan zijn je precision en recall zowel onduidelijk als laag. Met andere woorden: je weet niet hoeveel van de totale gevallen van een zoekopdracht je daadwerkelijk te pakken krijgt, en je weet niet hoeveel van de gevallen die je wél krijgt ook daadwerkelijk de juiste zijn. Hoe vies die data is, laat dit voorbeeld uit 1618 zien:

Screenshot 2018-06-13 16.09.57

Tsja, dat is nauwelijks leesbaar, laat staan dat je er op kan zoeken. Nu is het verbeteren van dit soort tekstdata een bekend probleem, en het is héél lastig om er met de computer echt goed iets aan te doen (ik schreef er al eerder over). Maar je kunt je afvragen of het dan wel zinnig is om het online te slingeren. Willen we meer slechte data, of minder goede? Mijn mening is duidelijk. Liever minder maar beter. Ik durf best te stellen dat veel onderzoekers het met me eens zullen zijn.

Juiste data

Schone data is dus één van de belangrijkste parameters voor goede data. Het andere belangrijke punt is dat het handig is om het juiste type data te hebben. Mijn onderzoek gaat bijvoorbeeld over grammaticale variatie in het Nederlands in de twintigste eeuw. In het beste geval onderzoek ik die variatie in verschillende genres, waarvan telkens een gebalanceerd sample is genomen, en op basis van een mooie verdeling over de tijd. Dat is vele malen handiger dan een gargantueske bak aan krantendata. Een dergelijk diachroon, multi-genre, gebalanceerd (en schoon) corpus bestaat voor het Nederlands echter niet. En dat terwijl het in principe geen gigantisch innovatieve aanpak vereist: voor het Engels bestaat zo’n soort corpus (het ARCHER-corpus) al sinds 1994.

Het is echter de vraag of dit is waar Clariah voor bedoeld is. Het mission statement van het project stelt namelijk dat het gaat om “het ontwikkelen van een goede, bruikbare, duurzame en gebruiksvriendelijke infrastructuur voor de Geesteswetenschappen.” Het gaat dus niet zozeer om het kiezen van data, als wel om het beschikbaar stellen. Maar kunnen die twee dingen zonder elkaar? Dan krijg je dus heel veel vervuilde data, en er is in ieder geval één onderzoeker die daar weinig mee opschiet. Maar wacht: een ander doel is “to increase our empirical base”. Dat zou weleens een handvat kunnen bieden!

Toekomst

Onlangs werd bekend dat Clariah Plus maar liefst 13,8 miljoen euro krijgt om verder te werken aan de interface. Een bizar bedrag: daar kun je ongeveer 27 promovendi voor aanstellen. Ik hoop dat een deel van dat bedrag wordt ingezet voor het schoonmaken van data. Laat dat nou niet tot het einde wachten, maar geef daar prioriteit aan. Niemand heeft iets aan onbetrouwbare data. Stel dus een stel studentassistenten aan die betrekkelijk handmatig de data opschonen, of maak een makkelijk tooltje voor ze. Zo’n studentassistent kost (volgens mijn snelle berekening) ongeveer €30.000 per jaar. Wanner je er tien (!) aantrekt, heb je nog geen deuk in je budget geslagen. Tien studentassistenten kunnen in een full-time jaar ongelooflijk veel nuttig werk verrichten. Ja, het is niet digitaal, maar dat is nou eenmaal de staat van de techniek. Zolang OCR niet goed werkt moet in ieder geval een deel van het werk handmatig.

En als het even kan: maak gewoon ook wat ruimte voor de creatie van dat grote, diachrone, multi-genre, gebalanceerde corpus. Er zijn echt zat mensen die dat kunnen. Pluk ze weg van BYU, uit Manchester of Leuven, en je hebt binnen een paar jaar een geweldig instrument voor onderzoek naar de ontwikkeling van de Nederlandse taal. De expertise is er, de data is er, het geld is er: nu alleen nog het initiatief.

Taalkundige fact check: wie gebruikt het werkwoord ‘difficulteren’?

Vanochtend stond er op Neerlandistiek.nl een interessant stuk van Marc van Oostendorp over een tweet van Geert Wilders, waarin deze het woord ‘difficulteren’ gebruikte. Van Oostendorp ontkracht een aantal misverstanden rond dit werkwoord. Zo is het waarschijnlijk niet afkomstig uit het Engels, want het werd al gebruikt in een tijd waarin de invloed van het Engels klein was. Daarnaast is het aantoonbaar géén neologisme dat door Ruud Lubbers is geïntroduceerd. Deze observaties zijn op zich al geweldig: ze laten zien hoe (taal)mythes blijven rondzingen, en hoe snel er naar Engelse invloed wordt verwezen, ook als dat onterecht is. Maar het boeiendste staat in de slotalinea van het stuk:

Wel is het een taalkundige aanwijzing dat Geert Wilders diep ingebed zit in een eeuwenlange traditie van bestuur en politiek, die de rest van het volk maar niet heeft weten te bereiken.

Eerder noemt Van Oostendorp dit ook al: het woord difficulteren wordt al lang gebruikt in de politiek, maar komt daarbuiten niet voor. Dat is toetsbaar: we hebben grote collecties taalgebruik van binnen en buiten de politiek tot onze beschikking. Hierbij dus een taalkundige fact check: wordt het werkwoord dfficulteren inderdaad uitsluitend in de politiek gebruikt?

Corpusonderzoek

Een vraag als deze valt methodologisch gezien binnen de corpustaalkunde. Dat is een veld binnen de taalwetenschap waarin onderzoek wordt gedaan op basis van verzamelingen taal. Die verzamelingen kunnen allerlei taalvarianten omvatten: gesproken of geschreven, uit kranten of dagboeken, informeel of formeel etc. Zie hier of hier voor meer uitleg over corpustaalkunde. Voor het Nederlands zijn er al flink wat corpora beschikbaar. Van bijzonder belang in eerste instantie is Staten Generaal Digitaal. Dit corpus, dat beschikbaar is binnen Nederlab, bevat alle Kamerverslagen, Kamerstukken en Kamervragen van de Eerste Kamer en de Tweede Kamer voor de periode 1814-2014. Een schitterende verzameling teksten om te kijken naar het gebruik van een woord binnen de politiek.

Difficulteren in de politiek

Allereerst is het natuurlijk zo dat dit corpus niet alle politieke taal van Nederland omvat. De tweet van Wilders zou er bijvoorbeeld niet instaan. Toch kan deze verzameling volgens mij een mooi antwoord geven op de vraag of dit woord voorkomt in de politiek of niet. Het antwoord daarop is ja, enigszins. Het lemma difficulteren (dus alle vormen van dat werkwoord) komt sinds 1814 namelijk slechts 84 keer voor. Op bijna 900 miljoen woorden is dat bepaald marginaal te noemen. Lubbers heeft het woord in de Kamer nooit gebruikt, anderen deden dat wel. Er lijkt een toename te zijn van het gebruik van het woord sinds de jaren ’90: 23 van de voorkomens worden in sindsdien gevonden. De ‘piek’ zit in 2014, als het woord 4 keer wordt gebruikt.

Screenshot 2018-06-04 10.26.07

Er is een duidelijke voorkeur voor de infinitief en het voltooid deelwoord: die komen respectievelijk 35 en 36 keer voor. Als vervoegd werkwoord komt slechts de derde persoon enkelvoud voor: difficulteerde (8 keer) en difficulteert (5 keer). Ik weet niet in hoeverre dit typisch is voor Nederlandse werkwoorden, maar het lijkt mij ongebruikelijk dat een infinitief vaker voorkomt dan de vervoegde vormen. Sowieso weten we dat werkwoordsvormen zeker niet allemaal even vaak voorkomen (zie bijvoorbeeld hier).

Difficulteren in andere corpora

Om te kijken of difficulteren ook buiten de politiek wordt gebruikt zijn er verschillende corpora beschikbaar. Die bevestigen in eerste instantie wat Marc stelt: het komt niet voor. Niet in het Corpus Gesproken Nederlands, niet in het Corpus Hedendaags Nederlands, niet in het Brieven als Buit Corpus. In Sonar komt het twee keer voor, in tweets die beiden met politiek te maken hebben. In de corpora van Nederlab komt het echter wél voor: 1337 keer maar liefst. 1058 hits daarvan vallen binnen het genre ‘politiek’. Dat laat toch zien dat het woord een aantal keer voorkomt buiten de politiek. Deze voorkomens lijken zich echter te beperken tot het Early Dutch Books Online (EDBO) corpus, een verzameling teksten uit de periode 1781-1800. De voorkomens in die teksten zijn deels politiek, maar bevinden zich ook in andere genres, zoals de rechtswetenschap en andere wat formelere non-fictieteksten.

Er zijn drie laatste manieren om het woord te zoeken, en die hebben allemaal met internet te maken. Allereerst kun je simpelweg googlen. Dat levert meer dan 3500 hits op: teveel om nu te analyseren. Een snelle blik lijkt er wel op te wijzen dat het woord vooral in politieke context wordt gebruikt. Vervolgens kunnen we op Twitter zoeken. Het woord difficulteren (dus niet het lemma) komt 99 keer voor; difficulteert komt 14 keer voor. Gedifficulteerd en difficulteerde komen niet voor. Op dit totaal van 113 voorkomen staan er 17 in relatie tot de tweet van Wilders. De andere voorkomens lijken (waar dat herleidbaar is) allemaal betrekking te hebben tot een politiek onderwerp. Ten slotte kunnen we nog één ander corpus bekijken: het Corpus of the Web (COW). Dat bevat een grote verzameling online beschikbare teksten. Het is met 7 miljard woorden behoorlijk fors, maar overzichtelijker dan het hele internet. COW sluit aan bij de eerdere corpora: het woord difficulteren komt 21 keer voor, waarvan 18 keer in politieke context (en drie keer op de site van Onze Taal). De andere vormen komen nog minder vaak voor: difficulteert één keer, difficulteerde drie keer, difficulteerden één keer, en gedifficulteerd ook éen keer.

Conclusie

In dit geval bevestigt corpusonderzoek het vermoeden van Marc van Oostendorp: het lemma difficulteren lijkt de laatste 200 jaar vrijwel uitsluitend te worden gebruikt in politieke context. Zeker weten doen we het niet: de data uit EDBO suggereert dat het ook in andere formelere of wetenschappelijke teksten gebruikelijk was. Dit laat zien hoe interessant en belangrijk het is om dit soort vermoedens te toetsen: er is altijd meer over een woord te zeggen. Bovendien kunnen intuïties fout zijn, door bijvoorbeeld de recency illusion, de frequency illusion en andere cognitieve biases. Maar nu difficulteer ik de zaak misschien te veel, dat komt een andere keer wel.

Nederland of Holland?

Ik ben de komende tijd af en toe in het buitenland. Gevraagd waar ik vandaan kom antwoord ik in het Engels steevast ‘Holland’. Dat vind ik nou eenmaal makkelijker uit te spreken. Bovendien is het geografisch correct: ik ben Hagenees en kom dus ook uit dat deel van Nederland dat traditioneel ‘Holland’ wordt genoemd. Maar is het in algemene zin ook goed? Bedoel ik niet eigenlijk Nederland? Er zijn mensen die daar boos van worden, hoewel ze moeilijker te vinden zijn dan ik dacht. Hoe dan ook ben ik mijn taaladviescorpus ook weleens een advies hierover tegengekomen:

Nederland(s) en Holland(s) zijn synoniem. Met het woord Holland bedoelt men nooit de combinatie Noord- en Zuid-Holland. „Is, Neêrland, dit uw beeld?” vraagt Helmers in zijn gedicht De Hollandsche Natie. De Nederlandse maagd en een Hollandse jongen, de Nederlandse Leeuw en de Hollandse haring. (Charivarius 1940:42)

Gebruik liever Nederland, Nederlandsch en Nederlander als u ons vaderland en zijn bewoners bedoelt, en Holland, Hollandschen, Hollander alleen ter aanduiding van de provincies Noord-Holland en Zuid-Holland. (Taalclub 1943:65)

Wij dienen, sprekend over ons land, de term [Holland] te vermijden. (Apeldoorn & Pot 1983:142)

Hollands = van/uit Noord- en/of Zuid-Holland Nederlands = van/uit Nederland
* Duitsland importeert veel Hollandse landbouwproducten.
Duitsland importeert veel Nederlandse landbouwproducten.
* Holland wint hopelijk van Italië.
Nederland wint hopelijk van Italië. (Van der Pol 1996:192)

Het is een vrij zeldzaam probleem, met maar vier voorkomens (als iemand er nog eentje kent houd ik me aanbevolen), maar toch is het interessant. Allereerst is het boeiend dat juist Charivarius, vaak genoemd als een van de eerste taaladviseurs, op dit punt vrije variatie toestaat. Dat toestaan van variatie gaat al in tegen het theoretische uitgangspunt van Milroy en Milroy waar ik laatst over schreef. Ten tweede is het boeiend dat er ook in 1940 variatie mogelijk was. Er wordt wel gezegd dat de taaladviestraditie minder streng wordt (bijvoorbeeld door Haeseryn 1999:237-238). Zulke uitspraken gaan voorbij aan twee feiten: dat taaladvies niet uniform is, en dat er ook vroeger al wel coulance was op een aantal vlakken. Vergelijk dit advies:

Na de vergrotende trap (comparatief) en na ander(e), anders, elders, nergens, niemand niet(s), nooit zijn dan en als even correct (Smeyers 1955:25)

Dit citaat laat ook zien dat sommige taaladviseurs vroeger op sommige punten ruimhartiger waren ten opzichte van variatie dan nu. Dit lijkt ook voor Nederland/Holland op te gaan: de andere drie bovengenoemde adviezen zijn strenger dan Charivarius. Een interessante ontwikkeling, waar ik hopelijk binnenkort meer over kan zeggen (er is een paper under review).

Dit variatiepaar is opnieuw ook qua argumentatie interessant. Duidelijk is dat er mensen zijn die Holland gebruiken in de betekenis van Nederland. Hoeveel dit er zijn is onduidelijk: daar heeft geen taaladviseurs ooit onderzoek naar gedaan (uitspraken als ‘je hoort het steeds vaker’ ten spijt). Charivarius lijkt zich op dit gebruik te baseren: ze worden als synoniemen gebruikt, dus dat kan best. De anderen vinden het niks: er is nou eenmaal een onderscheid, daar heb je je aan te houden. Dit is volgens mij indicatief voor veel taaladvies: er zijn altijd mensen die het nodig vinden bepaalde vrije variatie te onderdrukken door een al dan niet bestaand onderscheid te benadrukken. Hier is best iets voor te zeggen voor het onderscheid: je kunt een betekenisverschil beargumenteren op geografische en historische gronden. Maar je kunt ook vanuit gebruik en begrip redeneren. Dan is Holland niet per se een probleem. Zoals zo vaak hangt het er maar net vanaf wat je belangrijk vindt.

Ik blijf het gewoon ‘Holland’ noemen in het Engels. Mijn argumenten: het levert geen begripsproblemen op, en het vergemakkelijkt de communicatie, omdat ik geen krampachtige uitspraak hoef te bezigen. In het Nederlands houd ik het op Nederland, maar als iemand Holland wil zeggen, doe je ding. Vrije variatie, helemaal zo gek nog niet.

De beste Engelse mop die ik ken

Ik ga straks lekker op vakantie, dus post hier even een licht tussendoortje. Mijn onovertroffen kamergenoot Paul Hulsenboom was laatst een oud blijspel aan het lezen (de titel is me even ontschoten). We kwamen te spreken over humor, en over of dat vroeger anders was, en of oude grappen nog werkten. Het deed mij denken aan de Allerbeste Grap uit de Engelse Geschiedenis (en Misschien wel de Hele Wereldgeschiedenis). Aldus:

A married Gentleman coming through Canterbury, his Horse threw him, which a young Gentlewoman seeing, fell a laughing; the Man being terribly vext that she should laugh at his fall, angerly said, Madam, pray admire not at this, for my Horse always stumbles when he meets a Whore; she sharply reply’d, have a care then Sir, you do not meet your Wife, for then you will certainly break your neck.

(HC, Penny Merriments, ‘Canterbury Tales’, 1687: B1v.–B2r.)

Wow, en dat in de 17e eeuw! Dat is een comeback waar je in 8 Mile nog een ‘o damn dog’ of ‘o snap son’ voor had gekregen. Wat de grap ook grappig maakt: hij is te vinden op pagina 6 van An Introduction to Early Modern English (Nevalainen 2006). De grap staat in het boek als voorbeeld van laat-17e eeuwse grammatica. Ik vind dat geweldig. Van alle voorbeelden die je kan kiezen als schrijfster, kies je een oude mop. Heerlijk. Wat het nog leuker maakt is dat de schrijfster, de Finse Terttu Nevalainen, er niet per se uitziet alsof ze van een goede harde mop houdt. Ze ziet er namelijk intens beschaafd uit. Overigens is ze een levende legende op het gebied van de historische sociolinguïstiek.

Wat maakt deze grap nog meer geweldig? Emancipatie! De vrouw wint duidelijk deze uitwisseling. Ik heb geen idee of dat exemplarisch was voor grappen in de 17e eeuw, maar afgaande op het aantal dommeblondjesmoppen dat over vrouwen gaat is het nu niet per se de norm.

Enfin, dit ter verstrooiing. Ik spreek jullie na mijn vakantie.