Hoe doe ik onderzoek (3) data schoonmaken

Een nieuwe aflevering in mijn serie over methode! Ik vertel met liefde niet alleen over de keuzes die ik maak binnen mijn onderzoek (over temporele afbakening bijvoorbeeld, maar ook over de dagelijkse praktijk van mijn wetenschappelijke bedrijf (bijvoorbeeld over data maken). Vandaag iets over data schoonmaken.

Zoals wellicht bekend gaat mijn promotieonderzoek over de relaties tussen taaladvies en taalgebruik. De eerste poot, taaladvies, heb ik voorlopig afgerond: ik heb een grote verzameling aangelegd van taaladviezen gedurende de twintigste eeuw, en daarover gepresenteerd (publicaties zijn onderweg). Nu ben ik sinds een tijdje bezig met het in kaart brengen van taalgebruik zelf. Zo kan ik advies en gebruik vergelijken. Maar bij het verzamelen van dat taalgebruik loop ik tegen een aantal problemen op. Hoe kom je aan een corpus bijvoorbeeld. Dat is ingewikkelder dan je zou denken (maar daarover een andere keer meer). Nu eerst iets over het schoonmaken van data.

Vieze data

Stel, je hebt een verzameling tekst. Je wil daarin (ik roep maar wat) kijken hoe de verhouding is tussen wil en wilt bij tweede persoon enkelvoud. Bekend is namelijk dat zowel je wil voorkomt als je wilt. Allereerst moet je dan een zoekopdracht (query in het Engels, ik ben gek op dat woord, het klinkt zo koddig) formuleren waarmee je in principe alle relevante gevallen te pakken krijgt. In het geval van wil/wilt kun je natuurlijk alleen op die woorden zoeken. Dan krijg je echter ook alle eerste (ik wil) en derde persoon (hij wil) vormen. Bovendien krijg je ook het zelfstandig naamwoord wil (De wil om verder te werken ontbreekt me). Dat wil je (hoera) allemaal niet. Wel wil je gevallen vinden met waar bijvoorbeeld het werkwoord vóór het persoonlijk voornaamwoord staat (wil je), en ook zijn jij en natuurlijk boeiend.

De juiste zin

Afhankelijk van het corpus dat je gebruikt krijg je op basis van bovenstaande query een set zinnen. Voor de corpora in Nederlab moet je je dan nog door een heleboel zinnen heenwerken die niet goed zijn gedigitaliseerd. Heel frustrerend en tijdrovend, maar ja, schoonmaken van deze data is door een betrokkene “onmogelijk” genoemd en “niet onze prioriteit”. Bovendien “kunnen ook bij vieze data wel onderzoeksvragen gesteld worden.” Ook in de toekomst zullen onderzoekers dus blijven zitten met data als onderstaande:

1928: voldoende ingelicht men weet het . En hier hebben wij een o . ommisSe . ïn vo ” £ & trng tot wie verschillende mensehen , die met de wet te maken hebben , om inlichtingen vragen , en

1947: “gebleken . I k krijg nl. vele verzoeken , die Handelingen dar Staten-GteneBaaL . – . 1 & 46—1947 . — L 44ste VEBGADEEING . — 8 MEI 1947 . eigenlijk op iets anders dan”

1947: “< ” ” ‘ DElFr ; ö .. UNK wr UNK UNK ROTTERDAM / ‘ ‘ f / s / i ‘ » * v w- ” W ” ” ” M i « ia g « • » m—p m « 2 $ Jt * V « V é & * Z * V <* 4 * 2B M * V 2 & * . SQ t J / i Ar / tfus / ltJ UNK óer tóWWRBBlÖKSV ‘ V — ‘”

1958: “het eigenlijk geen woorden van Plato zijn . De geachte afgevaardigde kent dat citaat natuurlijk : „ & iïog fisv Zcoxgarrj ? , aXXa ( piXxeqa r ) dArjêeia ” , hetgeen te vinden is”

Goed, gelukkig zijn er ook corpora die wel schoon zijn, zoals het Corpus Gesproken Nederlands. Daaruit kun je dan op een gegeven moment op basis van je query een set zinnen krijgen die in principe leesbaar is. Dan is het nog zaak om er zeker van te zijn dat die zinnen ook echt kloppen. Hoe specifiek je zoekopdracht ook is, het blijft mogelijk dat er gevallen in zitten die eigenlijk niet aan je opdracht voldoen. Wat betreft wil/wilt kom je bijvoorbeeld dit tegen:

je kan je kunt willen je wil je wilt . zullen jij (praatje over vervoeging)

dat ik uh dat ik je wil … oké . ik zou (wil slaat terug op ik)

klopt . ja of wil je wil je d’r wel heen ? (in principe goed, maar komt zowel als resultaat bij wil je als bij je wil, dus dubbele weggooien)

Van Gent . mevrouw Bussemaker wil u ook nog een vraag stellen (wil slaat terug op mevrouw Bussemaker en is dus derde persoon)

Heel erg goed met programmeren ben ik niet, maar ik denk toch wel te kunnen weten dat het lastig is om dit soort gevallen eruit te halen. Het is moeilijk formaliseren namelijk. Je zou kunnen denken: als ik voor je wil staat, dan slaat wil altijd terug op ik. Maar dat is niet per se zo. Je kunt ook de zin hebben: “Toen zei ik je wil toch niet zeggen dat je een hond bent?” Zelfs als je iets zou kunnen formaliseren, dan gaat het volgens mij om vrij veel condities met weinig resultaten. De vraag is dus of je niet langer bezig bent met condities bedenken dan met handmatig opschonen.

Lang bezig

Dat is wat ik nu aan het doen ben: handmatig opschonen tot ik een ons weeg. De komende maanden zal ik daar nog wel mee bezig blijven. Zo is het nou eenmaal: je zult geen wetenschapper vinden die niet toch nog eentonig handwerk moet doen. In publicaties blijft dat vaak heel impliciet, maar er zitten echt uren van betrekkelijk saaie arbeid achter. Helemaal niet erg, maar wel goed om te weten. Het heeft bovendien wel twee voordelen: ik leer mijn data heel intiem kennen, en ik kom weer eens toe aan het herluisteren van klassieke muziek. De symfonieën van Brahms heb ik gehad, vandaag en morgen staat het verzameld orkestwerk van Stravinsky op het programma. Dat is dan tenminste iets.

Opvallend taaladvies (7): wiens schuld?!

Hoewel ik inmiddels met ander onderzoek bezig ben, heb ik nog een enorme berg aan grappig, interessant en ronduit bizar taaladvies liggen. Vandaag: hoe taaladviseurs wel heel specifieke groepen de schuld geven.

Bij de meeste taaladviezen wordt niet expliciet gemaakt waar een vorm vandaan komt. De grote groep uitzonderingen hierop zijn de barbarismen: in die gevallen worden fouten gelegd bij het Engels, Frans, Latijn of Hebreeuws. Maar wie die fouten dan maakt, daar wordt weinig aandacht aan besteed. Soms zijn het studenten, soms slordige taalgebruikers of mensen die niet van taal houden (zucht). In een paar gevallen wordt een heel specifieke groep mensen als de schuldige voor een bepaald gebruik aangeduid.

De Maasbode brengt een artikel, dat …… Een kellnerterm of zoo iets > Ned. bieden (Haje 1932:36)

Zij waren hoog voldaan. Hoog fijn is in zijn beide deelen een afschuwelijk winkeliersgermanisme, wonderlijk genoeg wat hoog betreft, want hoogst zou allicht tot reclame beter voegen (Haje 1932:53)

Het woord [slagroom] is ingevoerd door de koks, die wij wel mogen beschouwen als weldoeners der mensheid, maar niet als betrouwbare gidsen op taalgebied. (Charivarius 1940:57)

U kent haar [tante Betje] niet? Och kom, dat is ondenkbaar! Iedereen kent haar, en velen vereeren haar zelfs, in het bijzonder handelscorrespondenten en opstellers van reclamegeschriften, maar ook vele anderen, die niet beter weten. (Van Wageningen 1946:102)

Met name bij ingenieurs is – naar mijn ervaring – het streven naar een conserverende verzorging van de taal niet zeldzaam (Veering 1966:27)

En dus niet, al gebeurt het in wielerverslagen vaak: De wielrenners zeiden al op de derde dag van de Tour dat ze geen moraal meer hadden.” (Schaafsma 2013:122)

Zijn deze beschuldigingen reëel? Misschien wel. Het is best begrijpelijk dat het woord slagroom bijvoorbeeld relatief veel wordt gebruikt door mensen die beroepsmatig met eten bezig zijn. Verder is het mogelijk dat handelscorrespondenten meer samengestelde zinnen gebruiken, waardoor de kans op een Tante Betje groter wordt. Ik zeg niet dat het zo is, ik zeg alleen dat het niet helemaal ondenkbaar is. Dat juist kelners relatief vaak het werkwoord brengen/bieden gebruiken is óók beroepshalve voorstelbaar: “Mag ik u nog een advocaatje brengen/bieden?” Alleen eigenlijk de observatie van Schaafsma lijkt me onwaarschijnlijk, en meer een afspiegeling van zijn mediadieet dan van een daadwerkelijke link.

Ik vind dit soort observaties knap interessant, en ik zou ze maar wat graag toetsen aan echt taalgebruik. Daardoor kun je namelijk inzicht krijgen in de opmerkingsgave van taaladviseurs: in hoeverre is wat zij zeggen nou echt gebaseerd op wat er gebeurt? Worden zij ook gehinderd door cognitieve biases zoals de recency illusion en de  frequency illusion? Het leidt verder naar de vraag in hoeverre mensen gelijk hebben als ze zeggen ‘je hoort het steeds vaker’ (waarover een andere keer meer). En daarmee krijg je weer inzicht in het algemene taalbewustzijn ten opzichte van frequentie bij taalgebruikers. Daar is al wel veel onderzoek naar gedaan, maar voor zover ik weet niet met betrekking tot betwiste taalvormen. Als iemand zin heeft hoor ik het graag.

“Een een een een een boek”: over lidwoordherhaling in gesproken taal

Ik ben dezer dagen voor allerlei onderzoeksdoeleinden lekker aan het klooien in het onvolprezen Corpus Gesproken Nederlands (CGN). Een van de voorbeelden die ik tegenkwam bevatte het volgende fragment:

het ook een een een boek dat

Een grappig voorbeeld: drie keer een op een rij! Ik wist wel dat mensen af en toe lidwoorden herhalen. In gesproken taal komt het best eens voor: het wordt gedaan om tijd te rekken, om even na te kunnen nadenken. Uh en uhm worden soms om dezelfde reden gebruikt. Maar voor zover ik weet houdt het wat betreft lidwoorden hierbij op: welke we herhalen en hoe vaak we dat doen, daar ben ik nog geen artikel over tegengekomen.

Bepaald of onbepaald

Worden bijvoorbeeld bepaalde of onbepaalde lidwoorden vaker herhaald? Ik had het daar toevallig over met een van mijn hooggeachte promotoren, Helen de Hoop. Zij hypothetiseerde dat onbepaalde lidwoorden vaker worden herhaald, omdat je bij zo’n lidwoord nog meer mogelijkheden hebt voor wat je gaat zeggen. Het woord onbepaald is hier doorslaggevend. Zo’n hypothese is in het CGN makkelijk te testen. Het enige wat ik moet doen is lidwoorden zoeken die op elkaar volgen. Een probleem: in principe zit natuurlijk ‘een een’ ook in ‘een een een’. Ik loste dit op door in mijn zoekopdracht telkens de combinatie van lidwoorden zowel te starten als te eindigen door ‘woord is níet (het lidwoord waar ik naar zoek)’. Ook zocht ik alleen op woorden die als lidwoord waren aangemerkt, om zo het telwoord één buitenspel te zetten. Zie hier beneden de resultaten.

  de het een
2x  2321 279 2919
3x  387 29 607
4x  96 9  133
5x  20 3  32
6x  6 0  14
7x  7 0  3
8x  0 0  2
9x  0 0  1
totaal 2837 349 3711

Ik moet zeggen: ik was toch behoorlijk verbaasd over hoe vaak dit voorkwam. In totaal vinden we herhalende lidwoorden in maar liefst 6897 gevallen. Ook opvallend vind ik de voorbeelden met heel veel opeenvolgende lidwoorden. Die gevallen zien er zo uit:

dat is een zeg maar een een een een een een een een een manier van genezing die uit Japan komt (9x een)

de de de de de de de zogenaamde aanschuifconferenties die we in Oudemanhuispoort hebben georganiseerd (7x de)

het is ’t is allemaal wat meer buiten het het het het het Haagse gekonkel (5x het)

De en een

Vervolgens valt op dat de en een veel vaker voorkomen dan het. Maar dat is misschien een effect van de totale aanwezigheid van die lidwoorden. Daar is makkelijk achter te komen door de relatieve frequentie van de lidwoorden in het corpus.

totaal corpus % lidwoord corpus % dubbele lidwoorden
de 249.339 52,5% 41,1%
het 53.230 11,2% 5,1%
een 172.332 36,3% 53,8%

Inderdaad komt het relatief minder voor, en dat verklaart deels ook het feit dat het minder voorkomt bij de verdubbelde lidwoorden. Maar daar is niet alles mee gezegd. Dan de andere hypothese: komt lidwoordherhaling inderdaad vaker voor bij onbepaalde lidwoorden? Het antwoord daarop is absoluut ja. Onbepaalde lidwoorden zijn stevig oververtegenwoordigd bij de verdubbelingen. Ze komen bovendien ook in langere combinaties voor.

Aanwijzende voornaamwoorden

Een andere collega van me, Joske Piepers, kwam op vervolgens op het lumineuze idee om ook naar aanwijzende voornaamwoorden te kijken. Deze (sic) zoekopdracht sluit aan bij een serie waar Marc van Oostendorp mee bezig is over het verschil tussen hier en daar, dit en datdit en deze zijn formeler en specifieker dan dat en die. Mijn vermoeden is dat dat en die dus vaker voorkomen, opnieuw vanwege de onzekerheid die in de woorden besloten ligt. Ik vermoed bovendien dat deze weinig wordt herhaald, omdat het niet eenlettergrepig is.

  die dat dit deze
2x  2986 8497 113 35
3x  411 542 12 3
4x  70 108 0 0
5x 13 11 0 0
6x  7 2 0 0
7x  2 0 0 0
totaal 3489 10160 125 38

Mijn vermoedens worden wederom bevestigd. Het verschil in frequentie is bovendien veel groter dan bij de lidwoorden: het meer specifieke dit en deze worden slechts bij uitzondering herhaald. Opvallend is het hoge aantal verdubbelingen van dat ten opzichte van die: dat strookt niet met de frequenties van de bijbehorende lidwoorden. Voor een deel kan het misschien verklaard worden door zinnen als Ik denk dat dat klopt, maar meer gedetailleerd onderzoek zou moeten uitwijzen of dat zo is.

Meer onderzoek

Het is weer een klein en behoorlijk oppervlakkig onderzoekje (net als bij difficulteren), maar het laat toch een paar interessante dingen zien. Zo komen aanwijzend voornaamwoord- en lidwoordverdubbelingen behoorlijk vaak voor. Veel vaker dan ik had gedacht in ieder geval. Bovendien komen verdubbelingen vaker voor bij het onbepaalde lidwoord en de onbepaaldere aanwijzende voornaamwoorden. Daarmee is de kous niet af. Om in een goede wetenschappelijke traditie te besluiten: er moet meer onderzoek worden gedaan. Zijn er bijvoorbeeld nog nadere patronen te bespeuren in het gebruik? Welke woorden volgen op de verdubbelingen? Zijn er nog effecten van genre? Komen verdubbelingen bijvoorbeeld meer voor in informelere situaties (je zou denken van wel)? Sowieso ben ik van mening dat lidwoorden nog wel wat meer onderzoek verdienen. Geïnteresseerden kunnen zich te allen tijde bij ondergetekende vervoegen.