Wat gebruiken mensen: u hebt of u heeft?

Na een zomer van schrijven aan artikelen over uiteenlopende zaken (voornamen, vloeken, wetenschapsnieuws, leenwoorden) mag ik nu eindelijk weer doen wat ik het leukst vind: lekker met gebruiksdata klooien. Voor het onderzoek van mijn proefschrift bestudeer ik taalvariatie zoals die voorkomt in het taalgebruik van alledag. Eerder bestudeerde ik vooral de regels zelf, en bekeek ik de variatie bij ‘heel/hele’. Nu is de beurt aan een andere casus: zeggen mensen ‘u hebt’ of ‘u heeft’?

Dataverzameling

Er is in wetenschapscommunicatie een tragische focus op resultaten, en dat terwijl methode ook zo leuk kan zijn (zoals collega Jona Lendering iedere maandag laat zien). Daarom eerst een stukje over misschien wel het lievelingsaspect van mijn werk: dataverzameling. Eerst is er de keuze voor welke tekstverzameling te gebruiken. Ik wil kijken naar de verschillen tussen gesproken en geschreven taal. Helaas is er geen corpus voor het Nederlands waarmee dit makkelijk kan (ik schreef al eerder over de problematische stavaza op het gebied van Nederlandse corpora). Gelukkig is er wel het Corpus Gesproken Nederlands. De resultaten daaruit (verschillende sprekers, verschillende genres, ik gebruik alleen het deel dat als ‘Nederland’ is gemarkeerd) vergelijk ik met een grote verzameling recensies en interviews over literatuur uit dagbladen en kranten (één genre, 1995-1999, met dank aan Freek van de Velde). De corpora zijn ongeveer even groot (6.5 miljoen woorden), dus ik zou hopen dat dit vergelijkbaar materiaal oplevert.

Zoekopdracht

Vervolgens moet ik een zoekopdracht formuleren. Dat klinkt triviaal, maar dat is het niet. Je moet namelijk alles vinden wat je zoekt (je moet zo min mogelijk missen), maar ook weer niet een te breed net uitwerpen. Stel dat ik bijvoorbeeld de variatie voor ‘je kan’ vs ‘je kunt’ wil onderzoeken. Als ik alleen zoek op ‘kan’ krijg ik een heleboel gevallen waar ik niet naar zoek (‘hij kan’ bijvoorbeeld). Zoek ik alleen op ‘je kan’, dan vind ik niet de zinnen waar ‘je’ een aantal woorden verwijderd staat van ‘kunt’ (bijvoorbeeld in een zin als ‘wat je in zulke gevallen het beste kan doen’). Ik kan dat dan weer oplossen door te klooien met een window, door bijvoorbeeld te zeggen ‘je’ (maximaal drie woorden) ‘kan’, maar dat kan ook weer veel nieuwe fouten opleveren (‘ik zeg het je meteen: hij kan dit niet’).

Kortom, je moet keuzes maken, en kijken wat het beste werkt. Ik vind dat precisievissen  (alwéér een Google Whack!) echt oneindig leuk (het kan ook ontzettend frustrerend zijn overigens). Voor ‘u hebt/heeft’ is het vrij eenvoudig: ik moet wel met die window rekening houden (om ook gevallen als ‘dat u dat gezegd heeft’ te vinden), maar verder krijg ik weinig vervuiling. En ik moet rekening houden met de volgorde: ook ‘heeft/hebt u’ moet ik zoeken.

Schoonmaken

Nu heb ik de data, maar dat is niet genoeg, ik moet die ook leesbaar maken en schoonmaken. Hoe goed je zoekopdracht ook is, je vindt altijd wel gevallen die wel beantwoorden aan je zoekopdracht maar niet zijn wat je zoekt (voorbeeld 1). In de casus ‘u heb/heeft’ kreeg ik ook een specifiek foutje van het CGN: een automatische waarschuwing van de opnameapparatuur (voorbeeld 2). Dat wil ik er niet in, want het hoort niet echt bij het corpus.

  1. verschillende malen contact met u heeft gehad en u bezocht heeft
  2. u heeft bijna tien minuten gesproken.

Deze gevallen moet je er met de hand uitfilteren. Gelukkig kreeg ik maar een kleine 1200 gevallen, dat kost me een uur of twee om na te lopen (en ik kon weer eens naar wat goede muziek luisteren).

Wat is het nou?

Bovenstaande stuk gaat in tegen alle dingen die ik heb geleerd over populariserend schrijven: begin met het eind, volg niet de structuur van een wetenschappelijk artikel, houd het herkenbaar. Maar ik denk dat dit juist interessant is, en vooral belangrijk. Wetenschap is niet alleen maar flashy resultaten, het is ook heel veel lopendebandwerk. Ik denk dat er mensen zijn die dat niet goed beseffen. Nadenken doe ik relatief weinig, ik ben vooral kleine handelingen (zoals zinnen beoordelen op geschiktheid) aan het herhalen. Daarom besteed ik daar een disproportioneel groot onderdeel van dit blog aan.

Als je dat werk eenmaal allemaal hebt gedaan, dan heb je de resultaten waar je mee aan het werk kan. In dit geval leverde dit het volgende op:

Screenshot 2019-09-04 10.09.13

Direct is duidelijk dat ‘u heeft’ de dominante vorm is, zowel in gesproken als in geschreven taal. In beide omstandigheden zorgt deze vorm voor bijna 75% van het totaal aantal vormen. Deze resultaten verbaasden mij eerlijk gezegd. Eerder onderzoek van Hans Bennis en Frans Hinskens liet namelijk zien dat ‘u hebt’ door respondenten het verreweg vaakst werd gebruikt. In informele situaties (“op een feestje”) zei 86,6% die vorm te gebruiken; in formele situaties (“bij de dokter”) minder, maar nog steeds 68,2% (2014:159). Dit verschilt nogal van de cijfers uit dit corpusonderzoek: ook in gesproken taal is ‘u heeft’ nog de dominante vorm. Er is bovendien eigenlijk niet zo’n groot verschil tussen spreektaal en schrijftaal, en dat verbaasde me eigenlijk het meest. Ik dacht dat ‘u hebt’ echt nog een spreektaalvorm was, maar dat is dus niet per se zo. Een belangrijke aantekening hierbij is wel dat de verzameling recensies ook veel interviews bevatte. Toch verschenen die allemaal in geschreven vorm, en gevallen van ‘u hebt’ werden niet verbeterd.

Meer is altijd beter

Opnieuw laat deze casus mooi zien dat attitudes een ding zijn, maar gebruik vaak een tweede (zoals ik laatst ook schreef). Wat mensen vinden en wat ze doen hoeft niet hetzelfde te zijn. Zoals Geeraerts, Grondelaers en Speelman het goed verwoorden:

“variatieonderzoek gebeurt optimaal wanneer naast geëliciteerde onderzoeksgegevens ook gegevens over spontaan tot stand gekomen taalgebruik in de studie worden betrokken.” (1999:36)

Het is daarom een goed idee om naar beide dimensies te kijken, en dan niet alleen naar wat mensen zeggen dat ze doen, maar ook naar wat ze daadwerkelijk doen. Idealiter doe je dat bij dezelfde mensen, maar dat is lastig. Gelukkig zijn daar trucs op te verzinnen. De zaak van allerlei kanten bekijken, dat is altijd het best. Het leukst echter blijf ik toch het grasduinen in gebruiksdata vinden. Muziekje aan, popcorn erbij, en lekker kijken wat er gebeurt.

 

2 gedachten over “Wat gebruiken mensen: u hebt of u heeft?

Laat een reactie achter op msvandermeulen Reactie annuleren

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit /  Bijwerken )

Google photo

Je reageert onder je Google account. Log uit /  Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit /  Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit /  Bijwerken )

Verbinden met %s