Hoe doe ik onderzoek (3) data schoonmaken

Een nieuwe aflevering in mijn serie over methode! Ik vertel met liefde niet alleen over de keuzes die ik maak binnen mijn onderzoek (over temporele afbakening bijvoorbeeld, maar ook over de dagelijkse praktijk van mijn wetenschappelijke bedrijf (bijvoorbeeld over data maken). Vandaag iets over data schoonmaken.

Zoals wellicht bekend gaat mijn promotieonderzoek over de relaties tussen taaladvies en taalgebruik. De eerste poot, taaladvies, heb ik voorlopig afgerond: ik heb een grote verzameling aangelegd van taaladviezen gedurende de twintigste eeuw, en daarover gepresenteerd (publicaties zijn onderweg). Nu ben ik sinds een tijdje bezig met het in kaart brengen van taalgebruik zelf. Zo kan ik advies en gebruik vergelijken. Maar bij het verzamelen van dat taalgebruik loop ik tegen een aantal problemen op. Hoe kom je aan een corpus bijvoorbeeld. Dat is ingewikkelder dan je zou denken (maar daarover een andere keer meer). Nu eerst iets over het schoonmaken van data.

Vieze data

Stel, je hebt een verzameling tekst. Je wil daarin (ik roep maar wat) kijken hoe de verhouding is tussen wil en wilt bij tweede persoon enkelvoud. Bekend is namelijk dat zowel je wil voorkomt als je wilt. Allereerst moet je dan een zoekopdracht (query in het Engels, ik ben gek op dat woord, het klinkt zo koddig) formuleren waarmee je in principe alle relevante gevallen te pakken krijgt. In het geval van wil/wilt kun je natuurlijk alleen op die woorden zoeken. Dan krijg je echter ook alle eerste (ik wil) en derde persoon (hij wil) vormen. Bovendien krijg je ook het zelfstandig naamwoord wil (De wil om verder te werken ontbreekt me). Dat wil je (hoera) allemaal niet. Wel wil je gevallen vinden met waar bijvoorbeeld het werkwoord vóór het persoonlijk voornaamwoord staat (wil je), en ook zijn jij en natuurlijk boeiend.

De juiste zin

Afhankelijk van het corpus dat je gebruikt krijg je op basis van bovenstaande query een set zinnen. Voor de corpora in Nederlab moet je je dan nog door een heleboel zinnen heenwerken die niet goed zijn gedigitaliseerd. Heel frustrerend en tijdrovend, maar ja, schoonmaken van deze data is door een betrokkene “onmogelijk” genoemd en “niet onze prioriteit”. Bovendien “kunnen ook bij vieze data wel onderzoeksvragen gesteld worden.” Ook in de toekomst zullen onderzoekers dus blijven zitten met data als onderstaande:

1928: voldoende ingelicht men weet het . En hier hebben wij een o . ommisSe . ïn vo ” £ & trng tot wie verschillende mensehen , die met de wet te maken hebben , om inlichtingen vragen , en

1947: “gebleken . I k krijg nl. vele verzoeken , die Handelingen dar Staten-GteneBaaL . – . 1 & 46—1947 . — L 44ste VEBGADEEING . — 8 MEI 1947 . eigenlijk op iets anders dan”

1947: “< ” ” ‘ DElFr ; ö .. UNK wr UNK UNK ROTTERDAM / ‘ ‘ f / s / i ‘ » * v w- ” W ” ” ” M i « ia g « • » m—p m « 2 $ Jt * V « V é & * Z * V <* 4 * 2B M * V 2 & * . SQ t J / i Ar / tfus / ltJ UNK óer tóWWRBBlÖKSV ‘ V — ‘”

1958: “het eigenlijk geen woorden van Plato zijn . De geachte afgevaardigde kent dat citaat natuurlijk : „ & iïog fisv Zcoxgarrj ? , aXXa ( piXxeqa r ) dArjêeia ” , hetgeen te vinden is”

Goed, gelukkig zijn er ook corpora die wel schoon zijn, zoals het Corpus Gesproken Nederlands. Daaruit kun je dan op een gegeven moment op basis van je query een set zinnen krijgen die in principe leesbaar is. Dan is het nog zaak om er zeker van te zijn dat die zinnen ook echt kloppen. Hoe specifiek je zoekopdracht ook is, het blijft mogelijk dat er gevallen in zitten die eigenlijk niet aan je opdracht voldoen. Wat betreft wil/wilt kom je bijvoorbeeld dit tegen:

je kan je kunt willen je wil je wilt . zullen jij (praatje over vervoeging)

dat ik uh dat ik je wil … oké . ik zou (wil slaat terug op ik)

klopt . ja of wil je wil je d’r wel heen ? (in principe goed, maar komt zowel als resultaat bij wil je als bij je wil, dus dubbele weggooien)

Van Gent . mevrouw Bussemaker wil u ook nog een vraag stellen (wil slaat terug op mevrouw Bussemaker en is dus derde persoon)

Heel erg goed met programmeren ben ik niet, maar ik denk toch wel te kunnen weten dat het lastig is om dit soort gevallen eruit te halen. Het is moeilijk formaliseren namelijk. Je zou kunnen denken: als ik voor je wil staat, dan slaat wil altijd terug op ik. Maar dat is niet per se zo. Je kunt ook de zin hebben: “Toen zei ik je wil toch niet zeggen dat je een hond bent?” Zelfs als je iets zou kunnen formaliseren, dan gaat het volgens mij om vrij veel condities met weinig resultaten. De vraag is dus of je niet langer bezig bent met condities bedenken dan met handmatig opschonen.

Lang bezig

Dat is wat ik nu aan het doen ben: handmatig opschonen tot ik een ons weeg. De komende maanden zal ik daar nog wel mee bezig blijven. Zo is het nou eenmaal: je zult geen wetenschapper vinden die niet toch nog eentonig handwerk moet doen. In publicaties blijft dat vaak heel impliciet, maar er zitten echt uren van betrekkelijk saaie arbeid achter. Helemaal niet erg, maar wel goed om te weten. Het heeft bovendien wel twee voordelen: ik leer mijn data heel intiem kennen, en ik kom weer eens toe aan het herluisteren van klassieke muziek. De symfonieën van Brahms heb ik gehad, vandaag en morgen staat het verzameld orkestwerk van Stravinsky op het programma. Dat is dan tenminste iets.

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit /  Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit /  Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit /  Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit /  Bijwerken )

Verbinden met %s