Hoe doe ik onderzoek (2) Data maken

Valorisatie wordt steeds belangrijker in de wetenschap. Je moet mensen vertellen wat je aan het doen bent. Veel valorisatie richt zich echter vooral op de inhoud van onderzoek. De laatste tijd wordt er ook opgeroepen(bijvoorbeeld hier en hier) om meer inzicht te geven in de ontwikkeling van een wetenschappelijk project. Welke methodologie wordt er gevolgd, welke keuzes worden er gemaakt: hoe doen we onderzoek? Echte open-source wetenschap. Ik ga hier graag in mee: ik vind methodologie namelijk interessant, en ik vind het heel zinnig als mensen hier meer inzicht in krijgen. Daarom schrijf ik deze serie over de methodologie van mijn onderzoek. Soms zullen de overwegingen wat algemener zijn, soms zijn ze heel specifiek. Eerder schreef ik over temporele afbakening, vandaag leg ik uit hoe ik data maak.

Sinds vorige week maandag heb ik een nieuwe kamergenoot, een Chinese psycholinguist. Zoals dat gaat legde ik uit wat ik aan het doen was. Vol trots wees ik op het getal op m’n whiteboard: nog maar 33 boeken hoefde ik in mijn database in te voeren! Eerst keek hij me niet-begrijpend aan, maar toen ik liet zien dat ik delen overtypte sloeg zijn onbegrip al snel in ontsteltenis. Ik typte boeken over?! Was ik achterlijk? Daar moest toch een AI-oplossing voor zijn? Helaas, zei ik, was het maar zo. Maar Google Translate dan? Nee, dat werkte ook niet. Maar een promovendus hoorde toch niet zulke handenarbeid te doen? Kon ik geen studentassistenten regelen? Dat zou ik wel willen, maar die mensen kosten geld en dat is er niet onbeperkt. Op een gegeven moment trad er een Babylonische verwarring op, maar ik vrees dat ik niet heb kunnen uitleggen dat overtypen voor mij een hele normale activiteit is.

Want inderdaad: een groot deel van mijn werkzaamheden bestaat al maanden uit het overtypen van boeken. De meeste boeken hoef ik gelukkig niet echt over te typen: ik hoef ze alleen te corrigeren. Want we hebben een techniek die Optimal Character Recognition heet (OCR voor vrienden). Met die techniek kun je van een foto een doorzoekbaar tekstbestand maken. Ik maak dus scans van pagina’s, die draai ik door Abbyy Finereader (schaamteloze reclame), en dan heb ik tekst. Dat maakt mijn leven héél veel makkelijker, maar niet perfect. OCR is namelijk verre van perfect: afhankelijk van de kwaliteit en de leeftijd van de bron moet ik meer of minder corrigeren. OCR kan namelijk niet omgaan met vlekjes, voegt spaties toe, en verandert sommige letters. Nu zou je daar misschien regels voor kunnen formuleren, om zo postcorrectie automatisch te doen. Iets wat bijvoorbeeld vaak fout gaat, is dat een ij een y wordt. Maar dat wordt vaak, daar zit ‘m de grap: die veranderingen vinden niet altijd plaats. Het hangt er vanaf hoe de staat van de bron is, en zelfs dan gaat het soms op voor mij verrassende momenten fout. Een handmatige check is dus onontkomelijk.

En naast de fouten van OCR zijn er nog aanpassingen die ik bewust wil doen aan mijn bronmateriaal. Mijn doel is om een doorzoekbare database te maken van taaladvies. In eerste instantie is die alleen voor mezelf, want op veel werken zit nog copyright. Van het Bridging the Unbridgeable-project uit Leiden weet ik hoeveel tijd er gaat zitten in het verkrijgen van toestemming om een deel van zo’n werk toch openbaar te maken, zelfs achter een wachtwoord. Hoe graag ik dus ook mijn data wil delen, dat mag in ieder geval deels niet. Hoe dan ook, ík moet wel door de database kunnen zoeken. Dat wil ik deels automatisch kunnen doen, door (simpel voorbeeld) een woord in te typen en dan alle gevallen terug te krijgen van dat woord. Dan is het wel handig als ik sommige dingen in de tekst oplos. Spatiëring bijvoorbeeld: dat is o n h a n d i g als je een zoekopdracht formuleert. Maar ook woordafbreking en afkortingen los ik op. Zo krijg je dus geen natuurgetrouwe database van het taaladvies, maar wel een waar ik het optimaal mee kan werken. Dat is hier het belangrijkst.

Het is de realiteit voor de historisch taalkundige, dat helaas niet alle bronnen die je zou willen doorzoeken digitaal beschikbaar zijn. Je moet dat voor een deel zelf invoeren. En uiteindelijk: is het erg, om zo veel van mijn bronmateriaal door te moeten lezen? Ik denk het niet. Ik leer het spul heel intiem kennen. Dat is ook zeker wat waard, zeker in een tijd waarin we door het gemak van digitale tools soms ver van de rauwe data blijven. Ik ga in de toekomst ook zeker technieken gebruiken waarmee ik meer afstand neem van mijn materiaal, maar ik heb dat materiaal nu wel heel goed in de vingers. Dat stelt me later in staat (hopelijk) de juiste vragen te stellen aan de techniek. Voor nu type ik onverstoord verder. Toen ik dit stukje begon moest ik er nog 33, nu nog 30. Leve de voortgang der wetenschap!

6 gedachten over “Hoe doe ik onderzoek (2) Data maken”

fonolog schreef:

september 11, 2017 om 10:03 am

Over het openbaar maken van de data: je zou kunnen overwegen je database aan de DBNL te schenken. Zij kunnen dan achter de rechten aan gaan.

LikeLike

Beantwoorden
1. msvandermeulen schreef:
  
  september 11, 2017 om 10:46 am
  
  Goed idee! Het enige is dat ik het materiaal idealiter als opzichzelfstaande database zou willen aanbieden, dus met de door mij gemaakte onderverdeling. Dat lijkt, voor zover ik kan beoordelen, niet in de DBNL. Daarnaast voer ik lang niet alle werken compleet in, en onvolledig materiaal lijkt ook niet veel voor te komen in de DBNL. Maar afgezien daarvan ga ik de optie zeker overwegen.
  
  LikeLike
  
  Beantwoorden
Pingback: Taaladvies is de onderdrukking van variatie – Marten van der Meulen
Pingback: Liever schone data dan veel data – Marten van der Meulen
Pingback: Hoe doe ik onderzoek (3) data schoonmaken – Marten van der Meulen
Pingback: De opmars van de taalpolitie – Marten van der Meulen

Hoe doe ik onderzoek (2) Data maken

Gepubliceerd door msvandermeulen

6 gedachten over “Hoe doe ik onderzoek (2) Data maken”

Plaats een reactie Reactie annuleren

Dit delen:

Gepubliceerd door msvandermeulen

6 gedachten over “Hoe doe ik onderzoek (2) Data maken”

Plaats een reactie Reactie annuleren