In deze laatste fase van jouw onderzoek, waarin je de resultaten interpreteert, bediscussieert en conclusies trekt, kijk je ook terug op hoe het onderzoeksproces verlopen is. Wat ging er goed, wat had er beter gekund? En welke gevolgen had dit voor de resultaten? Binnen een praktijkonderzoek verloopt dit proces namelijk zelden helemaal vlekkeloos. Bij laboratoriumonderzoek kun je alle variabelen en factoren verregaand onder controle houden. Maar praktijkonderzoek binnen de onderwijspraktijk is weerbarstig en je kunt binnen jouw onderzoek altijd wel aspecten en momenten aanwijzen waarin zaken niet liepen zoals gepland. Dit is in principe niet erg, zolang je hierin volledig transparant bent. Uiteindelijk zal de beschrijving van het onderzoeksproces, inclusief wat minder goed is gegaan, een onderdeel zijn van de discussie van jouw onderzoek. Je plaatst daarmee het onderzoek in het juiste perspectief zodat de lezer (of luisteraar) jouw onderzoek op waarde kan schatten.
Veel voorkomende verstoringen in het onderzoeksproces zijn bijvoorbeeld:
- Je had uiteindelijk geen volledige toegang tot de onderzoeksgroep. Je wilde bijvoorbeeld onderzoek doen in de onder- en bovenbouw van jouw school, maar op het moment van uitvoeren bleek dat de onderbouw een extra toetsweek ingepland kreeg. Of op het moment van afname van een focusgroep bleek dat er drie van de zes leerlingen ziek waren.
Dit kan invloed hebben op de generaliseerbaarheid (ook wel externe validiteit) van de resultaten. Dat is de mate waarin bevindingen geldig zijn voor bepaalde groepen. Ondanks dat jouw onderzoeksvragen zich richtten op de onder- en bovenbouw kun je nu alleen nog maar uitspraken doen en conclusies trekken voor de bovenbouw. Resultaten zijn in dat geval dus beperkter generaliseerbaar dan je vooraf had voorzien.
- Een meetinstrument werkte niet zoals je had bedacht/verwacht. Bijvoorbeeld wanneer je een vragenlijst inzette die qua taalniveau veel te moeilijk bleek voor de doelgroep waarbij je het onderzoek uitvoerde. Of denk bijvoorbeeld aan een interview waarbij deelnemers vooral bezig waren met sociaal-wenselijke antwoorden geven. Bijvoorbeeld leerlingen die niks negatiefs tegen je durfden te zeggen over de gymles, omdat jij zelf die geeft. Een ander voorbeeld is een beweegmeter die achteraf bezien geen betrouwbaar instrument bleek om alle beweegactiviteiten mee in kaart te brengen, omdat bijvoorbeeld de activiteit ‘fietsen’ niet goed werd geregistreerd. Door al dit soort ‘meetfouten’ ontstaat een vertekening in de uiteindelijke resultaten. Deze zijn geen goede afspiegeling meer van wat er in werkelijkheid gebeurde of aan de hand was.
- Invloed van externe omstandigheden op je interventie of meting. Bijvoorbeeld wanneer je een interventie deed in een serie buitenlessen waarbij de weersomstandigheden dusdanig slecht waren dat leerlingen geen zin meer hadden om zich in te zetten tijdens de les. Mogelijk heeft dit dan de werking van een interventie beïnvloed, bijvoorbeeld wanneer je de fysieke activiteit wilde verhogen. Of er was in de pauze voor jouw les een ruzie geweest tussen leerlingen van de klas, waardoor de uitkomstvan jouw vragenlijst over groepscohesie in de gymles werd beïnvloed. Hiermee zal mogelijk de validiteit van het meetinstrument (heb je gemeten wat je wilde meten) een stuk lager zijn dan je vooraf had ingeschat. Een ander voorbeeld is wanneer je een meetinstrument op meerdere meetmomenten hebt ingezet binnen dezelfde klas waardoor er een test-effect optrad;de deelnemers kenden het instrument inmiddels zo goed dat ze precies wisten wat ze moesten antwoorden voor een bepaalde, wenselijke uitkomst. Ook kan er in sommige gevallen (bijvoorbeeld wanneer deelnemers massaal sociaal-wenselijk antwoorden) zelfs sprake zijn van een systematische vertekening van de resultaten van het onderzoek. De resultaten geven dan niet meer goed de werkelijke situatie weer. De interne validiteit van het onderzoek is daarmee in het geding, dus de mate waarin jij nauwkeurige en juiste conclusies kunt trekken op basis van de verkregen resultaten vanuit een meetinstrument.
- Het Hawthorne effect (zie ook hier). Dit treedt op wanneer deelnemers aan een onderzoek beïnvloed worden vanwege het feit dát ze deelnemer zijn aan een onderzoek. Ze zien bijvoorbeeld de onderzoekers lopen en veranderen daardoor hun gedrag, terwijl dit gedrag nu juist het onderwerp van onderzoek was. De uitkomsten van bijvoorbeeld een observatie zijn dan ineens niet meer betrouwbaar. Als onderzoeker weet je dan dus niet of een bepaalde verandering, door de je interventie komt, of doordat deelnemers zich anders zijn gaan gedragen door de meting. Ook hierbij is de interne validiteit van het onderzoek in gevaar.
Bovenstaande verstoringen in het onderzoeksproces hebben mogelijk dus de validiteit en betrouwbaarheid van de resultaten beïnvloed en beperken daardoor de geldigheid van de conclusies die je trekt. Indien je hier mee te maken krijgt dan is het vooral van belang dat je eventuele conclusies genuanceerd formuleert. Degene die jouw onderzoek straks leest, beluistert of bekijkt kan de door jou getrokken conclusies alleen op waarde schatten wanneer je open en eerlijk bent over mogelijke verstoringen. In de discussie van het onderzoeksrapport (of artikel, of presentatie, etc.) reserveer je daarom altijd een deel om dit aspect te bespreken. Binnen onderzoeksartikelen heet dit onderdeel vaak ‘sterke en zwakke kanten van het onderzoek’ of ‘sterke kanten en beperkingen’. Je benoemt daarin dus niet alleen de zwakke, maar ook de sterke kanten van het onderzoek! De kunst is daarbij om aan de ene kant transparant te zijn over het onderzoeksproces en aspecten die dat negatief beïnvloed hebben, maar tegelijkertijd goed te verantwoorden waarom dit zo was en daarbij ook eventuele sterke kanten in de spotlight te zetten.
Hieronder een wat minder geslaagd en daarna een geslaagd voorbeeld. Het gaat hierbij dus om een stukje uit de discussie waarin er ingegaan wordt op de sterke en zwakke aspecten van het onderzoek:
Een sterk punt van dit onderzoek was dat er werd gewerkt met interventie- en controleklassen. Ook sterk was dat de interventie gebaseerd was op theorie. Door omstandigheden kon de interventie uiteindelijk bij slechts vier klassen uitgevoerd worden. Dit was een stuk minder dan van tevoren was gepland. Ook waren er op de dag zelf een aantal meisjes ziek, waardoor de verhouding jongens/meisjes nog schever werd dan die al was. Doordat de gedragsinterventie plaatsvond op het veld, en daarbij ook een controlegroep aanwezig was (ook al was dit aan de andere kant van het veld) er toch het vermoeden bestaat dat een deel van de leerlingen in de controlegroep betere resultaten lieten zien doordat ze zich bewust waren van het feit dat ze aan een onderzoek meededen.
De kleuren hierboven corresponderen met de kleuren hieronder waarin kort uitgelegd wordt wat precies de tekortkoming is in bovenstaand stuk tekst.
- Dit is niet perse een sterk punt, meer maar een ‘normaal’ aspect van dit onderzoeksdesign.
- Is ook niet perse een sterk punt, maar meer een aspect dat je altijd verwacht, ongeacht welk type onderzoek.
- Welke omstandigheden waren dat precies? Beschrijf die gedetailleerd.
- Ok, maar hoe zag de verdeling tussen de interventie- en controlegroep eruit?
- Ok, maar hoeveel minder? En met welke gevolgen voor de conclusies die je aan de uitkomsten van het onderzoek kunt verbinden?
- Hoeveel precies? Wees gedetailleerd in je beschrijvingen.
- Waar is dat vermoeden op gebaseerd? Hoe denk je dat te weten?
Geslaagd voorbeeld van het beschrijven van sterke en zwakke aspecten van het onderzoek:
Een sterk punt van dit onderzoek was de opzet van het onderzoek. Er werd gewerkt met controle- en interventieklassen en binnen de interventie met een nauwkeurig script voor docenten zodat de interventie werd uitgevoerd zoals voorzien. Daarbij waren theoretische uitgangspunten telkens leidend . De meerwaarde van de gedragsinterventie ten opzichte van een normale LO-situatie kon daardoor goed bepaald worden. Helaas verliep de uiteindelijke uitvoering niet zoals gepland. Van de acht klassen die in het onderzoek zouden deelnemen bleven uiteindelijk alleen de vier brugklassen over. Reden hiervoor was dat de tweede klassen plotseling in quarantaine moesten vanwege een corona-besmetting tijdens het Ardennenkamp. Dit beperkt de geldigheid van de conclusies tot de groep brugklassers. Een andere niet voorziene omstandigheid was dat tijdens de week waarin de interventie plaatsvond maar liefst 9 meisjes ziek waren. Hierdoor werd de toch al scheve verdeling jongens/meisjes nog schever (70 jongens, 21 meisjes). Vanuit de theorie bleek dat de gedragsinterventie mogelijk een andere uitwerking op jongens en meisjes heeft (Baumann & Oswald, 2020). Mijn resultaten vallen daarom misschien positiever uit dan wanneer er een gelijke verdeling was geweest tussen jongens en meisjes. Een laatste aandachtspunt in het onderzoeksproces was dat de uiteindelijke uitvoering van de interventie plaatsvond tijdens de buitenlessen (de vakgroep wilde niet afwijken van het geplande programma). Nadeel hiervan was dat er telkens twee klassen (een controle- en een interventieklas) tegelijk op een veld stonden. Weliswaar aan het andere uiterste van het veld, maar het is niet uit te sluiten dat de controlegroep mogelijk beïnvloed is doordat ze de interventieklas (bewust of onbewust) hebben geobserveerd. Hierdoor zou het kunnen zijn dat de controlegroepen hoger scoorden dan ze in een gescheiden situatie zouden hebben gedaan. Desalniettemin zijn volgens de berekende effectgroottes de verschillen in uitkomsten tussen interventie en controle klassen behoorlijk groot, dus het is de vraag of deze beperking van mijn onderzoeksproces veel invloed op de resultaten heeft gehad.
Praktijkonderzoek: een rommelige methode
In een onderzoek probeer je vooraf zo veel mogelijk verstorende invloeden uit te sluiten. Bij praktijkonderzoek is dat best lastig, en daarom wordt dit ook wel eens ‘messy research’ (‘rommelig onderzoek’) genoemd. Het is goed om je te blijven beseffen dat bij dergelijk onderzoek de instrumentele bruikbaarheid van de resultaten het belangrijkste is. Dit houdt in dat de resultaten van het onderzoek vooral waarde moeten hebben voor de specifieke context en praktijksituatie waar de aanleiding van het onderzoek oorspronkelijk vandaan kwam (de school, de vakgroep, specifieke lessen of klassen, etc.). Dat jouw onderzoek, mede door mogelijke verstoringen, niet altijd te ‘vertalen’ is naar andere situaties (momenten, leerlingen, leraren, klassen, scholen) hoort daarbij. We zeggen dan in onderzoektermen ook wel dat de ‘generaliseerbaarheid’ van het onderzoek laag is. Zo lang je niet net doet alsof wat jij bij een relatief kleine, specifieke groep gevonden hebt, algemeen geldig is, is dat niet per se een probleem.