Het nieuws – in de avond van 11 mei – meldt dat het CPB heeft uitgevonden dat de door Trouw jaarlijks gerapporteerde hitlijsten van scholen, effecten hebben. Een mooie plaats in de lijst levert extra leerlingen op. Ook weet de nieuwslezer te melden dat goed presterende scholen hun niveau niet weten vast te houden, en dat slecht presterende scholen (alles op de onnavolgbare manier waarop Trouw zoiets berekent) het in de erop volgende jaren beter gaan doen.
Fantastisch, constateert de theoreticus: dit heet in de statistiek ‘regressie naar het midden,’ en dat heeft er alles mee te maken dat meer extreme ‘prestaties’ vaak het gevolg zijn van toevalligheden en andere samenlopen van omstandigheden. In latere jaren zijn die toevallige omstandigheden anders, en verdraaid, de positie in de hitlijst is meteen ook een andere. Heeft de nieuwslezer het rapport van het CPB verkeerd gelezen?
Pierre Koning en Karen van der Wiel (2010). Ranking the schools. How quality information affects school choice in the Netherlands. CPB Discussion Paper 150. PDF
Ja, dit Nederlandse spektakel rond de Trouw-cijfers wordt onderzocht en vervolgens gerapporteerd in het Engels. De plak voor het CPB. Dat Planbureau, dat voor ons is bedoeld te werken, matigt zich aan belangrijke rapporten zoals over de houdbaarheid van de overheidsfinancieë onder zich sterk wijzigende demografische omstandigheden, in het Engels te publiceren, en alleen in het Engels. Het laatst bedoelde rapport krijgt dan de schandelijk suggestieve titel ‘Ageing’ mee. U en ik weten dat dat ‘vergrijzing’ is, en moeten dan begrijpen dat het CPB in het toenemende relatieve aandeel van ouderen in de bevolking, een bedreiging van de houdbaarheid van de overheidsfinancieën ziet. Wees dus gewaarschuwd: achter de Engelse façade kan een vooringenomen rapport schuilgaan.
Pierre Koning en Karen van der Wiel (2010). School responsiveness to quality rankings. An empirical analysis of secondary education in the Netherlands. CPB Discussion Paper 149. PDF
De titel maakt mij achterdochtig: ons wordt een ‘empirische analyse’ beloofd. Nog nooit zo’n dier gezien. Waarschijnlijk is bedoeld: een analyse van empirische gegevens. Nu kun je erover twisten of de hitlijsten van Trouw wel ‘empirische data’ zijn, en voor mij zijn ze dat dus niet. De hitlijsten komen op ondoorzichtige wijze tot stand, het is dus maar de vraag waar de rangordenummers precies voor staan. Ik heb schoolbesturen wel eens aangemoedigd, in het bijzonder wanneer ze ‘slecht’ scoren, om eens te proberen erachter te komen hoe Trouw dan die score heeft berekend. (zie deze webpagina, zoek ‘Trouw’
Hoe dat ook zij, die tweede rapport gaat over die regressie naar het gemiddelde van de hoog, respectievelijk laag scorende scholen. Ik probeer het gammele Engels te lezen, de ‘Discussion’ is knap onbegrijpelijk. Bijv.: “Finally, our results indicate that the room and for use of gaming activities after the introduction of the ranking system was only small. ” Dan maar zoeken of de auteurs ingaan op het probleem van regressie naar het gemiddelde: daar hebben ze geen aandacht voor. Afijn, als CPB-onderzoekers dit methodologische puntje over het hoofd zien, mag ik de nieuwslezer niet verwijten iets over het hoofd te zien wat niet in het rapport is vermeld.
De onderzoekers maken gebruik van databestanden van de Inspectie, en natuurlijk van de ranglijsten zoals Trouw die heeft gepubliceerd. Let goed op wat de onderzoekers aan het doen zijn: ze gebruiken deze statistische gegevens om te komen tot conclusies over het beleid van scholen in reactie op de Trouw-publicaties. Lees het nog een keer. Het CPB heeft dus niet onderzocht hoe scholen in feite met beleid reageren op Trouw-publicaties. Ik zou ook niet weten wat een hoge, respectievelijk een lage ranking in Trouw betekent in termen van beleidsmaatregelen die in volgende jaren die ranking zou kunnen veranderen. Afijn, daar maken de CPB-onderzoekers zich geen zorgen om. De data gaan de computer in, de resultaten worden geduid alsof ze iets zeggen over beleid dat scholen voeren.
Hoe zit het nu met die regressie naar het midden? Ik zie in dit moeilijk leesbare rapport geen enkele aanwijzing over de mogelijke grootte van die te verwachten regressie naar het midden, dus ook niet of er na een correctie nog wel enig effect overblijft dat valt te analyseren. I am at a loss. Ik kan niet uitsluiten dat ergens in de gehanteerde modellen rekening is gehouden met regressie naar het midden, maar het rapport blijkt er geen melding van te maken.
Ik moet zeggen, ik heb deze blog in precies een uur geschreven, inclusief het doornemen van het tweede rapport. Ik kan iets over het hoofd hebben gezien. Dan laat ik dat nog weten.
Ik wil hier wel graag opmerken en benadrukken dat de onderzoekers er uitvoerig melding van maken dat de Trouw-scores op onnavolgbare wijze tot stand zijn gekomen: het is ze niet gelukt deze te reconstrueren op basis van de oorspronkelijke gegevens van de Inspectie, en gegeven wat Trouw zelf heeft gepubliceerd over de precieze berekeningswijze. Wonderlijk, een onderzoekrapport over de effecten van scores waarvan onbekend is wat ze voorstellen! Maar het feit dat de scores in Trouw zijn gepubliceerd kan natuurlijk wel gevolgen voor de scholen hebben, daar gaat het eerstgenoemde rapport over.
Ik moet mij verontschuldigen voor het statistische jargon, maar het methodologisch punt dat ik hier aankaart, raakt het hart van het CPB-rapport: het is voor mij een open vraag of de effecten die het CPB meent te zien, méér zijn dan een ‘regressie naar het midden,’, dus méér dan toeval. Wie vertrouwen heeft in het CPB, mag verwachten dat de onderzoekers met een overtuigende reactie komen.
Ben Wilbrink.
Nota Bene. 7 juni. Pierre Koning heeft mij gewezen op publicatie van een en ander in ESB. Ik kom daar later nog op terug, want het kan zijn dat in dat artikel antwoord komt op enkele bovengenoemde vragen en onduidelijkheden. Nu alvast de precieze verwijzing:
Pierre Koning en Karen van der Wiel (2010). Kwaliteitsinformatie middelbare scholen maakt verschil. Economisch Statistische Berichten, 95, #4585, 14 mei, 294-297.
- lead Sinds 1997 publiceert het dagblad Trouw jaarlijks kwaliteitsinformatie over scholen in het voortgezet onderwijs. De publicatie door Trouw blijkt mede van invloed te zijn op de schoolkeuze van ouders en leerlingen, vooral bij vwo-scholen. Tegelijkertijd verbeteren de scholen na een negatief
oordeel hun onderwijsprestaties.
CPB en onderwijs
Het Centraal Planbureau dat onderwijsonderzoek doet. Dat is niet alleen een vreemde figuur, maar ook een zorgelijke. De berichten over onderwijs die het CPB de wereld in stuurt, liften mee op het aanzien dat het CPB heeft op zijn eigenlijke taken. Laat niemand zich daardoor laten verblinden: als het CPB branche-vreemde klussen gaat doen, in dit geval in opdracht van OCenW, EZ en zichzelf, dan is het verstandiger uit te gaan van de veronderstelling dat ze misschien wel verstand hebben van econometrische modellen, maar niet van onderwijs:
Het voorliggende onderzoek laat zien dat scholen hun kwaliteit verbeteren na een
slechte beoordeling door Trouw: zowel het gemiddelde eindexamencijfer als het aantal
eindexamendiploma’s nemen als gevolg hiervan toe. [samenv. #149]
Het omgekeerde is waarschijnlijk ook waar, en daar mag directeur Coen Teulings zich dan zorgen over maken: geklungel met econometrische modellen op toevallig beschikare databestanden uit het onderwijs, straalt af op de doorrekeningen van begrotingen, en van verkiezingsprogramm die het CPB bijvoorbeeld op 20 mei a.s. gaat presenteren.
Want wat is er aan de hand met de ‘Discussion Papers’ #149 en #150: er worden vrolijke analyses gedaan op een databestand dat voor andere doeleinden is opgesteld, en daar worden nog vrolijker conclusies uit getrokken over het beleid dat scholen zouden voeren. Het absurde van deze oefeningen is dat ze uitgaan van toevallig beschikbare data. Vergelijk dat met die keer dat ja na een feestje je fietssleuteltje kwijt was: in lichtelijk beschonken toestand ging je dat sleuteltje zoeken onder de enige brandende lantaarnpaal in de buurt: daar kon je tenminste iets zien. Nee, je fiets stond daar niet. Voor dit onderzoek hebben de onderzoekers geen school van binnen gezien. Nu hoeft dat ook niet altijd, maar zodra je conclusies trekt over wat zich bnnen schoolmuren/directiekamers afspeelt, komt dat anders te liggen.
re CPB en O
Ben,
Inderdaad is dit een heel zwakke vertoning van het CPB (al is het onbegrijpelijke Engels in het voorbeeld dat je geeft het gevolg van een typefout: “and” hoort daar niet.
Belangrijker is uiteraard dat de uitgebreide kritiek op de gangbare methodologie van deze rankings (zoekterm: league tables, evt. aan te vullen met secundary education, pdf, critique, en nog zo wat) de auteurs blijkbaar onbekend is, in ieder geval in hun referenties schittert door afwezigheid. Ik kan je zo 5 titels leveren. Een goed overzicht van wat er mis kan gaan bieden de al eens in m’n Jan Ravens-excercitie genoemde Salmi en Saroyan: League Tables as Policy Instruments: Uses and Misuses. Higher Education Management and Policy, Volume 19, No. 2 (toegang vereist, maar met enige moeite als pdf wel op internet te vinden, hoop ik, anders roep je maar even).
Daar lezen we ook dat rankings voor secundair onderwijs al sinds 1982 worden uitgevoerd. Zie bv.de Fiske Guides to Colleges, 1982 (of moeten we die tot het tertiair onderwijs rekenen?); iets dat Koning en Van der Wiel kennelijk is ontgaan. Net als het gegeven dat, anders dan K & VdW beweren, het wel degelijk de media zijn die dit ” onderzoek” vaak betalen en initieren (p. 6, al gaat het in deze tabel 2 van Salmi c.s. om hoger onderwijs instellingen).
Er is niets tegen accountability, lijkt me, maar als het zo moet is het weggegooid geld. Ik vrees dat het de participanten om dat laatste te doen is. Over de motieven van kranten hoeven we het niet te hebben, daar heerst nu eenmaal de betonnen onkunde.
Googlen op de altijd nuchtere Alan Smithers is hier de moeite waard.
Willem Smit
De wondere wereld van het CPB
Willem,
Ik heb wel een idee wat de auteurs bedoelen met “the room for use of gaming activities,” maar als dit goed Engels is, dan . . . . Met “gaming” bedoelen de auteurs activiteiten die de de prestatie-indicatoren gunstiger doen uitkomen dan terecht is. Dat is krom taalgebruik, en getuigt van weinig begrip voor de problematiek (Van Dale Groot Woordenboek geeft deze betekenis van ‘gaming’ evenmin). Al in de 19e eeuw heeft Engeland ernstige problemen met het scholen afrekenen op examenprestaties: dat leidde tot eenzijdig stampen op alleen de kennis nodig om op die examens te scoren. Hetzelfde nu in de VS onder de No Child Left Behind Act. Oude vos James Popham kent dit wereldje en de tricks of the trade van binnenuit en put zich nu uit in het waarschuwen van leerkrachten en ouders voor de misstanden rond high stakes testing. Dit complex van zaken wordt met de term ‘gaming’ absoluut niet goed weergegeven.
Ik heb met Jaap Dronkers al een lange historie van opgewekte discussie over de hitlijsten van Trouw. Destijds door Trouw begonnen, na het winnen van een proces tegen de Inspectie om de tot dan geheim gehouden schoolgegevens vrij te krijgen. Dat is prima, er moet publieke verantwoording zijn. Dronkers zag destijds terecht een groot probleem opdoemen wanneer Trouw zich zou beperken tot het rapporteren van eindexamenresultaten zonder meer, en hij slaagde erin een bondje te maken met Trouw om te komen tot een correctie van die eindexamencijfers op basis van instroomgegevens. Je ziet het al: het gaat niet om de eindcijfers op zich, maar om het verschil dat de school heeft weten te maken over die vier, vijf of meer jaren dat ze de leerlingen in huis hebben gehad. Prima actie van Dronkers.
Maar nu weet niemand meer hoe Trouw in feite die scores heeft berekend, en nog steeds berekent. Dus niemand weet wat die scores eigenlijk voorstellen. Het CPB ook niet, ondanks hun complexe berekeningen.
Ben