Vastuullisen arvioinnin sudenkuopat
Kirjoittanut
Tuomas ForsbergSiihen nähden, kuinka paljon akateemisista rekrytointi- ja rahoituspäätöksistä sekä muista tutkijoita ja tutkimusyksikköjä koskevista arvioinneista keskustellaan epävirallisesti erilaisissa tapaamisissa ja sosiaalisessa mediassa, aiheesta on käyty yllättävän vähän julkista keskustelua (katso kuitenkin esim. Kekäleen, Pietilän ja Rintamäen artikkeli Tiedepolitiikka-lehdessä). Tutkimusta aiheesta on tehty varsin vähän, mikä on hämmästyttävää ottaen huomioon, kuinka isoista rahasummista maailmanlaajuisesti on kyse.
Sosiaalisissa kuplissa epäoikeudenmukaisuuden tunne ja kokemus akateemisen maailman epäjohdonmukaisuudesta kasvavat helposti, koska samansuuntaiset näkemykset vahvistuvat. Päätöksiä ja arvioita tehneet tahot eivät useinkaan pysty tai halua osallistua tällaiseen keskusteluun. Keskustelu on kiivaimmillaan silloin, kun se koskee yksittäisiä tapauksia, vaikka hedelmällisempää olisi, että keskustelun painopiste olisi yleisissä periaatteissa ja käytännöissä.
Keskustelu arvioinnista on tärkeää siksi, että arviointikriteereillä on suuri merkitys tutkimuksen suuntautumisessa. Mikään ei ohjaa tutkimusta enempää kuin oletus siitä, minkälaista kriteeristöä käytetään tutkimusta arvioitaessa. Sitä paitsi tiedeyhteisön ja siksi koko tieteen tulevaisuuden kannalta suurimpia ongelmia on tutkijaurien epävarmuus. Tutkijoiden tai tutkimuksen arvioinnin ennakoimattomuus lisää tätä epävarmuutta ja syö tutkijoiden motivaatiota tehdä kunnianhimoista tutkimusta.
Tutkijoiden pätevyyden arvioinnilta edellytetään yhtäältä johdonmukaisuutta mutta toisaalta myös erilaisten erityispiirteiden ja poikkeuksien huomioon ottamista. Täydellistä yhdenmukaisuutta ja objektiivisuutta ei voida saavuttaa, mutta missä määrin sellaiseen pitäisi voida pyrkiä? Kun erilaisista kriteereistä tutkijoiden pätevyyden arvioimiseksi ja niiden tulkinnoista päätetään, pohjautuvatko päätökset kokemusperäiseen tietoon vai heijastelevatko ne vain ajan trendejä ja muualta omaksuttuja käytäntöjä?
Tieteelliset arviointikäytännöt elävät ajassa
Vanhaa, paikoin 2000-luvulle asti vallinnutta käytäntöä tutkijan arvioinnissa Suomessa on usein karrikoitu ja karikatyyrin pohjalta sekä kritisoitu että ihannoitu. Vanhassa järjestelmässä professorin virkaa täytettäessä pyydettiin lausuntoa kolmelta ulkopuoliselta asiantuntijalta, jotka sitten rankkeerasivat parhaat hakijat tutkimusansioiden, ennen kaikkea arvioitsijoille toimitettujen julkaisujen pohjalta. Tieteellisen pätevyyden arviointia varten ei annettu tarkempia ohjeita, joten se saattoi olla hyvinkin mielivaltaista. Asiantuntijoiden antamat arviot menivät usein ristiin, eikä niissä läheskään aina käytetty samoja kriteerejä. Hakijoiden arvioinnin tulos riippui hyvin usein arvioitsijoista, jotka tyypillisesti suosivat sellaista hakijaa, jonka tuotanto oli lähellä arvioitsijan omaa tuotantoa tai oli muuten arvioitsijalle tuttu. Tämä mahdollisti manipuloinnin jo arvioitsijoita valittaessa. Arvioitsijoista ja arvioista saattoi vielä 1990-luvulle asti valittaa, mutta tämä ei useinkaan johtanut toivottuun tulokseen. Pikemminkin saatiin aikaan isoja riitoja, katkeroitumista ja pitkäaikaista vihanpitoa tiedeyhteisössä. Toisaalta arvioinnit, valitukset ja niistä käydyt julkiset keskustelut ovat usein merkittäviä dokumentteja tieteenalan oppihistorian ja tieteen sosiologian kannalta.
2000-luvulta lähtien siirryttiin kansainvälisiä, lähinnä anglosaksisia malleja mukaillen käytäntöön, jossa tutkijan pätevyyden arvioinnissa ryhdyttiin painottamaan julkaisufoorumeiden merkitystä laadun takeena ja objektiivisemman arviointikriteeristön aikaansaamisessa. Vaikka julkaisuja edelleen toimitettiin arvioitsijoille, julkaisuluettelo alkoi merkitä enemmän kuin tekstinäytteet. Jos kirja tai artikkeli oli julkaistu arvostetulla kansainvälisellä foorumilla, se oli lähes automaattisesti painavampi kuin vähäpätöisemmällä foorumilla julkaistu teksti. Niitä arvostettiin, sillä tiedettiin, että hyvillä foorumeilla julkaistu vertaisarvioitu teksti on yleensä läpäissyt varsin tiukat kriteerit. Kappaletta toimitetussa kirjassa, suomenkielistä tieteellistä artikkelia saati laitossarjassa julkaistua työpaperia ei voinut mitenkään verrata edellisiin, vaikka ne periaatteessa olisivat olleet asiantuntijankin mielestä sisällöltään korkeatasoisia. Julkaisujen määrä itsessään ei ollut enää kovin tähdellinen kriteeri, mutta etenkin kansainvälisissä tiedelehdissä julkaistujen vertaisarvioitujen julkaisujen määrälle voitiin antaa aika laillakin painoa. Tällä oli merkitystä senkin vuoksi, että yliopistojen rahoitusmallissa tutkijoiden edellytettiin tuottavan nimenmaan vertaisarvioituja artikkeleita.
Uudistuneet arviointikäytännöt johtivat Suomessa selvään kansainvälisen julkaisemisen kasvuun. Mihinkään täysin yhdenmukaiseen arviointikriteeristöön saati tulkintaan siitä, miten sitä pitäisi soveltaa, ei tietenkään päästy. Tieteenalojen välillä oli suurta vaihtelua, mutta usein myös niiden sisällä. Vaikka arvioitsijat olisivat jakaneet taustaoletukset julkaisufoorumien merkityksestä, jäi tutkijan pätevyyden arviointiin aina avoimia kysymyksiä. Kuinka merkittävä tuotos on kirja suhteessa artikkeleihin? Kuinka arvostettu se tai tämä julkaisukanava oikeasti on? Kuinka paljon merkitystä annetaan tuotannon leveydelle suhteessa sen kärjen laatuun? Kuinka arvioidaan yhteiskirjoitettuja julkaisuja suhteessa yksin kirjoitettuihin? Erityisen hankala oli arvioida sitä, kuinka paljon painoa annetaan viimeaikaiselle tuotannolle ja sen nousevaan käyrään verrattuna tutkijan koko tuotantoon.
Samaan aikaan pyrkimyksessä objektiivisuuteen alettiin mennä monien mielestä paikoin jo liian pitkälle. Pahimmillaan arvioitsija ei enää arvioinut tutkijoiden pätevyyttä ollenkaan tavanomaisten tutkimukselle asetettujen sisällöllisten laatukriteerien pohjalta vaan konemaisesti ulkoisia kriteerejä luokittelemalla ja ynnäämällä. Kun tutkimusmetriikan käyttö yleistyi tutkijanarvioinnissa, ei laatua enää juurikaan arvioitu itsenäisesti. JUFO-luokituksen piti päteä vain aggregaattitasolla, mutta enenevästi oletettiin, että sillä tulisi olla merkitystä myös yksittäisten tutkijoiden arvioinnissa.
Arvioinnin ”vastuullisuudesta” tulikin sen monimuotoisuutta
Viime vuosina yliopistomaailmassa onkin puuhattu käännettä, jota on kutsuttu ”vastuulliseksi arvioinniksi.” Vastuullisen arvioinnin periaatteina ovat läpinäkyvyys, integriteetti, tasapuolisuus, pätevyys ja monimuotoisuus. Käänteen tarkoituksena on siirtyä kohti täsmällisempiä ja kattavasti tiedeyhteisön toiminnan huomioivia ohjeistuksia tutkijoiden ja tutkimuksen arvioinnissa. Ilmentymiä ja samalla vauhdittajia tässä käänteessä ovat DORA– ja CoARA-julistukset sekä Suomessa Tieteellisten seurojen valtuuskunnan suositus vastuullisesta tutkijanarvioinnista.
Yliopistot ja muun muassa Suomen Akatemia ovat sitoutuneet näihin julistuksiin tai vastaaviin periaatteisiin. Esimerkiksi Suomen Akatemia ”painottaa hakijan kompetenssin arviointia, joka ei perustu määrällisiin mittareihin” vaan ”julkaisujen tieteelliseen sisältöön ja laatuun”. Tutkijan saavutuksia ei myöskään ole tarkoitus arvioida vain julkaisujen vaan ”moninaisten tuotosten ja tutkijanuran tehtävien kautta”. Hakija ei voi liittää hakemukseensa metriikkatietoja, kuten vaikuttavuuskerrointa tai JUFO-luokitusta. Metriikan käyttö arvioinnissa on kielletty tai sen on vähintään oltava vastuullista ja siihen liittyvät ongelmat tiedostavaa.
Mutta tässäkin käänteessä on omat ongelmansa. Vastuullinen arviointi kuulostaa hyvältä, koska kukapa ei ”vastuullisuutta” kannattaisi. Pelkkään metriikkaan tuijottaminen, etenkin tieteenalojen välillä mutta jo niiden sisälläkin on ilmeisen harhaanjohtavaa. Julistuksiin on kuitenkin sitouduttu usein ilman sen laajempaa keskustelua siitä, mikä niissä ja niiden noudattamisessa saattaisi olla ongelmallista. ”Vastuullisuus” on muotisana, joka on vakiintunut jo aiemmin yrityselämässä. Sieltä tulee myös tapa ymmärtää vastuullisuus kriteeristön laajentamisena eikä niinkään tilivelvollisuutena.
Tutkijan arvioinnin apuvälineeksi kehitetyssä FIN-CAM-työkalussa on lueteltu lähes 100 erilaista arvioinnin ulottuvuutta, joissa useimmissa on erilaisia alakohtia. Kriteeristön laajentaminen ilman priorisointia ei ole kuitenkaan kovin hyvä käytännöllinen apuväline. Siksi onkin välttämätöntä, että ”arviointityökalusta voidaan valita arviointitilanteen kannalta keskeisimmät kriteerit”. Toisin sanoen FIN-CAM-matriisi ei oikeastaan olekaan ”työkalu” vaan ”työkalupakki”. Asioiden luetteleminen ja kuvailu ei vielä kerro laadusta juurikaan mitään. Kriteeristön muuttaminen määrällisestä laadulliseksi ei suinkaan auta tekemään arvioinnista täsmällisempää ja ymmärrettävämpää, vaan avaa helposti oven mielivallalle, jos avainkriteerejä tai laatua ei määritellä millään yhtenäisellä tavalla.
Paholainen on yksityiskohdissa ja siksi lapsi uhkaa mennä pesuveden mukana. Osalle arvioinnin ulottuvuuksista voidaan FIN-CAMin mukaan mitata määrällisesti, mutta määriä pitäisi käyttää vain laadun arvioinnin tukena. On melkoinen paradoksi, että samaan aikaan kun monilla tieteenaloilla, jopa sellaisilla joilla on aiemmin tehty pääasiassa laadullista tutkimusta, on viime aikoina innostuttu ja nähty tieteellisen edistyksen kannalta lupaavana, että tutkimusta voidaan tehdä myös määrällisin keinoin uusien tekniikoiden avulla, niin tutkija-arvioinnissa mennäänkin täysin päinvastaiseen suuntaan. Jos metriikan vastuullisesta käytöstä ei ole selvää yhteisymmärrystä, seurauksena on, että sitä ei siten haluta käyttää ollenkaan – ainakaan julkisina perusteina.
Miten laatua voidaan arvioida?
On selvä, että metriikkaa ei voida käyttää järkevästi tieteenalojen välisessä arvioinnissa, koska julkaisukulttuurit ovat eri aloilla varsin erilaisia. Aina sitä ei voida käyttää tieteenalojen sisälläkään, jos hakijat edustavat lähtökohtaisesti julkaisukulttuureiltaan erilaisia tieteenalan osa-alueita. Mutta mikäli näin ei ole, julkaisujen määrän ja niiden laadun arviointi niiden julkaisukanavan pohjalta antaa kyllä jonkinlaisen yleisesti pätevän perustan luokitella hakijoita eri kategorioihin. Korrelaatio julkaisujen laadun ja niiden julkaisukanavien laadun välillä ei ole täydellinen mutta kuitenkin varsin korkea. Hyvillä foorumeilla julkaiseminen osoittaa yleensä myös tutkijan sinnikkyydestä ja päämäärätietoisuudesta. Aina on poikkeuksia ja rajatapauksia, mutta varsinkaan suuren hakijajoukon arviointi ei yksinkertaisesti ole järkevästi mahdollista, mikäli tällaisia kriteerejä ei käytettäisi. Raja on aina vedettävä johonkin, ja poikkeuksia voidaan perustella, mutta laatua voidaan alkaa tarkastella kunnolla vasta, jos määrä on rajallinen.
Mitä laatu sitten on? Julkaisujen laadulle on vaikea asettaa yksiselitteisiä kriteerejä. Tieteessä laadun määrittelevät toiset asiantuntijat. Tässä on ongelmana se, että jos laadulle ei ole asetettu erityisen selkeitä yhteisesti jaettuja kriteerejä, asiantuntijat voivat tulkita laadun kukin omalla tavallaan. Asiantuntijoiden subjektiivisen arvioinnin merkitystä voidaan perustella sillä, että heidät on valittu tehtävään juuri siksi, että heidän asiantuntemukseensa ja samalla myös tapaan tulkita laatua luotetaan. Asiantuntijoita kierrättämällä taas voidaan välttää systemaattisia vinoumia.
Erityisen vaikeaa on kuitenkin tutkimussuunnitelmien laadun arviointi, koska suunnitelmat ovat tyypillisesti varsin suppeita, eikä niissä vielä voida osoittaa tutkimuksen tuloksia. Tämän lisäksi suunnitelmia arvioivat asiantuntijat eivät useinkaan ole edes samalla asiantuntemuksen tasolla kyseisessä asiassa kuin suunnitelman laatineet tutkijat. Post-doc-vaiheen jälkeen näin on itse asiassa erittäin harvoin, koska jo määritelmällisesti post-doc-vaiheen ohittaneet ovat oman alansa asiantuntijoita. Niinpä tutkimussuunnitelman laadun arvioinnissa käytetään usein sellaisia kvasikriteerejä, kuten suunnitelman selkeys, toteutettavuus, avoimuus tai jopa sellaisia itse suunnitelman sisällön kannalta toissijaisia tekijöitä kuin tutkijaliikkuvuus.
Kunnianhimoiset ja vaikeasti ymmärrettävät suunnitelmat eivät useinkaan saa parhaita pisteitä. Vaikka suunnitelmien riskikerrointa voidaan joskus hyödyntää arvioinnissa myönteisessä valossa, arvioitsijoiden ei aina ole helppo hahmottaa, millaisista riskeistä kulloinkin on kyse, jos ne koskevat muutakin kuin suunnitelman toteuttamista. Käytännössä tutkimussuunnitelman arviointiin vaikuttaa hyvin pitkälle se, kuinka läheiseksi ja merkittäväksi arvioitsija kokee itse tutkimuksen aiheen sen sijaan, että kriteereinä käytettäisiin tutkimusongelman asettumista joidenkin tärkeiden teoreettisten keskustelujen kehikkoon, sen syvyyttä ja jännitteisyyttä sekä kykyä tarkastella vaihtoehtoisia tulkintoja ja selitysmalleja. Sovellettavien lähestymistapojen tai rakennettavan argumentin monimuotoisuutta voitaisiin periaatteessa pitää suunnitelman ansiona, mutta usein nämä kääntyvät heikkouksiksi, jos arvioitsija arvostaa näennäistä selkeyttä. Vaikka edellä mainittuja kriteerejä ei ole helppoa arvioida objektiivisesti ja niiden tunnistaminen edellyttää ainakin jonkinasteista alakohtaista asiantuntijuutta, pienellä työllä näitä kriteerejä voitaisiin soveltaa huomattavasti yhteismitallisemmin kuin mitä yleensä tehdään.
Arvioitsijat pystyvät harvoin tunnistamaan esimerkiksi tutkimussuunnitelman ajankohtaisuutta ja uutuusarvoa, silloin kun suunniteltu tutkimus aidosti on ensimmäisiä laatuaan. Pikemminkin uusina ja nousevina kysymyksinä pidetään helposti sellaisia muotiaiheita, joista jo jonkin aikaa on tehty tutkimusta ja joille on jo muotoutunut oma niistä kiinnostunut joukkonsa. Jo tutkittuina asioina saatetaan vastaavasti pitää sellaisia, joiden aihepiiristä on tehty ehkä suhteellisen paljonkin tutkimusta joitakin vuosikymmeniä aiemmin, mutta jotka ovat sen jälkeen jääneet syrjään ja unohdettu juuri siksi, että niitä on pidetty liian tutkittuina. Kuitenkin uudet teoreettiset näkökulmat, menetelmät ja empiiriset kontekstit voisivat tuoda niihin hyvinkin merkittäviä ja tarpeellisia päivityksiä.
Tutkimuksen ja tutkimussuunnitelmien laadun arvioinnissa on omat ongelmansa, mutta vielä vaikeammaksi tutkijan ”vastuullinen” arviointi menee, kun siihen lisätään uusia ulottuvuuksia. Tässäkään ei ole sinänsä mitään väärää. Jos haetaan tutkijaopettajaa, on tietysti selvää, että myös opetusansioita käytetään kriteerinä. Opetusansioiden arviointia on yritetty kehittää, mutta mitä enemmän siihenkin lisätään erilaisia komponentteja, subjektiivisten arvostusten ja sattumanvaraisuuden merkitys kasvaa. Joissakin tapauksissa 20 minuutin opetusnäyte voi painaa tehtäväntäytössä enemmän kuin 20-vuotinen ura. Vastaavasti datan keräämistä, hallintaa ja analysointia koskevat kyvyt voivat olla tärkeitä, jos rekrytoidaan staff scientist -tyyppistä tutkijaa. Yhteiskunnallisen vuorovaikutuksen ansioiden taas tulisi korostua ennemmin ajatuspajojen kuin yliopistojen tutkijoiden arvioinnissa.
Vanhoja näyttöjä voidaan arvioida luotettavammin kuin lupauksia tulevasta
Oman erityisen ongelmansa muodostaa haastattelujen käyttö akateemisissa rekrytoinneissa. Haastattelut ovat yleistyneet, vaikka tutkimustiedon mukaan ne saattavat usein pahasti vinouttaa päätöksentekoa. Haastatteluista saatu informaatio perustuu helposti intuitiivisille vaikutelmille ja suosii hakijoita, jotka ovat ulospäin suuntautuneita, sanavalmiita sekä jollakin tapaa samankaltaisia haastattelijoiden kanssa. Ei ole aina selvää, mikä on se nimenomainen tieto, mikä haastatteluissa saadaan selville.
Vaikka arvioinnin monimuotoisuutta voidaan lisätä sillä, että rekrytointia ja rahoitusta koskevat päätökset tehdään paneelissa, riskinä on se, että paneelissa kukaan ei paneudu asiaan riittävän kokonaisvaltaisella tavalla. Ryhmäajattelu voi johtaa vinoumiin ja näennäiseen varmuuteen monimuotoisuuden sijasta tai siksi että yksittäiset paneelin jäsenet saattavat käyttää suhteettoman suurta valtaa lopputulosta määriteltäessä. Kollektiivisessa päätöksenteossa vastuu helposti katoaa, jos päätöksentekoon osallistuneet eivät millään tavalla kärsi epäonnistuneiden päätösten seurauksista tai tule palkituiksi hyvistä ratkaisuista.
Akateemisten rekrytointien onnistuminen on Suomessa erityisen tärkeä asia, sillä monien alojen tutkijoilla ei ole uransa aikana kuin muutama mahdollisuus saada pysyvä työpaikka. Suomi on niin pieni maa, että markkinat eivät korjaa huonoja päätöksiä, vaan ne pikemminkin kertautuvat seuraavilla kerroilla, kun ohuemmilla tutkimusmeriiteillä tehtäviinsä nimitetyt ovat vaikuttamassa uusiin valintoihin. Akateemisten rekrytointipäätösten onnistumisesta on harvoin tehty kunnollisia pitkäjänteisiä arvioita, mutta jos uskomme Daniel Kahnemania, niiden onnistumisprosentti ei todennäköisesti ole paljoakaan yli 50 %.
Erilaisten mittareiden ja algoritmien kehittämisessä ja soveltamisessa on se perusongelma, että objektiivisia tai kaikki relevantit tekijät huomioon ottavia mittareita ei ole olemassa. Niinpä seurauksena on se, että saadaan sitä, mitä mitataan eikä sitä, mitä tavoitellaan. Tunnettuna esimerkkinä tästä on, että hyvillä julkaisuareenoilla julkaistujen artikkelien tuotanto näyttää kiihtyvän, jos niitä edellytetään, ja tarkoittamattomana seurauksena tulokset julkaistaan pienemmissä siivuissa. Samalla tutkijoiden halukkuus tuottaa toisentyyppisiä julkaisuja vähenee siitäkin huolimatta, että tiedeyhteisön kokonaisedun kannalta monimuotoisuuden säilyttäminen voisi olla tärkeää. Toisaalta mitä enemmän erilaisia mahdollisia ansioita pidetään tärkeinä ilman, että eri komponenttien suhteellisesta merkityksestä tai tavoista tulkita niitä on jaettua ymmärrystä, sitä vähemmän näillä on ohjausvaikutusta. Arviointiprosessin läpinäkyvyyskään ei parane, jos eri komponenttien painoarvoa ei määritellä, vaan vedotaan ympäripyöreästi jonkinlaiseen ”kokonaisarvioon”.
Jos tutkimuksen ja tutkijoiden arviointia halutaan kehittää, tulisi kriteerien jatkuvan laajentamisen sijasta antaa suurempi painoarvo julkaisuin osoitetuin tutkimuksellisille meriiteille silloin, kun ollaan rekrytoimassa perinteistä tutkijaa tai tutkijaopettajaa. Tutkimusmeriittien suhteen suurin piirtein samalla tasolla oleviin tutkijoihin voidaan sitten soveltaa muita kriteerejä, vaikka näiden suhteen yhteisestä skaalasta ja painoarvosta olisikin vähemmän yhteisymmärrystä. Tutkimusmeriittejä on myös suhteuttava siihen, minkälaiset mahdollisuudet hakijoilla on ollut tehdä täysipäiväistä tutkimusta. Siten etusijalle tulisi asettaa henkilö, jolla on ollut vähemmän henkilökohtaista tutkimusrahoitusta, jos tutkimusmeriitit ovat suurin piirtein tasoissa eikä se, jolla sitä on ollut enemmän.
Tämä saattaa kuulostaa paluulta vanhaan, mutta aiempia tutkimusmeriittejä painottava käytäntö olisi monimuotoisuutta ja laadullista vertaisarviointia ilman kvantitatiivisia mittareita korostavaa ”vastuullista arviointia” parempi ainakin kahdesta syystä. Ensinnäkin julkaisuin osoitettujen tieteellisten arvioiden mittaamisesta on suurempi jaettu ymmärrys kuin muiden ansioiden mittaamisessa. Tämä lisäisi ennustettavuutta ja vähentäisi tutkimusurien epävarmuutta. Toiseksi vanhat meriitit ennustuvat tulevaa suoriutumista suunnitelmia paremmin. Jos tutkijoilta odotetaan kansainväliset mitat täyttävää tutkimusta, sitä todennäköisesti tulee enemmän, jos sellaisesta löytyy aikaisempia näyttöjä.
Suurin vastuu onnistumisesta ja virheistä säilyy päätöksentekijällä
Koska täyttä objektiivisuutta tai ennustettavuutta ei voida saavuttaa, arviointiin jää aina jonkinlainen subjektiivinen elementti ja virheiden mahdollisuus. Vastuullisuus ei kuitenkaan kasva sillä, että arviontiin lisätään ulottuvuuksia ja hämärretään kokonaisharkintaa. Pikemminkin vastuullisen tutkijan ja tutkimuksen arvioinnin tulisi tarkoittaa päätöksentekijän vastuuta siitä, miten arvioita tulkitaan ja käytetään lopullisia päätöksiä tehtäessä.