Tester i Karriereveiledning - en begrepsavklaring

Av Arne Svendsrud (2023)

Hva er egentlig en test i Karriereveiledning? Hva skiller en test fra en psykometrisk test og når er noe et prosessverktøy og ikke en test? Det finnes ulike former for prosessverktøy hvor man tar utgangspunkt i setninger/spørsmål/påstander på item nivå og bruker de til å diskutere  med veisøkere. Et verktøy blir ikke en test fordi det inneholder enkeltspørsmål eller enkeltsetninger som man diskuterer på bakgrunn av. Et prosessverktøy innholder også prosessmuligheter for veisøker. Dvs at veisøker må selv kunne være aktiv i det og produsere innhold i det: kunne skrive, kunne ta vare på informasjon osv. –  på samme måte som Word er et prosessverktøy for skriving.  Når blir noe en test? Det må noe mer til enn spørsmål eller setninger og det er at verktøyet slår sammen enkeltspørsmål til faktorer og det kommer ut «resultater» i form av setninger som forsøker å si noe om noe om en veisøker, som presenteres for veisøker og brukes i samtale med veisøker.  Vi kan skille mellom tester i folkelig forstand og tester i psykometrisk forstand. Nettet flommer over av tester i folkelig forstand på alle mulige områder – også innen Karriereveiledning – feks hvilket yrke passer jeg til osv. Tester i folkelig forstand brukt i Karriereveiledning eller i rekruttering kan i beste fall ha mindre nytte. I verste fall kan de være skadelige ved at man tar viktige beslutninger på helt feil grunnlag. Skal man først bruke tester bør det ligge en psykometrisk holdbar utviklingsprosess bak.

 

En test i folkelig betydning

En test i folkelig forstand er når man besvarer spørsmål, eller gjør ulike oppgaver og at disse slås sammen til faktorer eller dimensjoner som man hevder måler noe.  For eksempel at man svarer på noen spørsmål om personlighet og får ut et resultat som er ment å si noe om personlighetsfaktorer som er av betydning for jobb og karriere. feks resultatorientering, initiativ, samarbeidsorientert osv. I tillegg må det komme ut tolkninger av dette resultatet i form av setninger om hva dette kan bety i den virkelige verden –  jobb og karrieremessig i denne sammenheng,  for at det skal kalles en test. Tester opererer gjerne med ulike tolkninger av resultat, for eksempel med en tredeling, lav middels og høy. Det kommer ut forskjellige resultater/tolkninger avhengig av om du kommer lavt, middels eller høyt ut på faktoren/dimensjonen som måles. En tolkning av lav, middels og høy skåre på personlighetstrekket samarbeid kan for eksempel se slik ut:

Lav I jobbsituasjoner kan du foretrekke å ha arbeidsoppgaver hvor du ikke må samarbeide mye med andre, men kan løse de i stor grad selv. Ønsket ditt om samarbeid begrenser seg til der hvor du selv ser en stor nytteverdi av det og du ikke klarer deg uten å samarbeide. Du kan synes det er vanskelig å få til godt samarbeid med andre.
Middels I jobbsituasjoner vil det variere hvor mye du foretrekker å samarbeide med andre. Dersom en arbeidsoppgave løses best ved å samarbeide med andre foretrekker du det, dersom den ikke gjør det, løser du den alene. Dersom du er under tidspress foretrekker du kanskje å samarbeide eller løse den alene avhengig av hva som er lurt. Samarbeid vil også være personavhengig – om du liker de du skal samarbeide med de om du liker de mindre begrenser du mengden samarbeid
Høy I jobbsituasjoner kan du foretrekke å samarbeide med andre når du har muligheten til det. Det gir deg energi å utveksle synspunkter med andre og dele på arbeidsoppgaver. Du er god på å få samarbeidet til å flyte i en gruppe og se at man har ulike roller som utfyller hverandre.

I denne folkelige betydningen vil ethvert verktøy som består av spørsmål/oppgaver som aggregeres og hvor det kommer ut et resultat i form av faktorer/dimensjoner og testen produserer påstander/tolkninger  om  veisøker være en test, og alle kan lage tester som de hevder måler noe. Tester i denne betydningen, som ofte kalles samtaleverktøy,  er etisk problematisk å bruke fordi de forleder veiledere og veisøkere til å gi inntrykk av å kunne måle noe det ikke måler, ved at det kommer ut faktorer og det kommer setninger som brukes til å snakke med folk om de kjenner seg igjen, utslag jobb og karriere, hva man motiveres og ikke motiveres av, endringer og valg.  Om man bruker verktøy som produserer påstander og tolkninger av hva resultatet kan bety bør man stille sterke metodiske krav og det er de kravene som stilles for å kalle noe en psykometrisk test.

 

En psykometrisk test

For at noe skal kalles en test i faglig forstand må den tilfredstille viss faglige metodekrav. Tester som gjør det kan kalles psykometriske tester. American Psychological Association (APA), definerer en test slik: «Ethvert standardisert instrument, inkludert skalaer og selvrapportering, som brukes til å måle atferd eller mentale egenskaper, slik som holdninger, emosjonell funksjon, intelligens og kognitive evner (resonnering, forståelse, abstraksjon, etc.), evner, verdier, interesser og personlighet osv.»

 

Standardform

Det er ordet standardisert i APAs definisjon som avgjør om noe er en test i faglig forstand eller ikke. Med standardisert menes at den tilfredstiller ulike metodiske krav. Det første er at resultatet sammenlignes med en normgruppe. Det vil si hvordan resultatene er sammenlignet med en normgruppe. Da måler man på gruppenivå på et utvalg av en populasjon, for eksempel et representativt utvalg av den norske befolkningen, eller undergrupper av befolkningen, for eksempel ledere.  Den enkelte persons «testresultat» sammenlignes med dette normgrunnlaget og man får ut resultater i form av lav, middels og høy i forhold til hva gjennomsnittsverdien for den egenskapen er i normgruppa. Mange (alle?) av egenskapene som måles i psykometriske tester, som for eksempel evner og personlighet er normalfordelte dvs de følger gausskurven, som for eksempel høyde. Gjennomsnittshøyden for menn i Norge er 180,6 cm. De fleste er 180 + /-  en del cm. Fordelen med normalfordelte egenskaper er at du kan gjengi resultatene på standardform. Standardform er en standardisert måte å gjengi testresulttater på. Testresultatene angis i standardavik fra gjennomsnittet for normgruppen. Ved normalfordelte egenskaper er 68 prosent av normgruppen innenfor +/- ett standardavvik. Mens 95% av normgruppen er innenfor +/-  to standardavvik. Hvis gjennomsnittshøyden for menn er 180 cm, blir 1 standardavvik ca 7 cm, det betyr at 68% av befolkningen ligger mellom 173 og 187 cm i høyde. Mens 95 prosent av menn befolkningen ligger mellom 166 og 194 cm (de som er over spiller basketball)

Tester som ikke tilfredstiller denne formen for standardisering , hvor resultatene oppgis i forhold til en normgruppe kan ikke kalles en test i psykometrisk forstand. Samtidig blir dette et krav og noe du bør undersøke dersom noe selges inn som en test, dvs at det består av spørsmål eller oppgaver som fører til noen resultater i form av høy og lave skårer og at det lages påstander om hva disse kan bety ute i den virkelige verden i form av setninger som hevdes å si noe om hva man vil trives med ikke trives med, foretrekker eller ikke foretrekker,  motiveres eller ikke motiveres av osv.

Det er også andre metodiske krav i tillegg til standardform og angivelse av resultater opp mot en normgruppe for at noe skal kunne kalles en psykometrisk test. Reliabilitet er om testen er til å stole på, om den gir det samme resultatet ved gjentatte målinger. For eksempel om du kommer ut med samme resultat på utadvendthet om du tar den samme personlighetstesten flere ganger.

Validitet er et sentralt begrep for å vurdere kvaliteten i en test og avgjør testen praktiske nytteverdi. Det finnes det mange ulike typer validitet, la oss nevne et par. Innholdsvaliditet er at testen måler det den er ment å måle, for eksempel at spørsmålene i en personlighetstest som er ment å måle initiativ faktisk måler initiativ og ikke noe helt annet, for eksempel konformitet til gruppa. Prediktiv validitet: om testen klarer å forutsi adferd/prestasjoner/fenomener i den virkelige verden. For eksempel i hvilken grad en test på personlighetsfaktoren initiativrik faktisk klarer å forutsi om folk er mer eller mindre initiativrike på jobb avhengig av skåren de har. Disse to formene for validitet er svært viktig for å avgjøre en tests kvalitet ved at leverandører av tester gjerne hevder at den både måler det den skal måle og at den har prediktiv validitet.

Forskning på prediktiv validitet av ulike former for tester som brukes i rekruttering viser svært små sammenhenger mellom testresulteter og ytelse/fungering i den virkelige verden. Sammenhengene er såpass små at man kan undres over den store utbredelsen av de. (Se jobbtesthjelpen Her for en detaljert gjennomgang av tester brukt i Norge)

Leverandører av tester oppgir gjerne den prediktive validiteten som en korrelasjonskoeffisient fra 0-1. De useriøse testleverandørene oppgir ikke prediktiv validitet i det hele tatt. Ofte er det vanskelig å forstå korrelasjon og lettere å forstå prosent for folk flest. Ved å opphøye korrelasjonskoeffisienten i andre får du tallet i prosent. Da blir det tydeligere hvor små sammenhengene er. En prediktiv validitet feks på 0,4, som regnes som høyt: 0,4 x 0,4 = 0,16 – betyr prediksjon av 16% jobbytelse/jobbfungering. Mens 84% av jobbytelsen/jobbfungering forklares av helt andre ting.  Det har etablert seg en tradisjon hvor sammenhenger på 0,4 regnes som svært høyt i testverdenen, men det forklarer svært lite av jobbytelsen/fungering. En sammenligning kan være medisinske tester, dersom du hadde en test som hadde rett i 16% av tilfellene ville du neppe brukt den til å ta viktige avgjørelser, som feks å amputere et ben. Tester brukt i rekruttering lar disse være avgjørende på bakgrunn av svært lave sammenhenger, mesteparten av jobbytelsen/jobbfungering. avgjøres av andre ting enn det disse testene måler. Derfor kan man diskutere nytteverdien av de både i karriereveiledning og i rekruttering. Tabellen under inneholder resultatene av metastudier på prediktiv validitet på bruk av tester i rekruttering, tallene for personlighetstester er tatt fra Barrick &Mount (1991), resten er fra Schmidt & Hunter (1998 og 2016)

 

Type test /måling Prediktiv validitet -r Prediktiv validitet i %
Evnetester (GMA) .51 26%
Strukturert jobbintervju .51 26%
Jobbkunnskapstester .48 23%
Integritetstester .41 17%
Ustrukturert jobbintervju .38 14%
Asessment senter .37 14%
Biografiske data .35 12%
Samvittighetsfullhetstester (big five factor 3) .31 10%
Referansesjekk .26 7%
Personlighetstester .0 til .25 0-6%
Jobberfaring (år) .18 3%
Utdannelse (år) .10 1%
Interesser .10 1%
Grafologi .02 0%
Alder -.01 0%

 

Hva er holdbare tester

Om man bruker tester i rekruttering og karriereveiledning bør det være psykometriske tester og ikke tester i folkelig forstand, dvs verktøy som kommer ut med påstander og tolkninger uten at det ligger en utviklingsprosess bak som viser normgruppe og tall på reliabilitet og validitet.

Det kan være vanskelig for veiledere som ikke er svært bevandret i statistikk og metode og avgjøre kvaliteten på tester som brukes i rekruttering og Karriereveiledning. Blant annet fordi leverandører at tester gjerne ikke oppgir hvilken utviklingsprosess som ligger bak eller tall på reliabilitet og validitet på en etterprøvbar måte.

Det Norske Veritas (DNV) har en sertifiseringsordning som tilbys testleverandører i Norge. Dersom en test er Veritas godkjent er man sikret at testleverandøren kan dokumentere at det ligger et et minimum av metodisk og psykometrisk prosess bak testen. En DNV godkjenning sier allikevel ingen ting om testens innholdskvaliteteter som innholdsvaliditet dvs. om testen måler det den hevder å måle eller prediktiv validitet dvs. om den klarer å forutsi resultater på jobbytelse/jobbfungering. Dette er underkommunisert og blir problematisk i og med at mange oppfatter en DNV sertifisering som en kvalitetstempel for valg av tester.

 

Referanser:

Schmidt, F.L & Hunter, J. E. (1998)The Validity and Utility of Selection Methods in Personnel Psychology

Psychological Bulletin 124(2):262-274

Schmidt, F.L , Et. al (2016) The Validity and Utility of Selection Methods in Personnel Psychology: Practical and

Theoretical Implications of 100 Years of Research Findings Barrick, M. R., & Mount, M. K. (1991) The Big Five personality dimensions and job performance.

Personnel Psychology, 44, 1-26..