Ministeriet for Videnskab, Teknologi og Udviklings logo. Klik for at komme til forsiden af vtu.dk.

6 STATISTISK MODEL TIL FORKLARING AF FRAFALD PÅ PH.D.-STUDIET

I dette afsnit opstilles en statistisk model, der søger at forklare, hvilke faktorer der har betydning for sandsynligheden for at gennemføre eller afbryde uddannelsen.

Første opsummeres resultaterne af den statistiske model. Dernæst beskrves den statistiske model. Endelig eksemplificeres modellen.

6.1 Opsummering af resultaterne

Følgende forhold gør sig gældende i relation til sandsynligheden for, at ph.d. studerende enten gennemfører eller afbryder deres ph.d. uddannelse.:

6.2 Binær logistisk regression og faktoranalyse

For at undersøge hvad der kan have indflydelse på sandsynligheden for, om ph.d. studerende gennemfører eller afbryder uddannelsen, opstilles en binær logistisk regressionsmodel. Kort fortalt udføres en regressionsanalyse, når man vil teste, om og hvor meget forskellige variable har indflydelse på et udfald eller en tendens.

En lineær regressionsmodel antager en lineær sammenhæng mellem den variabel, man forsøger at forklare, og de variable, man bruger som input. Konkret anvendes her en version af regressionsmodellen, der hedder ”bi nær logistisk regression”. Denne model tager højde for, at den afhængige variabel er dikotom (fuldført/frafald), og afhængigheden mellem denne og de forklarende variable behøver ikke nødvendigvis at være lineær2;.

Som input til modellen bruges en række variable, der repræsenterer de spørgsmål fra spørgeskemaet, som kan have indflydelse på sandsynlighe den for at gennemføre eller afbryde ph.d. uddannelsen3. Disse er:

2 Følgende antagelser skal være opfyldt:
1. Den afhængige variabel skal være approksimativt eksponentialfordelt.
2. Modellens fejlled skal være uafhængige, men ikke nødvendigvis normalfordelte.
3. Lineær sammenhæng mellem forklarende variable og logit til den afhængige.
4. Uafhængighed mellem forklarende variable.
5. Ingen outliers
6. Inklusion af alle relevante variable
7. Eksklusion af alle irrelevante variable

3 Spørgsmålet: ”Var du fuldtids  eller deltidsstuderende i den periode, hvor du var ph.d. studieaktiv?” er ikke inkluderet i den statistiske model på grund af manglende variation.  Re spondenternes overordnede studieretning er heller ikke taget med, da vi søger at finde årsags sammenhænge på tværs af studieretninger. Der er med stor sandsynlighed forskellige årsager til, at ph.d. studerende på de forskellige studieretninger falder fra. I så fald vil inklusion af denne variabel resultere i, at den forklarede variation fra de andre variable trækkes ud af modellen. Det optimale er en model for hver studieretning. Det er der ikke datagrundlag for her, og det er i princippet heller ikke denne effekt der ønskes undersøgt.

Udover disse variable inddrages otte statistisk identificerede indikatorer for ph.d.ernes vurdering af forskellige parametre, der kan have en indflydelse på sandsynligheden for at gennemføre eller afbryde ph.d. studiet. Dannelsen af disse indikatorer beskrives nærmere i afsnit 6.3.

Rent matematisk ser den model, som skal estimeres, således ud4:

Rent matematisk ser den model, som skal estimeres, således ud

4 Hvor α og βi er de parameterværdier, der skal estimeres. e er residualen, som skal have en middelværdi på 0 og en meget lav varians for at modellen kan konkluderes at forklare variationen i den afhængige variabel på fyldestgørende vis.

6.3 Indikatorvariable for uddannelsesvalg

Et bærende formål med denne analyse er som nævnt at undersøge, hvilke faktorer der har indflydelse på sandsynligheden for at gennemføre eller af bryde ph.d. studiet.

Der arbejdes med adskillige spørgsmål som operationalisering af ph.d.ernes egen vurdering af forskellige parametres vigtighed. Det viser sig, at der er væsentlige systematiske sammenhænge mellem flere af spørgsmålene. Fx er der stor sandsynlighed for, at en person, der har svaret ”Meget enig” på spørgsmålet ”Der  er stort skrive  og puliceringspres” også har svaret ”Meget enig” eller tæt derpå på spørgsmålet ”Der er for meget fokus på at publicere”. Disse sammenhænge eksisterer på kryds og tværs af spørgsmålene og gør det oplagt at anvende en faktoranalyse: De variable (spørgsmål) der ”hænger sammen” kan ofte koges ned – dvs. omdannes – til en enkelt faktor. Denne faktor indeholder information og forklaringskraft fra de variable, der indgår. Som eksempel kan en faktor dannet på baggrund af tre variable  afbildes som vist i Figur 10.

Figur 10. Faktordannelse – generelt eksempel

Figur 10. Faktordannelse – generelt eksempel

De tre variable, som eksisterede i udgangspunktet, reduceres til en enkelt variabel (faktor), hvilket letter det videre analysearbejde og resultatfortolkningen betydeligt. Faktoranalyse er en effektiv metode til at skabe overblik over et omfattende datamateriale med mange variable. Metoden anvendes til at identificere de underliggende dimensioner (faktorer), som variablene har tilfælles. Med andre ord kan man forestille sig, at det samlede mønster i besvarelserne af spørgeskemaet er sammensat af et antal latente dimensioner, der er væsentligt mindre end antallet af de faktisk involverede spørgsmål (variable). På den måde reduceres kompleksiteten i den samlede datamængde.

Faktorerne er ikke direkte observerbare men kan aflæses indirekte. Resultatet af faktoranalysen er et antal faktorer, der hver især indeholder information fra et større antal variable. En ”god” faktoranalyse vil resultere i, at faktorerne kan tildeles navne, der på dækkende vis beskriver den mængde af variable, de indeholder. Faktorerne behandles som kontinuerte variable, hvilket er en stor fordel i den efterfølgende implementering af regressions modellen.

Konkret er der dannet otte faktorer på baggrund af spørgsmålene til ph.d.ernes vurdering af forskellige parametre, der vedrører ph.d. uddannelsen (spørgebatteri 8, 9, 15 og 19). De 30 spørgsmål5 kan reduceres til otte faktorer – altså en væsentlig reduktion i datakompleksiteten.

5 De tre spørgebatterier indeholder i realiteten 32 spørgsmål. Udsagnene ”Jeg blev opfordret til det af min specialevejleder/andre undervisere” og ”En god vejledning er vigtig for om man fuldfører ph.d. uddannelsen” samvarierede ikke nok med de andre udsagn og bliver derfor brugt som individuelle variable i den binære logistiske regressionsmodel.

Tabel 23. Faktorer

  Faktor-navn Similariteter i vurderingen af vigtigheden af
F1 Sparring · Jeg manglede sparring i forhold til mit projekt ( )
· Kvaliteten af den vejledning, jeg modtog, var god (+)
· Omfanget af den vejledning, jeg fik, var tilstrækkeligt (+)
· Vejledningen på ph.d. uddannelsen er svag og/eller util
strækkelig ( )
· Der er faglige mangler ved det miljø man indgår i ( )
· Jeg indgik i et fælles fagligt forskningsmiljø på min ind
skrivningsinstitution (+)
· Der var overensstemmelse mellem mine forventninger til
og erfaringer fra ph.d. studiet (+)
· Tilværelsen som ph.d. studerende er for ensom og isoleret
( )
F2 Arbejds byrde · Der er stort skrive og publiceringspres ( )
· Der er for meget fokus på at publicere ( )
· Der er lange arbejdsdage og skæve arbejdstider på ph.d.
uddannelsen ( )
· Der er stor konkurrence og karrierepres ( )
· Der er stor arbejdsbyrde med undervisnings
/formidlingsopgaver ( )
F3 Miljø og kultur · Ph.d. uddannelsen har en god struktur (+)
· Der er en god kultur på ph.d. uddannelsen (+)
· Ph.d. uddannelsen er en god blanding af studie og be
skæftigelse (+)
· Der er et godt forskningsmiljø på ph.d. uddannelsen (+)
F4 Forskning under for løbet · Jeg var interesseret i forskning (+)
· Jeg ønskede at kvalificere mig til forskningsopgaver/en
forskerkarriere (+)
· Der er for meget fokus på forskning i ph.d. forløbet i for
hold til min egen begrundelse for at tage uddannelsen ( )
· Jeg ønskede at fordybe mig i et specifikt område (+)
F5 Forskning efter forlø bet · Der er dårlige karrieremuligheder inden for forskning ( )
· Der er begrænsede udsigter til senere at opnå fastansæt
telse inden for forskning ( )
F6 Forbere delse · Jeg talte med min vejleder om mine forventninger til
ph.d. uddannelsen, inden jeg startede (+)
· Jeg koordinerede projektet med min vejleder inden start
(+)
· Der er tilstrækkelig information om ph.d. uddannelsen in
den man starter (+)
F7 Økonomi · Finansieringen er tilstrækkelig (+)
· Der er lavt lønniveau inden for forskning ( )
F8 Forbedring
af jobmulighder
· Jeg kunne ikke få et tilfredsstillende arbejde med min kandidatuddannelse6
 
· Jeg ønskede at forbedre mine jobmuligheder på arbejds
markedet uden for universitetssektoren (+)

Note: Efter hvert udsagn er angivet om det er positivt formuleret (+) eller negativt formuleret ( ). Der er anvendt Principal Faktor Analyse  med Varimax rotation. De otte faktorer dækker 60 % af variansen i de 30 spørgsmål, der indgår. Alle faktorer er signifikante på 95 % niveau.

Det forhold, at der kan dannes otte faktorer på baggrund af i alt 30 variable, fastslår, at der eksisterer tydelige mønstre i besvarelserne af spørgeskemaet. Den enkelte respondent har stor sandsynlighed for at svare nogenlunde ens indenfor hver af de otte ”spørgsmålsklynger”, som faktorerne hver især danner.

Faktordannelsen i sig selv siger dog intet om betydningen/effekten af de enkelte faktorer i forhold til beslutningen om at fuldføre/falde fra ph.d. uddannelsen. Det videre formål med analysen er derfor at teste, om faktorerne hver især har selvstændig betydning for den studerendes valg – og i givet fald hvor stor denne effekt er. Derfor bruges de otte faktorer, som tidligere beskrevet, som forklarende variable i den binære logistiske regressionsmodel.

6 Her giver det ikke mening at vurdere, om det er et positivt eller negativt formuleret udsagn.

6.4 Resultater af den statistiske analyse

Først vises i afsnit 6.4.1 parameterestimater og signifikansniveau for de statistisk signifikante variable i den binære logistiske regressionsanalyse. Efterfølgende i afsnit 6.4.2 kommenteres og fortolkes resultaterne.

6.4.1 Parameterestimater og signifikanstest

Målet er at estimere en model, der beskriver effekten af både baggrundsvariablene og ph.d.ernes vurdering af udvalgte parametre, der kan have spil let en rolle før, under og efter ph.d. uddannelsen. Disse parametre konstitueres af de otte føromtalte faktorer, de to spørgsmål der blev udelukket af faktoranalysen, fordi deres variation i høj grad var uafhængig af de andre spørgsmål (opfordret og god vejledning vigtig) samt variablen midler.

Det viser sig, at der for en række variable ikke kan identificeres nogen selv stændig effekt, der er statistisk signifikant: alder, udland, midler, opfordret, arbejdsbyrde, forberedelse og økonomi. Disse variable har ingen selvstændig indflydelse på sandsynligheden for at gennemføre eller afbryde studiet.

Tabel 24 neden for opsummerer detailresultaterne af den binære logistiske regression i form af parameterestimater, signifikansniveau og odds ratio (exp(β))7.

Parameterestimaterne er logit af de forklarende variable, som estimerer log odds (logaritmen til sandsynligheden) for, at den afhængige variabel er lig 1 (fuldført ph.d. uddannelse). Hvis logit for en given forklarende variabel er β1, betyder det, at en ændring på 1 i den forklarende variabel resulterer i en ændring af størrelsen β1 i logaritmen til sandsynligheden for, at den af hængige variabel er lig 1. Logits kan variere mellem plus/minus uendelig, og en værdi på 0 betyder, at den givne forklarende variabel ikke har nogen betydning for udfaldet af den afhængige variabel. Brugen af logits kan være kompliceret og ikke særlig intuitivt forståeligt i en fortolkning at modelresultaterne. Derfor bruges ofte odds ratio i stedet.

Odds ratio fås ved at tage eksponentialfunktionen til logit. På den måde fremkommer de ”rene” sandsynligheder for en ændring i den afhængige variabel, når en given forklarende variabel ændrer sig. Bemærk at det her er værdien 1, der er pejlepunkt for om den forklarende variabel har en indflydelse på den afhængige variabel. En værdi på fx 2 betyder at når den forklarende variabel stiger med 1, stiger sandsynligheden for at den afhængige variabel er 1 med det dobbelte (eller sandsynligheden for at den er 0 halveres) i forhold til udgangspunktet. På samme måde betyder en værdi på 0,25, at når den forklarende variabel stiger med en, falder sandsynligheden for, at den afhængige variabel er 1, til det kvarte, af hvad den var (eller sandsynligheden for at den er 0 stiger med 4 gange (400 %).

7 Test af antagelserne på første side i afsnittet er foretaget og i sammenhæng med modellens flotte forklaringsgrad og signifikans af parameterestimaterne, er de efterfølgende konklusioner yderst holdbare.

Tabel 24. Binær logistisk regression

  β Signifikans exp(β)
Antal år mellem kandidat grad og ph.d. start 0,12 0,00 1,12
Køn (kvinde er referencekategori)  0,39 0,05 0,68
Studieplan 0,59 0,00 1,79
Vurdering  0,52 0,02 0,60
Anden institution 0,69 0,00 2,00
God vejledning vigtigt  0,98 0,00 0,38
Sparring 1,13 0,00 3,10
Miljø og kultur 0,60 0,00 1,82
Forskning under forløbet 0,43 0,00 1,54
Forskningsmuligheder efter forløbet  0,35 0,00 0,70
Forbedring af jobmuligheder 0,36 0,00 1,43

Modellens samlede forklaringsgrad (Nagelkerkes R²) er med 56 % meget høj. Det betyder (tilnærmelsesvis), at modellen med de valgte forklarende variable beskriver 56 % af variationen i den afhængige variabel (fra fald/gennemført). Det viser sig yderligere, at den anvendte model er yderst passende/velvalgt. En Hosmer & Lemeshow test for manglende fit/forkert modelspecifikation giver en ?² værdi på 10,585 som med (pr>?²)= 0,226 afviser hypotesen om forkert modelspecifikation. En ekstra garant for, at modellen opfører sig pænt, er, at den estimerer hele 79,4 % af de observe rede afhængige variable korrekt8.

Inden den nærmere fortolkning af resultaterne skal det nævnes, at parameterestimaterne er vendt, således at de svarer til effekten i forbindelse med en positiv udvikling indenfor det enkelte spørgsmål/faktor9. Nogle spørgsmål er stillet med en negativ ordlyd, mens andre er stillet med en positiv ordlyd. Fx ”Hvor enig eller uenig er du i følgende generelle udsagn omkring ph.d. uddannelsen”: Der er faglige mangler ved det miljø man indgår i kontra ph.d. uddannelsen har en god struktur. Skaleringen på alle spørgsmål er med andre ord blevet ensrettet.

8 Det skal dog nævnes at residualerne i denne model ikke følger en normalfordeling til fulde. Med en skævhed på 1,5 er fordelingen en anelse mere venstretung end normalfordelingen og med en kurtosis på 6,3 har fordelingen væsentligt tykkere haler end normalfordelingen. Dette er dog ikke et problem, når man har med logistisk regression at gøre, da normalfordelte residualer ikke udgør en af antagelserne, se fodnote 2.

9 Dette gælder ikke variablen køn som er kategorisk. Som referencepunkt er brugt kvinde. Parameterestimatet angiver altså effekten af at være mand i forhold til at være kvinde.

6.4.2 Nærmere fortolkning af estimaterne

Estimaterne i kolonne 3 (Tabel 24)  angiver ændringen i sandsynligheden for, at den studerende falder i kategorien ”gennemført” i forhold til ”fra fald”, når den givne forklarende variabel stiger med en – givet at de øvrige variable holdes konstant. Kolonne 2 angiver signifikansen, og som det ses, er alle parameterestimater signifikante på minimum 95 % niveau.

Et eksempel: Jo længere tid der går, fra man har afsluttet sin kandidatud dannelse til man påbegynder sin ph.d., des større er sandsynligheden for, at man gennemfører. For hvert år der går, stiger sandsynligheden med 1,12 i forhold til, hvis man var begyndt året før. For hvert år man venter, er der med andre ord 12 % større chance for at fuldføre i forhold til at falde fra i forhold til året før.

På nogenlunde samme måde aflæses effekten af køn. Sandsynligheden for at fuldføre som mand er 0,68 mindre end den er for kvinder. Sagt på en anden måde: Kvinder har 1,47 gange større sandsynlighed for at fuldføre end mænd i forhold til at falde fra (47 %).

Variablen studieplan dækker som tidligere nævnt over, om der inden for de første 6 9 måneder blev fastsat en individuel studieplan. Hvis dette er til fældet, er sandsynligheden for at fuldføre 1,8 gange større i forhold til at falde fra, end hvis der ikke var fastsat studieplan. Sandsynligheden er med andre ord næsten dobbelt så stor for at fuldføre, hvis man har fået lagt en individuel studieplan.

Samme billede tegner sig for variablen anden institution. Hvis den ph.d. studerende har haft et ophold af minimum tre måneders varighed ved en anden dansk forskningsinstitution, er sandsynligheden for at gennemføre i forhold til at falde fra præcis dobbelt så stor (exp(β)= 2).

Det omvendte gør sig gældende, hvis der hvert halve år er blevet gennem ført en vurdering af, om ph.d. uddannelsen forløb tilfredsstillende. I disse tilfælde er sandsynligheden for at fuldføre 60 % dårligere end for at falde fra. Sagt omvendt: Risikoen for at falde fra er 1,7 gange så stor som for at fuldføre.

På spørgsmålet om hvor vigtigt man synes god vejledning er for fuldførelse af ph.d. uddannelsen, er hovedparten af både de frafaldne og de, der har fuldført, enige om, at det er vigtigt. Alligevel er der forholdsmæssigt mange flere af de, der har fuldført uddannelsen, der er uenige eller meget uenige i, at god vejledning er vigtigt for fuldførelse. Ser man bort fra svarmuligheden ”hverken eller”, er der 9 gange så mange af de, der har gennemført, der er uenige eller meget uenige i udsagnet. Derfor ses i modellen en stærk tendens til at jo mere uenig i udsagnet man er, des bedre er oddsene for at fuldføre – hele 2,63 gange så gode som for at falde fra. Dette skal ikke tolkes som, at jo mindre vægt man lægger på god vejledning, des større er sandsynligheden for at fuldføre. Det er måske nærmere et udtryk for, at de, der er faldet fra, har haft større forventninger til vejledningen end det, de reelt mener at have modtaget. Det kan være en form for efterrationalisering, der kommer til udtryk i denne variabel – de frafaldne søger en årsag til, at de er faldet fra. Dog er det også en mulighed, at de gennemførte ph.d.eres svarfordeling er præget af efterrationalisering, da de, modsat de frafaldne ph.d. studerende, har klaret sig med den vejledning, de fik.

De sidste fem variable i modellen er de faktorer, der er dannet på grundlag af ph.d.ernes vurdering af forskellige forhold, der kan have haft en effekt på deres forløb. Det viser sig, at fire ud af fem faktorer har en positiv indflydelse på den ph.d. studerendes gennemførsel/frafald. Da faktorerne per definition har middelværdi nul og varians på en, kan man sammenligne ”vigtigheden” af de individuelle faktorer på den afhængige variabel fra fald/fuldført. Man kan dog ikke sige noget fornuftigt om det absolutte niveau inden for de enkelte delspørgsmål, da faktorerne er dannet af spørgsmål med forskellig skalering. Det er kun muligt at skelne mellem positiv/negativ besvarelse af spørgsmålene samlet set.

Det viser sig, at faktoren sparring er relativt mest vigtig (set i forhold til de andre fire faktorer) for sandsynligheden for at gennemføre eller falde fra. Hvis man samlet set har en positiv vurdering af de udsagn, der udgør faktoren (se evt. Tabel 23), har man hele 3,1 gange større sandsynlighed for at gennemføre ph.d. uddannelsen, end hvis man har en negativ vurdering. Eksempelvis har de, der er uenige i udsagnet ”Jeg manglede sparring i forhold til mit projekt”, enige i udsagnet ”Kvaliteten af den vejledning jeg modtog, var  god” og enige i udsagnet ”Jeg indgik i et fælles fagligt forskningsmiljø på min indskrivningsinstitution”, ikke overraskende, større sand synlighed for at fuldføre ph.d. uddannelsen, end de der svarede modsat på samme spørgsmål.

Næst vigtigst er faktoren miljø og kultur som, hvis man har positiv vurdering af den, resulterer i 1,8 gange større sandsynlighed for at fuldføre ph.d. uddannelsen i forhold til de, der har en negativ vurdering.

Samme fortolkning har parameterestimatet for faktoren forskning under forløbet. Hvis man er interesseret i forskning, ønskede at kvalificere sig til en forskerkarriere, ikke synes der er for meget fokus på forskning i ph.d. forløbet, og man ønskede at fordybe sig i et specifikt område, har man 54 % større chance for at gennemføre end hvis man er af den modsatte opfattelse.

Faktoren forskningsmuligheder efter forløbet har en negativ effekt på fuld førelsen af ph.d. uddannelsen. Der er bred enighed på tværs af begge grupper om, at karrieremulighederne inden for forskning er dårlige, at der er begrænsede udsigter til at opnå fastansættelse inden for forskning, og at lønniveauet inden for forskning er lavt. Hvis man mener, at der er gode forskningsmuligheder, er der 43 % større sandsynlighed for at falde fra. Denne konklusion skal dog tages med væsentlige forbehold. Der er færre af de frafaldne der aktivt har taget stilling til disse udsagn (de har i stedet svaret ”hverken eller”), og ekskluderer man disse besvarelser er resultatet, at andelen af uenige eller meget uenige er en del større hos de frafaldne end hos de, der har fuldført. Der er med andre ord en tendens til at de frafaldne ikke er nær så kritiske overfor forskningsmulighederne efter forløbet. Den udslagsgivende grund til frafaldet skal derfor nok findes andetsteds.

Den sidste faktor i modellen, Forbedring af jobmuligheder, har en positiv effekt på den ph.d. studerendes sandsynlighed for at fuldføre eller falde fra. Hvis man ikke mener at kunne få et tilfredsstillende arbejde med sin kandidatuddannelse og ønskede at forbedre sine jobmuligheder, har man 43 % større sandsynlighed for at fuldføre end de, der er af den modsatte overbevisning. Denne faktors betydning er af samme størrelse som den foregåen de – dog med modsatrettede fortegn.

I sammenfatning er den indbyrdes rangordning af faktorernes effekt på de ph.d. studerendes sandsynlighed for at fuldføre/falde fra således:

1. Sparring

2. Miljø og kultur

3. Forskning under forløbet

4. Forskningsmuligheder efter forløbet/ Forbedring af jobmuligheder

Denne side er kapitel x af 7 til publikationen "Undersøgelse af årsager til frafald blandt ph.d.-studerende, efterår 2007".
Version nr. 1.0 af 13-08-2008
 

© Universitets- og Bygningsstyrelsen
Ministeriet for Videnskab, Teknologi og Udvikling 2008. Teksten må med kildeangivelse frit anvendes.