Rater Egenskaper: Rater Tillförlitlighet och förutsägbarhet av betyg

Hittills har vi ignorerat själva räknarna själva och deras betydelse för prestationsbedömningsprocessen. Även om det har blivit angivet att ratatörer utsätts för många typer av "fel" vid bedömning och att betygsskalor ska utformas för att minimera dessa fel, har de enskilda raters egenskaper inte undersökts vad gäller deras inverkan på ratingprocessen.

Rater Tillförlitlighet och förutsägbarhet av betyg:

Problemet med rater-egenskaper har fått stor uppmärksamhet de senaste åren. Buckner (1959) har undersökt förhållandet mellan hur väl ratenterna överensstämmer och graden av vilken man kan förutsäga betyg med någon annan variabel. På ett annat sätt ställde Buckner frågan "Gör mycket pålitliga betyg, innebär att jag har ett kriterium som blir enklare att förutsäga?" Svaret visade sig vara nej. Buckner delade sina betyg i fyra grupper, beroende på hur väl domarna var överens om att tilldela sina betyg.

Grupp 1: Domare var överens om dessa skattesatser

Grupp 2: Domare var i moderat överens om dessa skattesatser

Grupp 3: Domare låg överens om dessa skattesatser

Grupp 4: Domare var i noll överens om dessa skattesatser

Han fortsatte sedan med att validera två tester genom att korrelera testresultat mot rating-detta gjordes för varje grupp separat. Han fann ingen systematisk relation mellan storleken på hans erhållna validiteter som en funktion av den grupp som han arbetade med. Windle och Dingman (1960) kritiserade Buckners tolkning och gjorde en andra studie där de fann resultaten i tabell 7.4.

Observera de relativa storheterna av de validitetskoefficienter som visas i tabell 7.4. Ju mer pålitliga de räknar desto högre giltigheter. På samma sätt desto mer tillförlitliga betyg, desto högre validiteter.

Därför kan man logiskt förvänta sig resultat mer som Windle och Dingman än Buckners. Men man måste också komma ihåg att hög tillförlitlighet bara är ett nödvändigt villkor för hög validitet, det är inte ett tillräckligt villkor.

Wiley har i en serie studier undersökt konsistensen av rater domar över tiden med avseende på hur väl de överens med tidigare domar av samma rater (Wiley 1963, Wiley och Jenkins, 1963) och hur väl de håller med en gruppkomposit betyg (Wiley och Jenkins, 1964). I allmänhet befanns räknarna vara konsekventa i sina betyg upp till en tidsperiod av tio månader.

Dessutom fann han att de röstare som gick mycket nära med gruppsammansättningen i en första betygsuppgift också var de röstare som kom överens med gruppen komposit på en annan betygsuppgift en månad senare. Han föreslår att denna kunskap kan användas för att välja röstare som verkligen representerar den genomsnittliga konsensusen hos en större grupp ratare.

Tyvärr är problemet med huruvida inte de som ratificerar vem som är överens med gruppkompositen de bästa ratarna att söka inte själva bestämt. Det finns emellertid logik till positionen att om det är möjligt att få en sammansatt klassificering med ett litet antal räknemaskiner som kommer att approximera kompositen erhållen med ett större antal kan man säkert spara tid och pengar.

Många andra rater egenskaper har visat sig spela en roll i prestationsbedömningar som erhållits genom betyg. Christal och Madden (1960) har visat att ett viktigt överväganden är graden av vilken en rater är bekant med den yrke han är betyg, en upptäckt som stöds av ytterligare studier av Madden (1960a 1961). På samma sätt har Wiley, Harber och Giorgia (1959a, 1959b) visat att påverkan av generaliserade rater-tendenser är märkbara i sin effekt vid betyg.

Betygsskalaformat och Prestationsbedömning Dom:

Madden har rapporterat ett antal studier som behandlar inverkan av betygsskalan själv. I en studie (Madden, 1960b) fann han att betygsäkerhet och lätthet av betyg inte påverkades av användningen eller bristen på användning av exempel vid definitionen av betygsskalan, men att om skalaen definierades i motsats till att inte definieras gjorde- Påverka pålitligheten och användarvänligheten.

I en senare studie studerade Madden och Bourdon (1964) effekten av sju olika betygskalformat på betyg av 15 olika yrken på 9 olika arbetsfaktorer. Resultaten, även om det var något komplicerat i naturen, tydligt visade att betyget som tilldelades ett yrke var beroende av både den involverade arbetsfaktorn och det särskilda betygsskalaformatet som användes.