Krav på industriella förutspårare: Giltighet och tillförlitlighet

De två viktigaste kraven för varje prediktor är giltighet och tillförlitlighet. I industriinställningen finns olika typer eller typer av validitet, även om den som är mest föredragen kallas prediktiv validitet. Det finns också olika typer av tillförlitlighetsåtgärder. Bekymret med tillförlitlighet och validitet är inte begränsat till prediktorer men gäller även kriterier.

Giltighet:

Giltigheten av en prediktor kan i allmänhet definieras som i vilken utsträckning prediktorn uppnår vissa syften hos användaren genom mätning av vad som ska mätas. Den specifika typen av involverad validitet beror således på användarens särskilda syfte i vilken situation som helst.

Förutsägbar giltighet:

Syftet med användaren är att använda sitt mätinstrument för att förutsäga framtida prestanda för anställda på någon annan variabel (kriterium). Prediktiv validitet fastställs statistiskt genom korrelation och regression. Den viktiga skillnaden i prediktiv validitet är en av en tidsdement. Predictor poäng erhålls på individer vid en tidpunkt (t.ex. tid av hyra) och kriteriescores erhålls vid ett senare tillfälle (t.ex. i slutet av sex månader).

Det resulterande förhållandet representerar sålunda verkligen "instrumentets" prediktiva kraft. Prediktiv validitet är den viktigaste typen av validitet i valet eftersom det är den enda typen som verkligen duplicerar urvalssituationen. Ett annat namn som ibland används för prediktiv validitet är uppföljningsgiltighet.

Samtidig giltighet:

Syftet här, åtminstone i teorin, borde vara att uppskatta dagens prestanda hos anställda på en viss kriterieåtgärd från poängen på prediktorn. Samtidig validitet fastställs också med hjälp av korrelations- och regressionstekniker, men utan tidsfördröjning mellan erhållande av predictor- och kriteriescores. Ett urval av nuvarande anställda används för att fastställa förhållandet mellan prediktorkriterium och den resulterande regressionen kan appliceras genom att man erhåller prediktionspoäng på de återstående jobbinnehavarna.

Med andra ord är vi intresserade av att förutsäga nuvarande status för människor, inte deras status vid någon framtida tidpunkt. Det är oerhört viktigt att påpeka att hög samtidig validitet inte garanterar hög förutsägbar validitet. Tyvärr är samtidig validitet för ofta använd i industrin som ett ersättare för förutsägbar validitet.

Ledningen är ibland ovillig att vänta på den tid som förutsätts av den prediktiva metoden och kanske inte inser att nuvarande anställda kan representera en i stort sett annorlunda befolkning av arbetstagare från arbetssökande. Arbetstagare som för närvarande är anställda har överlevt screening i både anställning och kontinuitet, och de fattigare arbetstagare som anställdes kan ha lämnat antingen frivilligt eller på begäran. Det gör det väldigt svårt att motivera generalisering av samtidiga validiteter till en förutsägbar validitetssituation.

Innehållsvaliditet:

När validatorn förutsätter att hans prediktor är representativ för en given klass av situationer, är han inblandad i innehållsvaliditet. Han har en specifik uppfattning om vilken typ av kunskap, skicklighet, attityd eller prestanda som ska tappas av mätinstrumentet, och han anser att instrumentet är giltigt i den utsträckning att dess innehåll är representativt för vad han vill knacka på. Innehållsvaliditet är i allmänhet inte mätbar i någon statistisk eller kvantitativ mening.

Man finner den största användningen av innehållsvaliditet bland användare av prestationstester, till exempel slutprov på en högskolekurs. En slutprov kan endast anses ha innehållsvaliditet om den representeras på ett adekvat sätt (urvalet), vad gäller dess innehåll, innehållet i kursen. Om det inte utgjorde en täckning av kursmaterial, skulle det verkligen inte kunna anses vara ett lämpligt prov för att kunna användas för en tentamen - det skulle inte ha innehållsvaliditet.

Konstruera Giltighet:

Med denna typ av validitet vill användaren avgöra graden som de personer som utvärderas har någon egenskap eller kvalitet (konstruktion) som antas återspeglas i testprestanda. Det allmänna förfarandet innebär att man administrerar flera testinstrument som logiskt verkar mäta samma konstruktion och sedan observera relationerna mellan dessa åtgärder. Konstruktionsgiltigheten har inte använts i någon betydande grad av industripsykologen; det tenderar att användas oftare i teoretiska snarare än pragmatiska situationer.

Syntetisk giltighet:

Man kan överväga att syntetisk validitet är "antagen" prediktiv validitet. Antag att vi har ett test som i ett antal situationer har visat ett högt förutsägbart förhållande till olika prestationskriterier för industriella förmän. Antag vidare att en liten produktionsanläggning vill använda ett test vid val av förmän, men för få förmän arbetar i anläggningen för att utföra en jämn giltighetsstudie. Denna anläggning kan besluta att använda testet utan någon formell statistisk utvärdering med antagandet att det hade visat sig vara framgångsrikt i andra större anläggningar.

Denna procedur kan endast betraktas som giltig om:

(1) Arbetstagarens jobb i denna fabrik liknar förmänens jobb som är involverade i den statistiska utvärderingen av testet, och

(2) Förman sökandena på denna anläggning är typiska (kommer från samma befolkning) som sökandena för förmyndarna jobb i de större anläggningarna. Syntetisk validitet bör endast ersättas med förutsägbar validitet med full medvetenhet om eventuella begränsningar.

Ansiktsgiltighet:

En annan typ av validitet som ofta används för att beskriva ett test involverar graden som en användare är intresserad av att ha sitt test "se rätt" till provtagaren. Arbetssökande blir ofta upprörd om de förutsägelsesinstrument som de måste ta verkar ha liten eller ingen relation till det jobb som de söker. Om man till exempel väljer personer för maskinläge och ett test av aritmetisk förmåga används som en prediktor, bör testobjekten hantera siffror som tillämpas på mekaniska problem snarare än att formuleras i mer generella termer såsom köp av äpplen eller apelsiner.

Om sökanden misslyckas med att se huruvida prediktorn är relevant för det jobb som han tillämpar, så ofta som det sker på personlighetsprov, kan han få en allvarlig förlust i motivation i testläget, bli avskräckande eller, å andra sidan, känna sig osäker. Detta skadar inte bara urvalsprogrammet utan kan också skada bilden av företaget och skada bild av tester i någon industriell inställning. Författarna skulle riskera att gissa att en del av den dåliga publiciteten som användarna av urvalsapparater mottog i industrin kan bero på att användaren tittar på behovet av att hans test ska ha ansvarsgiltighet.

Åldersbegränsning och arbetslivserfarenhet och deras inverkan på giltighet:

Undersökning av arbetarnas prestation på ett visst jobb visar ofta ett bestämt förhållande mellan sådana variabler som ålder och erfarenhet och kriteriet. Ju mer komplexa jobbet är desto mer kommer dessa typer av relationer att finnas. För många jobb krävs en stor erfarenhet innan anställda blir skickliga i sitt arbete. Korrelationen mellan dessa typer av variabler och kriterier för arbetssucces presenterar ett allvarligt problem vid valet. Försiktighet är nödvändig, särskilt om man använder det samtidiga giltighetsförfarandet som ett medel för att upprätta användbarheten hos någon förutsägningsanordning.

Om det till exempel finns en hög korrelation mellan kriteriet och tidslängden på jobbet, hur ska en hög samtidig validitetskoefficient tolkas? Betecknar detta att förutsägaren verkligen återspeglar skillnadsskillnader bland arbetare som mäts av kriteriet, eller är arbetarens skillnader främst beroende på erfarenhet av jobbet? Om det är sistnämnden kommer all prediktor att åstadkomma att skilja de arbetarna med lång tid från de som nyligen anställts.

Den observerade giltigheten är generellt en överskattning av den prediktiva effektiviteten hos urvalsinstrumentet. Faktum är att om inte en tydligt kan påvisa att prediktorn inte är korrelerad med egenskaper som ålder och befattning som själva kan vara bestämma av arbetsprestanda, måste alla samtidiga validiteter som erhållits med den förutsägaren vara mycket misstänkt.

För att illustrera punkten, överväga den situation där man har ett kriterium, en prediktor och en kriterierelaterad variabel som jobbtjänsten som i stor utsträckning är ansvarig för skillnaderna i skicklighet som visas på kriteriet av anställda enligt följande:

C + D = Observerad samtidig validitet av prediktor

D = Antalet "frihetsfri" kriterievariation svarade av prediktor

C = Antalet "fastighetsbestämd" kriterievarians beräknas av prediktor

Den observerade giltigheten är i allmänhet men inte alltid en överskattning av den sanna validiteten, eftersom:

Den sanna eller opartiska samtidiga giltigheten, som representerar korrelationen mellan prediktor och kriterium, som är helt fri från inverkan av arbetstillstånd, ges av ekvationen-

Korrelationen (r sant ) som visas i diagrammet representerar faktiskt, på ett visst sätt, vad som är känt i statistiken som en "partiell" korrelationskoefficient. Det rapporterar korrelationen mellan prediktor och kriterium efter att effekterna av arbetstillfällen har tagits bort från både prediktionspoängen och kriteriesultatet av nuvarande anställda. Det är viktigt att dominerande effekter avlägsnas från både kriterium och prediktor i den samtidiga situationen.

Om dessa effekter inte är statistiskt avlägsnade från kriteriet kommer vi att sluta förutsäga inflytandet av tjänsten snarare än arbetsprestanda, med liten eller ingen relevans för prediktiv validitet. Om arbetstidseffekter inte avlägsnas från förutsägaren kan vi också få en validitetskoefficient som inte kan betraktas som relevant för någon verkligt förutsägbar validitetssituation.

Säkerligen illustrerar problemen med kriterie- och prediktorkorrelerade variabler i den samtidiga inställningen några av de allvarliga begränsningar som är inblandade i denna metod för validering. Det kan säkert sägas att det absolut inte är något som ersätter typen av validitet som kallas prediktiv validitet vid konstruktion och användning av ett urvalsinstrument.

Pålitlighet:

Generellt sett handlar validitetskonceptet om vad som mäts av en mätanordning. En andra och kanske lika viktig egenskap hos prediktorer är behovet av att veta åtgärdens konsistens, oberoende av vad som mäts. Stats på ett annat sätt måste vi fastställa graden av stabilitet hos alla mätinstrument. Mätningen som erhållits från en prediktor måste vara konsekvent. I vilken grad ett mätinstrument är konsistent eller stabilt och skulle ge samma poäng om och om igen, om det är nödvändigt, definieras det som testinstrumentets tillförlitlighet.

Liksom validitet mäts tillförlitligheten vanligtvis med hjälp av korrelationskoefficienten. Eftersom pålitlig mätning innebär stabilitet från en situation till en annan, måste ett pålitligt instrument producera antingen samma poäng eller åtminstone liknande rankningar av individer i två situationer. Genom att beräkna korrelationen erhåller vi ett matematiskt uttryck för den utsträckning som det inträffar.

Således är ett pålitligt mätinstrument ett på vilket individer får samma poäng (eller nästan samma) i upprepade mätningar. När korrelationskoefficienten används för att mäta likheten av poäng för en grupp människor på två tillämpningar av samma åtgärd kallas det en tillförlitningskoefficient.

Den faktiska processen genom vilken man kan bedöma tillförlitligheten av en åtgärd beror på många faktorer. Det finns tre stora alternativa typer av tillförlitlighet, som var och en har sina separata fördelar och nackdelar. De är tillräckligt olika i sin underliggande logik för att motivera att undersöka var och en i detalj.

De tre teknikerna för att få instrumentets tillförlitlighet är:

(1) Upprepade åtgärder på samma personer med samma test eller instrument,

(2) Mätning på samma personer med två "likvärdiga" former av mätinstrumentet, och

(3) Separering av mätanordningen i två eller flera ekvivalenta delar och interkorrelering av dessa "del" -resultat.

Innan vi överväger varje metod bör vi på ett mer specifikt sätt undersöka vissa typer av tillförlitlighet eller mätstabilitet som vi kanske skulle kunna vara intresserade av under olika omständigheter.

Låt oss anta att varje gång vi använder ett mätinstrument för att erhålla en persons poäng, är mottagen poäng en funktion av flera faktorer, enligt följande:

X i = X true + X error

Var

X i = Observerad poäng för person jag på test

X true = True poäng för person jag på test-det här är den faktiska mängden kvalitet som mäts av testet som jag verkligen äger.

X error = Fel poäng för person jag på test-det här är det belopp som personen är poäng påverkades av driften av olika chans eller tidsfaktorer.

Om alla mätinstrument och mätmetoder var "felfria" skulle vi alltid få de sanna poängerna av människor, och korrelationen mellan två mätningar på samma grupp människor skulle alltid vara + 1, 00 eller perfekt tillförlitlighet (förutsatt ingen förändring i de sanna poängen kan förväntas). Tyvärr är en sådan felfri mätning aldrig helt tillgänglig, eftersom en mängd olika saker? Bidra till prestanda vid ett visst ögonblick.

Således kan x jag antingen vara större än eller mindre än X sant för en viss mätning, och korrelationer som beräknas mellan mätningar är alltid mindre än enhet. När det gäller vår bildrepresentation av prestandavariansen bland personer på någon mätanordning, oavsett om det är test eller intervju, prediktor eller kriterium, kan denna totala varians uppdelas i de två huvudkomponenterna för sann varians och felavvikelse.

Där totalvariation = totalvariation av observerade testresultat

Sann varians = variabilitet hos människor i form av deras sanna mängder av karakteristiken som mäts

Felvariation = variabilitet av folks felresultat

Tillförlitlighet kan definieras som ett förhållande av sann varians till totalvariation, eller

Ju större andel av sann poängvariation, eller omvänt, ju mindre mängd felvariant som finns i mätprocessen desto större är mätens tillförlitlighet. Den kritiska faktorn som skiljer de tre huvudprocedurerna för att fastställa tillförlitlighet är i färd med att avgöra vad som ska anses vara felavvikande och vad som ska betraktas som sann eller systematisk varians. Det finns ingen ensam tillförlitlighet för något test. Snarare är tillförlitligheten beroende av dagens behov.

Till exempel kan psykologen fråga någon av följande frågor om mätprocessen:

1. Hur exakt kan jag mäta personer med detta test när som helst?

2. Hur noggrant kommer åtgärder som vidtas med detta test idag att vara representativa för samma personer vid någon framtida tidpunkt?

3. Hur exakt ska poängen på detta test representera dessa människors sanna förmåga på den egenskap som provas av testet?

Alla tre är legitima tillförlitlighet frågor. Varje ställer dock en något annorlunda tonvikt på olika felkällor i testresultat.

Dessa felkällor har uttryckts av Thorndike och Hagen (1963) som:

1. Variation på grund av testet vid ett visst tillfälle

2. Variation i individen från tidsperiod till tidsperiod

3. Variation på grund av det särskilda urvalet av uppgifter som valts för att representera kvaliteten som mäts

Låt oss nu fortsätta att undersöka varje tillförlitlighet, med tanke på felkällorna så att vi kan bestämma hur varje metod behandlar varje källa.

Test-retest Metod:

En uppenbar metod för att utvärdera stabilitet består i att mäta samma persons prestanda två gånger med samma mätinstrument. Denna typ av tillförlitlighet innefattar variationskällor 1 och 2 som fel. Den resulterande tillförlitligheten är sålunda en som mäter stabiliteten hos det sanna poänget över tiden. Det finns många problem med test-retest-metoden som skapas genom att de individer som mättes på samma test två gånger.

Till exempel, om inte tidsperioden är ganska lång mellan administrationerna, kommer variabeln av en minnesfaktor sannolikt att förspända svaren hos personer i den andra administrationen. En annan svårighet är att variation på grund av det särskilda urvalet av uppgifter eller objekt som valts behandlas som systematisk varians vilket ökar tillförlitligheten.

Sålunda har någon person som av en slump hände veta mer svar bara på grund av att några av testämnena rörde sig, på en hobby av den personen, skulle också vara gynnade i den andra administrationen eftersom samma saker snarare än ett nytt prov är Begagnade. Han bör därför göra högt på båda provningarna på grund av att variationskälla 3 behandlas som sann varians.

Parallell testmetod:

Ett sätt att undvika att ha felkälla 3 som sann varians är att använda två helt jämförbara eller "ekvivalenta" former av mätinstrumentet. Dessa två former ska vara lika identiska som möjligt, med undantag för att specifika saker eller frågor på varje blankett inte skulle vara desamma trots att de skulle representera ett liknande urval av objekt som valts. En form kan administreras omedelbart efter den andra eller de kan administreras med avståndsintervaller beroende på om man är inblandad i att ha variationskälla 2 inkluderad som felvariation.

Denna typ av tillförlitlighet, när avstämd provning används, representerar den mest noggranna utvärderingen av stabilitet som kan göras. Det är emellertid ofta omöjligt eller i bästa fall extremt svårt att konstruera alternativa former av ett mätinstrument.

Hur konstruerar man två alternativa men likvärdiga former av en mått på arbetsprestanda eller två alternativa former av en personlig historiaform? I många fall inte utan stor svårighet. Denna brist på en verkligt jämförbar mätanordning har orsakat psykologer att leta efter ytterligare metoder för att bedöma tillförlitlighet förutom testtest och parallellformsförfaranden.

Indelad testmetod:

Den tredje stora tillförlitningsmetoden kallas ofta som ett mått på den interna konsistensen hos en mätanordning. Det ger en indikation på hur mycket människor gör samma, i förhållande till varandra, på olika underavdelningar av det övergripande instrumentet. Denna metod är förmodligen den mest använda metoden för mätning av tillförlitlighet eftersom det kräver att endast en form konstrueras och ändå inte kräver upprepade administreringar av den formen.

Dess mekanik är mycket enkel. I sin mest grundläggande form är den interna konsistensmetoden parallellformsförfarandet där parallella former är två halvor av samma test. Dessa halvtester väljs så att de är lika likvärdiga som möjligt, men ofta är testet helt enkelt uppdelat i två halvor genom att sätta alla udda nummer i en halv och alla jämntalade artiklar i den andra halvan. Detta kallas den udda-jämn versionen av split-half tekniken.

Det är viktigt att komma ihåg att separationen av det totala testet i ekvivalenta halvor sker endast när man poängerar det testet - inte när man administrerar det. Eftersom de två delprovningarna är vardera bara hälften så lång som originalet, representerar de bara ett exempel på beteende bara hälften så stor som det totala testet. Sålunda är korrelationen (tillförlitlighet) mellan halvor sannolikt en underskattning av pålitligheten av poäng baserat på hela testet.

För att uppskatta huruvida det fullständiga testets tillförlitlighet är, kan Spearman-Brown Prophecy-formeln appliceras på följande sätt:

r tt = 2r ½½ / 1 + r ½½

var r tt = tillförlitlighet av det totala testet (uppskattat)

r 1/2 1/2 = observerad korrelation mellan testets två halvor.

Om exempelvis den observerade korrelationen mellan halvorna var 0, 40, skulle profetikformeln uppskatta det fullständiga testets tillförlitlighet som:

rtt = 2 (0, 40) / l + 0. 40 = 0, 80 / 1, 40 = 0, 57

Halvmetoden tillhandahåller sålunda en metod för att uppskatta pålitlighet med ett enda test och en enda administrering. Det finns emellertid vissa nackdelar med dess användning. När man har ett test som i första hand involverar hastighetsfaktorer (som vissa enkla skrivprov), ger alternativa halvproceduren ett högt resultat.

Eftersom hastighetsprov brukar innebära enkla saker är det bara en fråga om huruvida de svarades på det som avgör om de var korrekta eller felaktiga. Sålunda skulle splittring av testet på ojämnt jämnt sätt resultera i praktiskt taget identiska poäng för båda halvorna, alltså en hög positiv korrelation.

Kuder-Richardson Metod:

En annan version av split-half-metoden används ofta för mätning av tillförlitlighet. Förknippad med en statistisk teknik som kallas variansanalys, är dess vanligaste form känd som Kuder-Richardson-proceduren. Kuder-Richardson (KR) -metoden är också en intern konsistenssäkerhet som i huvudsak behandlar varje testobjekt som en subtest, så att i stället för att ha två halvor finns n delprov, där n är det totala antalet objekt på mätinstrumentet. KR-tekniken motsvarar beräkningen av alla möjliga korrelationer mellan par av testämnen (det kommer att vara n [n - 1] / 2 sådana par), med medelvärdet av dessa och justering av resultatet med hjälp av Spearman-Brown-profetikformeln

Var

r tt = uppskattad tillförlitlighet av totalt test

r ii = genomsnittlig korrelation mellan objekt

K = antal par av föremål

I likhet med proceduren för delad halvering ignorerar Kuder-Richardson-förfarandet variationskälla 2 och är inte lämpligt för hastighetsprov.

En sammanfattande jämförelse ges i tabell 2.4. Tabellen visar de olika driftsäkerhetsmetoderna och jämför dem med avseende på vilka variationer de innehåller som felvariation.