4 väsentliga kriterier för ett bra test

Denna artikel lyfter fram de fyra väsentliga kriterierna för ett bra test. Kriterierna är: - 1. Tillförlitlighet 2. Giltighet 3. Objektivitet 4. Användbarhet.

Kriterium # 1. Tillförlitlighet:

Ordboken som betyder tillförlitlighet är konsistens, beroende eller förtroende. Ett mätförfarande är tillförlitligt i den utsträckning som upprepad mätning ger konsekventa resultat för individen.

Ett test anses vara pålitligt om det ger konsekventa resultat i dess successiva administrering. Så genom pålitlighet av ett test menar vi hur pålitligt eller troget testet är. För att uttrycka på ett allmänt sätt, om ett mätinstrument mäter konsekvent, är det pålitligt.

När ett test är tillförlitligt, kommer värderingar som gjorts av medlemmarna i en grupp vid retest med samma test eller med alternativa former av samma test att skilja sig väldigt lite eller inte alls från sina ursprungliga värden.

Exempel 1:

Om ett vittne ger samma påstående om en fråga när den ställs om och om igen av en advokat i domstol ställer vi förtroende för sitt uttalande och tar sitt påstående till att vara tillförlitligt.

Exempel 2:

Om en klocka förblir 10 minuter sent varje dag jämfört med Hindustans tid då kan vi säga att klockan är ett pålitligt instrument.

Exempel 3:

Antag att vi ber Amit att anmäla sitt födelsedatum. Han rapporterar det till den 13 juli 1985. Efter ett förfallomål frågade vi samma fråga och han rapporterade samma den 13 juli 1985.

Vi kan ställa frågan om och om igen och om svaret är detsamma anser vi att Amits uttalande är tillförlitlig.

Definitioner:

1. Thorndike:

Det är konsistensen av ett test som det mäter vad som ska mätas. Testtillförlitlighet bedöms vanligen som graden till vilken testet är fritt från kompenseringsfel.

2. Gronlund och Linn:

Tillförlitlighet hänvisar till mätens konsekvens - det vill säga hur konsekventa testresultat eller andra utvärderingsresultat är från en mätning till en annan.

3. Anastasi:

Tillförlitlighet hänvisar till konsistensen av poäng som erhållits av samma individer när de undersöktes med samma test vid olika tillfällen eller med olika uppsättningar av likvärdiga objekt eller under varierande undersökningsförhållanden.

4. Davis:

Graden av relativa precisioner av mätning av en uppsättning testpoäng definieras som tillförlitlighet.

5. Guilford:

Tillförlitlighet är andelen av den verkliga variansen i erhållna testresultat.

Av ovanstående diskussion blev det tydligt att ett tests tillförlitlighet betyder hur mycket testet ger samma resultat vid successiv administrering på samma population. Andra förhållanden kvarstår konstant, om samma test administreras på samma population vid två olika tillfällen och de poäng som erhållits av individerna vid båda tillfällena förblir mer eller mindre desamma, testet sägs vara tillförlitligt.

Tillförlitligheten av ett test försöker svara på följande frågor:

(i) Hur är det lika med elevernas poäng, om de ges samma prov vid två olika tillfällen?

(ii) Hur skulle poängen variera om ett annat urval av likvärdiga objekt valts?

(iii) Hur varierar poängen om testet görs av en annan poänggivare?

(iv) Hur varierar poängen om testet görs av samma målare vid olika tidpunkter?

Kännetecken för tillförlitlighet:

Tillförlitlighet har följande egenskaper:

(i) En beräkning av tillförlitlighet avser alltid en viss typ av konsistens.

(ii) Det hänvisar till mätinstrumentets noggrannhet eller precision.

(iii) Tillförlitlighet hänför sig till testresultaten inte själva testet.

(iv) Det är koefficienten för intern konsistens.

(v) Tillförlitligheten av en uppsättning mätning är logiskt som andelen av variansen som är sann varians.

(vi) Det är måttet på variabelt fel eller riskfel eller mätfel.

(vii) Tillförlitlighet är en fråga om grad. Det finns inte i alla eller icke-baserade.

(viii) Tillförlitligheten garanterar inte att ett test är giltigt eller sant.

(ix) Tillförlitlighet är ett nödvändigt men inte ett tillräckligt villkor för validitet. Låg pålitlighet kan begränsa graden av giltighet som erhållits, men hög tillförlitlighet ger ingen garanti för en tillfredsställande grad av giltighet.

(x) Tillförlitligheten är i första hand statistisk natur i den meningen att de poäng som erhållits vid två på varandra följande tillfällen är korrelerade med varandra. Denna korrelationskoefficient kallas självkorrelation och dess värde kallas "pålitlighetskoefficienten".

Tillförlitlighet och fel i mätningen:

Definitionerna av tillförlitlighet kan grupperas under tre rubriker:

(i) Empirisk,

(ii) Logisk och

(iii) teoretisk

(i) Empirisk:

De empiriska definitionerna av tillförlitlighet hänför sig till omfattningen av korrelationen mellan två uppsättningar av poäng på samma test som administreras på samma individ vid olika tillfällen.

(ii) Teoretisk:

Den teoretiska betydelsen avser testresultatets konsistens eller precision. Det betyder pålitlighet för ett testresultat.

(iii) Logisk:

Den logiska betydelsen av tillförlitlighet avser mätfel.

Följande illustration kan fortsätta med att förstå begreppet tillförlitlighet och mätfel:

Till exempel säkrar Mr Rohit 52 i ett mentaltest. Vad betyder 52? Talar det om sin sanna förmåga? Är det hans sanna poäng? Rohit kan ha säkrat 52 med en enda chans. Det kan så hända att Rohit, av en slump, visste 52 artiklar av testet och hade föremålen varit lite annorlunda så hade han inte säkrat det här resultatet.

Alla dessa frågor är relaterade till ett faktum att mätning innebär vissa typer av fel, dvs personliga, konstanta, variabla och tolkningsfel. Detta fel kallas som mätfel. Så samtidigt som man bestämmer huruvida ett test är tillförlitligt måste vi ta hänsyn till hur många fel som är närvarande i mätningen.

När pålitlighetskoefficienten blir perfekt (dvs 1, 00) blir mätningen korrekt och den är fri från alla slags fel. Men mätning i varje fält innebär något slags fel. Därför är pålitligheten aldrig perfekt.

En poäng på ett test kan ses som ett index för sann poäng plus mätfel.

Totalscore eller Faktiskt erhållet poäng = True Score + Felresultat

Om en poäng har en stor komponent av "true score" och en liten komponent av fel är den hög; och motsats, om ett testresultat har en liten komponent av "true score" och stor "error" komponent, är dess tillförlitlighet låg.

Relationerna med faktiskt erhållet poäng, sann poäng och fel kan uttryckas matematiskt enligt följande:

X = X _∞ + e

i vilken X = Erhållen poäng för en individ på ett test.

X _∞ = sann poäng av samma individ

e = variabel (chans) fel.

Mätfel:

Sann poäng är medelvärdet av de erhållna poängen på ett oändligt antal parallella former av ett test. Varje erhållen poäng blir antingen mer eller mindre än den sanna poängen. Avvikelserna från erhållna poäng från de sanna poängen kallas "mätvärden".

Ibland kan mätfel vara mindre och ibland mer. Andra saker lika stora, mindre mätvärdena, desto större är mätens tillförlitlighet.

Standardmätningsfel:

Mätfelen (dvs variationen av erhållna poäng från det sanna poänget) kommer normalt att distribueras och standardavvikelsen för dessa variationer (eller mätfel) benämns "standardmätningsfel".

Vi kan ta reda på standardfel av mätning (SE av mätning) när tillförlitlighetskoefficienten och standardavvikelsen för fördelningen ges.

Formeln för att beräkna standardmåttet är följande:

där σ _sc = SE av en erhållen poäng

σ ₁ = standardavvikelsen för testresultat

r ₁₁ = pålitlighetskoefficienten för samma test.

Exempel 4:

I en grupp på 300 högskolestudenter är pålitlighetskoefficienten för ett Aptitude Test i matematik 0, 75, testet M är 80 och SD för poängfördelningen är 16. John uppnår en poäng på 86. Vad är SE av denna poäng ?

Lösning:

Från ovanstående formel finner vi det

och oddsen är ungefär 2: 1, att den erhållna poängen för en individ i gruppen på 300 saknar sitt sanna värde med mer än ± 8 poäng (dvs ± 1 SE _sc ). .95 konfidensintervallet för Johns sanna poäng är 86 ± 1, 96 x 8 eller 70 till 102.

Allmänt om hela gruppen av 300 studenter kan vi förvänta oss att cirka 1/3 av poängen är fel med 8 eller fler poäng och 2/3 för att vara fel med mindre än detta belopp.

Kriterium # 2. Giltighet:

Ordbokens innebörd med giltighet är "väl baserad", "effektiv", "ljud". Det hänvisar till "sanningsenlighet". Således är allt som är sanningsenligt, välbaserat och som tjänar rätt syfte giltigt.

Varje test har vissa egna mål. Den är konstruerad för vissa specifika ändamål och det är giltigt för detta ändamål. Om ett test mäter vad den avser att mäta, sägs det vara giltigt. Giltigheten ger en direkt kontroll av hur väl testet uppfyller sina funktioner. Giltighet är den första förutsättningen att ett test blir universellt.

Tillförlitlighet kan vara nödvändigt men inte ett tillräckligt villkor för giltighet. Ett test kan inte vara giltigt om det inte är tillförlitligt. Det kan vara tillförlitligt men kan inte höras giltigt. Testets relevans berör teståtgärderna och åtgärderna för åtgärderna.

Kortfattat kan vi säga att ett test är avsett att betjäna prediktionsfunktionen och sålunda är det värt eller giltigt beror på graden som det är framgångsrikt att uppskatta prestationen i vissa typer av verkliga situationer.

Exempel 5:

Antag att ett vittne ger ett uttalande inför domaren i en domstol. Om han på efterföljande korsundersökningar eller tvärfrågor repeterar samma påstående igen och igen då ska han kallas som ett tillförlitligt vittne.

Ingen tvekan kan hans uttalande vara rätt eller fel. När hans påstående är sant, sägs han vara ett giltigt vittne. Men om hans påstående är konsekvent fel, är han pålitlig men inte giltig.

Exempel 6:

Om en klocka förblir 10 minuter framåt än "standard tid" är det en pålitlig tidbit. Eftersom det ger konsekvent resultat varje dag med 10 minuter snabbt. Vårt syfte är att känna till tiden rätt och vi kunde inte veta det. Så själva syftet är inte betjänat. Således kommer det inte att vara giltigt som bedömts av "Standard tid".

Det visar sig således att ett test kan vara tillförlitligt, men det kan inte vara giltigt. Giltiga åtgärder eller test är dock alltid tillförlitliga. Ett test som är giltigt för ett visst syfte kan inte vara giltigt för ett annat syfte.

Ett test som har förberetts att mäta beräkningsmetoden hos eleverna i matematiken kan endast vara giltigt för detta ändamål, men inte för att mäta den matematiska resonemanget. Så hänvisar validitet till själva testets syfte.

Definitioner:

Anne Anastasi:

Skriver "Giltigheten av ett test gäller vad testet mäter och hur bra det gör det."

Rummel:

"En utvärderingsanordningens giltighet är i vilken utsträckning den mäter vad den är avsedd att mäta."

FS Freeman:

"Ett giltighetsindex visar graderna som ett test mäter vad den menar att mäta jämfört med accepterat kriterium."

LJ Cronbach:

"Giltighet är i vilken utsträckning ett test mäter vad det avser att mäta."

EF Lindquist:

Giltighet är den noggrannhet som den mäter det som är avsett att mäta eller i vilken grad det närmar sig ofelbarhet vid mätning av vad den avser att mäta.

Från ovanstående diskussion vi bildar att validitet hänvisar till "mycket syfte med testet" och om syftet är uppfyllt, ska testet anses vara giltigt. Så ett test för att vara giltigt måste man göra det jobb som man ville göra.

Begreppet giltighet av ett test är därför främst ett problem för testets "grundläggande ärlighet". Ärlighet i betydelsen att göra vad man lovar att göra. För att vara exakt, hänvisar validitet till hur väl ett verktyg mäter vad den avser att mäta.

Giltighetens art:

1. Giltighet avser sannolikheten eller syftet med testresultat men inte själva instrumentet.

2. Giltighet är en fråga om grad. Det existerar inte helt eller inte. Ett instrument som är utformat för att mäta en viss förmåga kan inte sägas vara cither perfekt eller inte alls giltig. Det är i allmänhet mer eller mindre giltigt.

3. Det är ett mått på "konstant fel" medan pålitlighet är måttet på "variabelt fel".

4. Giltighet säkerställer ett tests tillförlitlighet. Om ett test är giltigt måste det vara tillförlitligt.

5. Giltighet är inte av olika slag. Det är ett enhetligt koncept. Det bygger på olika typer av bevis.

6. Det finns ingen sådan sak som allmän validitet. Ett test är giltigt för något ändamål eller en situation, men den är inte giltig för andra ändamål. Med andra ord är ett verktyg giltigt för ett visst ändamål eller i en viss situation. det är inte i allmänhet giltigt.

Resultatet av ett ordförrådstest kan till exempel vara mycket giltigt för att testa vokabulär men kan inte vara så mycket giltigt för att testa kompositionens förmåga hos studenten.

Kriterium # 3. Objektivitet:

Objektivitet är det viktigaste kännetecknet för ett bra test. Det är en förutsättning för både validitet och tillförlitlighet. Objektivitet av ett test betyder graden som olika personer scorer ger, samma resultat.

CV Bra (1973):

CV Good (1973) definierar objektivitet vid testning är "i vilken utsträckning instrumentet är fri från personligt fel (personlig förspänning) som är subjektivitet hos scorerens del."

Gronlund och Linn (1995):

"Testets objektivitet refererar till i vilken grad lika kompetenta scorers får samma resultat."

Således kan man säga att ett test anses vara objektivt när det gör att man eliminerar målarens personliga åsikt och fördomar.

Objektivitet av ett test avser två aspekter, nämligen:

(i) Objektets objektivitet, och

(ii) Målning av poängen.

(i) Objektets objektivitet:

Objektivets objektivitet innebär att objektet måste kräva ett bestämt enkelt svar. Objekten kan inte ha två eller flera svar. När frågan anges annorlunda kommer skillnad i poäng att förekomma.

Till exempel:

"Förklara begreppet personlighet."

Här kommer de poäng som ges av poängen att variera i stor utsträckning eftersom frågan inte tydligt anger vilken typ av rätt svar som förväntas.

Här kan barnet skriva något som hör till frågan. Om svaret görs av olika granskare, skulle varumärkena definitivt variera.

Tvetydiga frågor, brist på rätt riktning, dubbla fatfrågor, frågor med dubbla negativ, breda uppsatstypfrågor etc. har inte objektivitet. Så mycket omsorg ska utövas när du formulerar frågorna.

(ii) Målning av poäng:

Ett verktyg är objektivt om det ger samma poäng även när olika poäng scorer objektet. Objektivitet i poäng kan alltså betraktas som konsistens i poäng av olika poäng.

Oftast, i verkliga situationer, finner vi att scorerens infall eller fördomar påverkar märkning. Frågorna, frågade om vissa ämnen för vilka målaren har en lutning kan hämta fler poäng än de andra frågorna.

Denna typ av irrationell temperament mot poängsystem är en typ av hans / hennes subjektiva behandling av kursplanen som i sin tur påverkar utvärderingsprocessen. Därför ska objektivitet i utvärderingen säkerställas för korrekt utvärdering.

Samtidigt behöver subjektivitet inte fördömas och helt uteslutas, vilket är hur de flesta utvärderingar i verkligheten görs. Subjektiv bedömning baserad på noggrann observation, obefogat och objektivt tänkande och logisk analys av situationer och fenomen kan också ge en noggrann utvärdering. Denna typ av disciplinerad subjektivitet kan spela en viktig roll även i en skolsituation.

Kriterium # 4. Användbarhet:

Användbarhetsgrad där utvärderingsverktyget kan användas av testanvändarna.

Vi har nu läst de tre huvudkriterierna för ett bra test: Giltighet, tillförlitlighet och objektivitet. En annan viktig egenskap hos ett verktyg är dess användbarhet eller genomförbarhet. Vid val av utvärderingsverktyg måste man leta efter vissa praktiska överväganden som omfattning, enkel administrering och poängering, enkel tolkning, tillgänglighet av jämförbara former och kostnader för testning.

Alla dessa överväganden föranleder en lärare att använda utvärderingsverktyg och sådana praktiska överväganden kallas "användbarhet" av ett utvärderingsverktyg. Med andra ord betyder användbarhet i vilken utsträckning utvärderingsverktyget framgångsrikt kan användas av lärare och skoladministratörer.

(i) Förståbarhet:

Testpunkterna måste vara fria från tvetydighet. Riktningen att testa föremål och andra anvisningar till provet måste vara tydligt och förståeligt. Anvisningarna för administrationen och riktningsanvisningarna måste klart anges så att man lätt kan förstå och följa dem. Dessutom måste procedur för testadministration, poängering och poängtolkning ligga inom testbrukarens förståelse.

(ii) Administreringsnivå:

Det hänvisar till den lätthet där ett test kan administreras. Varje test har sina egna villkor för administrering. Vid val av ett test bör man välja en, från en samling av test, som kan administreras utan mycket förberedelse och svårigheter.

en. Enkel administrering innehåller tydliga och noggranna instruktioner för administrering. Så, för att ett test enkelt ska administreras, måste instruktionerna till administratören och riktningen till smaken vara enkla, klara och fullständiga.

b. Tiden är också en mycket viktig faktor. För maximal administration i skolan är det vanligt att ett prov måste tas inom en normal klassrumsperiod.

(iii) Enkelt poäng:

Ett test för att bättre kunna användas bör ha lätthet att göra poäng. Dess poängnyckel bör vara klar och lätt kunna bedömas. Ibland är platserna öronmärkta på höger sida av frågorna för att ge svar.

I vissa fall ges svar på separata ark. Ett idealt test kan prövas av någon eller till och med av en maskin, som har fått en scoringsnyckel. Lika betyg bör tilldelas varje försöksobjekt för att göra poängen enklare.

Enligt genomförbarhet kan cither-handskårningsanordningar eller maskinskyddsanordningar tillhandahållas.

(iv) Tolkningsförmåga:

Om de erhållna testresultaten lätt kan förstås och tolkas, sägs ett test vara bra. För detta ändamål ska testhandboken tillhandahålla fullständiga normer för tolkning av poäng, såsom åldersnormer, betygsnormer, percentilnormer och standardnormer. Normerna underlättar tolkning av testresultat.

(v) Förberedelse av testet:

Testet ska ha en trevlig uppgift. Detta måste vara bra och attraktivt utseende. Bokstäverna ska inte vara onödigt för små eller för stora. Kvaliteten på papper som används, typografi och tryck, bokstorlek, avstånd, bilder och diagram som presenteras, dess bindning, utrymme för elevernas svar etc. ska undersökas.

(vi) Kostnad för testet:

Testet ska inte vara för dyrt. Kostnaden borde minskas i möjlig mån, så att den kan användas i stor utsträckning.