Mätning av variabilitet: En översikt

Mätning av variabilitet: En översikt!

Betydelse av variabilitet:

Variabilitet betyder "Scatter" eller "Spread". Således hänvisar variationsåtgärder till spridning eller spridning av poäng kring deras centrala tendens. Variationsåtgärderna anger hur fördelningen sprider sig ovanför och under det centrala anbudet.

Från följande exempel kan vi få en klar uppfattning om begreppet mått av variationer:

Antag att det finns två grupper. I en grupp finns 50 pojkar och i en annan grupp 50 tjejer. Ett test administreras till båda dessa grupper. Den genomsnittliga poängen för pojkarna och är 54, 4 och tjejer är vi jämför den genomsnittliga poängen för båda grupperna, vi finner att det inte finns någon skillnad i de två gruppernas resultat. Men anta att pojkarnas poäng ligger i intervallet från 20 till 80 och flickornas poäng varierar från 40 till 60.

Denna skillnad i intervall visar att pojkarna är mer variabla, eftersom de täcker mer territorium än tjejerna. Om gruppen innehåller individer med mycket olika kapaciteter kommer poängen att sprida sig från hög till låg, intervallet blir relativt brett och variationen blir stor.

Denna situation kan illustreras grafiskt i nedanstående figurer:

Ovanstående figur visar två frekvensfördelningar av något område (N) och några medelvärden (50) men med mycket olika variationer. Grupp A sträcker sig från 20 till 80 och grupp B från 40 till 60 Grupp A är tre gånger lika variabel som grupp B-Spreads över tre gånger avståndet på skalaen av poängen - men båda fördelningarna har en viss central tendens.

Definitioner av variabilitet:

Ordbok för Utbildning-CV Bra. "Spridningen eller variationen av observationerna av en fördelning om en viss mått av central tendens." Collins Dictionary of Statistics: "Dispersion är spridningen av en fördelning"

AL Bowley:

"Dispersion är måttet på variationen av objekten."

Brooks och Dicks:

"Dispersion eller spridning är graden av scattering eller variation av variablerna om ett centralt värde." Således egenskapen som anger hur stor utsträckning värdena är dispergerade kring de centrala värdena kallas dispersion. Det indikerar också bristen på enhetlighet i storleken på en distributionsdel.

Behov av variabilitet:

1. Hjälper till att bestämma avvikelsens åtgärder:

Variationsåtgärderna hjälper oss att mäta graden av avvikelse som finns i data. Genom det kan bestämma gränserna inom vilka data kommer att marinera i viss mätbar mängd eller kvalitet.

2. Det hjälper till att jämföra olika grupper:

Med hjälp av giltighetsåtgärder kan vi jämföra de ursprungliga uppgifterna uttryckta i olika enheter.

3. Det är användbart att komplettera informationen från åtgärderna med central tendens.

4. Det är användbart att beräkna ytterligare förskottsstatistik baserat på dispersionsåtgärderna.

Variabilitetsåtgärder:

Det finns fyra mått av variation:

1. Området

2. Kvartilavvikelsen

3. Den genomsnittliga avvikelsen

4. Standardavvikelsen

Dessa är:

1. Området:

Räckvidd är skillnaden mellan i en serie. Det är det mest allmänna måttet på spridning eller spridning. Det är ett mått på variationer av sorter eller observation bland dem själva och ges inte en uppfattning om spridningen av observationerna kring något centralt värde.

Område = H-L

Här H = Högsta poäng

L = Lägsta poäng

Exempel:

I en klass har 20 studenter säkrat poängen enligt följande:

22, 48, 43, 60, 55, 25, 15, 45, 35, 68, 50, 70, 35, 40, 42, 48, 53, 44, 55, 52

Här-Den högsta poängen är 70

Lägsta poäng är 15

Område = H - L = 70-15 = 55

Om intervallet är högre än gruppen anger mer heterogenitet och om intervallet är lägre än gruppen indikerar mer homogenitet. Således ger intervallet oss en omedelbar och grov indikation på variabiliteten hos en fördelning.

Meriter av Range:

1. Område beräknas enkelt och lättförståeligt.

2. Det är det enklaste måttet på variation.

3. Det ger en snabb uppskattning av måttet på variation.

Demerits of Range:

1. Område påverkas starkt av fluktuationer av poäng.

2. Det är inte baserat på alla observationer i serien. Det tar bara de högsta och lägsta poängen i kontot.

3. Om det inte finns några öppna distributionsfördelningar kan inte användas.

4. Det påverkas kraftigt av fluktuationer i provtagningen.

5. Det påverkas kraftigt av extrema poäng.

6. Serien representeras inte riktigt av sortimentet. En symmetrisk och en symmetrisk fördelning kan ha samma intervall men inte samma dispersion.

Användning av Range:

1. Område används som mått på dispersion när variationer i värdet av variabeln inte är mycket.

2. Område är det bästa måttet på variabilitet när data är för spridda eller för knappt.

3. Räckvidd används när kunskap om extremt poäng eller total spridning är önskad.

4. När en snabb uppskattning av variabilitet är önskat, används sortiment.

2. Kvartilavvikelsen (Q):

Bredvid intervall kvartilavvikelse är ett annat mått på variabilitet. Det är baserat på intervallet som innehåller mitten av femtio procent av fallen i en given fördelning. En fjärdedel betyder 1/4 av någonting, när en skala är uppdelad i fyra lika delar. "Kvartilavvikelsen eller Q är den halva avståndet mellan 75 och 25 procentenheter i en frekvensfördelning."

Av figuren 9.2 fann vi att 1: a kvartilen eller Q 1 är position i en fördelning under vilka 25% fall och över vilka 75% fall ligger. 2: a kvartilen eller Q2 är en position under och över vilka 50% fall ligger. Det är distributionens median.

3: e kvartilen eller Qg är 75: e percentilen, under vilken 75% fall och över vilka 25% fall ligger. Kvartilavvikelsen (Q) är sålunda halva avståndet mellan 3: e kvartilen (Q 3 ) och 1: a kvartilen (Q 1 ). Det är också känt som Semi-Interquartile Rage.

symbol~~POS=TRUNC:

För att beräkna kvartilavvikelsen måste vi först och främst beräkna 1: a kvartil (Q 1 ) och 3: e kvartilen (Q 3 )

Där = L = Nedre gränsen för 1: a kvartilklassen,

Den första kvartilklassen är den klassen, vars kumulativa frekvens är större än värdet av N / 4 när om beräknas från nedre änden.

N / 4 = En fjärdedel av det totala antalet fall.

F = Kumulativ frekvens för klassintervallet under

1: a kvartil klass.

Fq 1 = Frekvensen av Q 1- klassen

i = Storlek på klassintervallet 3N

Var: L = Nedre gränsen för 3: e kvartilklassen

Den tredje kvartilklassen är den klass vars kumulativa frekvens (Cf) är större än värdet 3N / 4 dvs Cf> 3N / 4, när Cf beräknas från nedre änden.

3N / 4 = ¾th N eller 75% av det totala antalet fall.

F = Kumulativ frekvens för klassen under klassen.

fq 2 = Frekvensen för Q 3- klassen.

i = Storlek på klassintervallet.

Beräkning av kvartil från gruppdata:

Exempel:

Ta reda på kvartilavvikelsen för följande data:

Steg för att beräkna kvartilavvikelse:

Steg 1:

Beräkna N / 4 dvs 25% av fördelningen och 3N / 4 dvs 75% av fördelningen.

Här -N = 50 så N / 4 = 12, 5

och 3N / 4 = 37, 5

Steg 2:

Beräkna C f från nedre änden. Som i tabell 9.1 kolumn 3.

Steg 3:

Ta reda på Q 1 och Q 3- klassen.

I det här exemplet:

Ci, 60-64 är Q1-klass eftersom Cf > N / 4

Ci 75-79 är Q3-klass eftersom

Cf> 3N / 4

Steg-4:

Ta reda på F för Q 1- klass och Q 3- klass. I detta exempel

F för Q 1 klass = 10

F för Q3-klass = 30 Steg

Steg 5:

Ta reda på Q1 genom att ange ovanstående värden i formel.

Qi = L + N / 4 - F / fq1 xi

Här L = 59, 5 eftersom de exakta gränserna för Q 1- klassen 60-64 är 59, 5-64, 5.

F = 10 Cf under Q 1- klassen

Fq 1 = 4: Exakt frekvens för Q 1- klassen

i = 5, klassintervallets storlek

N / 4 = 12, 5

Nu Q 1 = 59, 5+ 12, 5-10 / 4 x 5

= 59, 5 + 2, 5 / 4 x 5

= 59, 5 + 0, 63 x 5

= 59, 5 + 3, 13 = 62, 63

Steg 6:

Ta reda på Q 3 genom att ange värdena i formel.

Här L = 74, 5 eftersom de exakta gränserna för Q 3- klassen 75-79 är 74, 5-79, 5.

F = 30 Cf under Q 3- klassen.

3N / 4 = 37, 5

Fq 1 = 8 Exakt frekvens för Q 3- klassen.

i = 5 storleken på klassintervallet.

Q3 = 74, 5 + 37, 5-30 / 8 x 5

= 74, 5 + 7, 5 / 8 x 5 = 74, 5 + .94 x 5

= 74, 5 + 4, 7 = 79, 2

Steg 7:

Ta reda på Q genom att ange ovanstående värde i formeln.

Q = Q3-Q1 / 2 = 79, 2 - 62, 63 / 2

= 16, 5 / 2 = 8, 285 = 8, 29

Meriter av kvartilavvikelse:

1. Kvartilavvikelse är enkelt att beräkna och lätt att förstå.

2. Det är mer representativt och förtroende värdigt än intervallet. Vid klassrumsintervaller med öppen slut används den för att studera dispersionsåtgärder.

3. Vid klassrumsintervaller med öppen slut används den för att studera dispersionsåtgärder.

4. Det är ett bra index för poängtäthet i mitten av distributionen.

5. När vi tar median som mått på central tendens vid den tiden är Q föredragen som mått på dispersion.

6. Liksom intervall påverkas det inte av extrema poäng.

Kvartilavvikelsens nedgångar:

1. Det är inte baserat på alla observationer av data. Det ignorerar de första 25% och de sista 25% av poängen.

2. Ytterligare algebraisk behandling är inte möjlig vid Q. Det är bara ett positionsmedelvärde. Det studerar inte variation av värdena för en variabel från något medelvärde. Det anger bara ett avstånd på en skala.

3. Det påverkas av fluktuationer av poäng. Dess värde påverkas i vilket fall som helst genom en förändring i värdet av ett enda poäng.

4. Q är inte ett lämpligt mått på dispersion, då det i en serie finns en stor variation i värdena för olika poäng.

Användning av kvartilavvikelse:

1. När Median är måttet av central tendens vid den tiden används Q används som mått på dispersion.

2. När extrema poäng påverkar SD eller poängen sprids vid den tiden används Q som mått på variabilitet.

3. När vårt primära intresse är att känna koncentrationen runt medianen - den mellersta 50% av fallen, vid den tiden Q används.

4. När klassintervallerna är öppna, används Q som mått på dispersion.

3. Den genomsnittliga avvikelsen (AD):

Vi har diskuterat om två variationer, intervall och kvartilavvikelse. Men ingen av dessa dispersioner indikerar fördelningen av kompositionen. Det beror på att båda dispersionerna inte tar hänsyn till alla enskilda poäng. Vi kan övervinna några av de allvarliga bristerna i intervall och kvartilavvikelse genom att använda en annan dispersion kallad genomsnittlig avvikelse eller medelavvikelse.

"Genomsnittlig avvikelse är det aritmetiska medelvärdet av alla avvikelser av olika poäng från medelvärdet av poängen utan hänsyn till tecken på avvikelsen."

Sålunda är genomsnittlig avvikelse aritmetisk medelvärde av avvikelserna i en serie beräknad från något mått av central tendens. Så genomsnittlig avvikelse är medelvärdet av avvikelserna från deras medelvärde (Ibland från median och mode.)

Definitioner:

Collins Dictionary of Statistics:

"Genomsnittlig avvikelse är medelvärdet av de absoluta värdena för skillnaderna mellan värdena för en variabel och medelvärdet av dess fördelning."

Ordbok för utbildning, CV Bra:

"En åtgärd som uttrycker det genomsnittliga beloppet med vilket de enskilda objekten i en fördelning avviker från ett mått på central tendens, såsom medelvärdet av medianen."

HE Garrett:

"Den genomsnittliga avvikelsen eller AD är medelvärdet av avvikelserna för alla separata poäng i en serie som tas från deras medelvärde (ibland från medianen eller läget)."

Således kan man säga att medelavvikelsen eller medelavvikelsen som den kallas är medelvärdet av avvikelserna för alla poängen.

Ingen hänsyn tas till tecken och alla avvikelser huruvida + ve eller -ve har behandlats som positiva.

där AD = genomsnittlig avvikelse

£ = Capital Sigma, medel Summa av

II = Modulera i kort Mod betyder ingen respekt för negativt tecken.

x = avvikelse, (X-M)

Beräkning av genomsnittlig avvikelse:

Det finns två situationer för att beräkna genomsnittlig avvikelse:

(a) När data är ogrupperade.

(b) När data grupperas.

Beräkning av AD från ogrupperade data.

Exempel:

Hitta AD av följande 10 poäng som anges nedan:

23, 34, 16, 27, 28, 39, 45, 26, 18, 27

Lösning:

Steg 1:

Ta reda på medelvärdet av poängen med formel

Zx / N

Steg 2:

Ta reda på avvikelse från alla poäng som minskar medelvärdet från poängen.

Steg 3:

Ta reda på den absoluta avvikelsen som visas i tabell 9.2 och sedan Σ | x |

Steg-4:

Sätt värdena i formel.

AD = 7, 58.

Beräkning av AD från grupperade data:

Exempel:

Ta reda på AD av följande data:

Lösning :

Steg 1:

Ta reda på hur stor fördelningen är.

Medel = 70, 80

Steg 2:

Ta reda på mittpunkten för varje klassintervaller. Som i kolumn -3 i tabell -9.3

Steg 3:

Ta reda på x genom att dra medelvärdet från mittpunkten (X). Som visas i kolumn -5 i tabell 9.3.

Steg-4:

Ta reda på absolut avvikelse eller | x |. Som kolumn -6 ovan.

Steg-5:

Ta reda på | f x |. genom att multiplicera f med | x. Som visas i kolumn -7 och ta reda på Σ | f x |.

Steg-6:

Sätt ovanstående värden i formel.

Formeln för AD från grupperade data

Var = AD = Genomsnittlig avvikelse

Σ = Summa totalt av

f = frekvens

x = avvikelse dvs (X-M)

N = Totalt Antal fall dvs Σ f .

Sätta värdena i formel

Meriter av AD:

1. Genomsnittlig avvikelse är noggrant definierad och dess värde är exakt och bestämt.

2. Det är lätt att beräkna.

3. Det är lätt att förstå. Eftersom det är medeltalet av avvikelser från ett mått på central tendens.

4. Det bygger på alla observationer.

5. Det påverkas mindre av värdet av extrema poäng.

Demerits av AD:

1. Den mest allvarliga nackdelen med genomsnittlig avvikelse är att den ignorerar de algebraiska tecknen på avvikelserna som strider mot matematikens grundläggande regler.

2. Ytterligare algebraisk behandling är inte möjlig vid AD.

3. Det används mycket sällan. På grund av standardavvikelse används vanligen som ett mått på dispersion.

4. När beräknat från läget AD ger inte exakt mått på dispersion.

Användning av genomsnittlig avvikelse:

1. Genomsnittlig avvikelse används när det är önskvärt att väga alla avvikelser från medelvärdet enligt deras storlek.

2. När extrema poäng påverkar standardavvikelsen vid den tiden är AD det bästa måttet på dispersion.

3. AD används när vi vill veta i vilken utsträckning åtgärderna sprids ut på båda sidor av medelvärdet.

4. Standardavvikelsen (SD):

Vi har diskuterat tre mått av variabilitet, nämligen Range, Quartile Deviation och Average Deviation. Vi fann också att alla av dem lider av allvarliga nackdelar.

Intervallet togs bara in för att endast ta hänsyn till högsta poäng och lägsta poäng. Kvartilavvikelsen tar endast hänsyn till mitten av 50% av poängen och i fall av genomsnittlig avvikelse ignorerar vi tecknen.

För att övervinna alla dessa svårigheter använder vi därför en annan mått på dispersion som kallas Standardavvikelse. Det används vanligen i experimentell forskning eftersom det är det mest stabila variabilitetsindexet. Symboliskt skrivs det som σ (grekiska små bokstäver sigma).

Definitioner:

Collins ordbok för statistik.

"Standardavvikelse är ett mått på spridning eller spridning. Det är root mean squared avvikelse. "

Ordbok för Utbildning-CV Bra.

"En allmänt använd mått på variabilitet, bestående av kvadratroten av medelvärdet av de kvadrerade avvikelserna av poäng från medelvärdet av fördelningen."

Standardavvikelsen är kvadratroten av medelvärdet av de kvadrerade avvikelserna från poängen från deras aritmetiska medelvärde.

SD: n beräknas genom att summera den kvadrerade avvikelsen för varje åtgärd från medelvärdet, dividerat med antalet fall och extrahera kvadratroten. För att vara tydligare bör vi notera här att vi vid beräkningen av SD: n kvadrerar alla avvikelser separat, hittar summan, delar summan med totalt antal poäng och sedan hittar kvadratroten av medelvärdet av kvadrerade avvikelsen. Så att det kallas också "root mean square deviation".

Kvadraten av standardavvikelsen kallas Varians (σ 2 ). Det kallas den genomsnittliga kvadratiska avvikelsen. Det kallas också som andra momentdispersionen.

Beräkning av SD från icke-uppdelade data:

Exempel:

Ta reda på SD med följande data:

6, 8, 10, 12, 5, 8, 9, 17, 20, 11.

Lösning:

Steg 1:

Ta reda på medelvärdet av poängen.

Steg 2:

Ta reda på avvikelse (x) för varje poäng.

Beräkning av SD från grupperade data:

I grupperade data kan SD beräknas i två metoder:

1. Direkt metod eller lång metod

2. Kort metod eller antagen metod

1. Direkt metod eller lång metod:

Exempel:

Ta reda på SD för följande distribution:

Lösning:

Steg 1:

Ta reda på mittpunkten för varje klassintervall. (Colum-3 Tabell 9.4)

Steg 2:

Ta reda på hur stor fördelningen är:

Här M = Σf x / N = 3540/50

= 70, 80

Steg 3:

Ta reda på avvikelsen (x) genom att dra av medelvärdet från poäng.

Steg -4:

Ta reda på f x genom att multiplicera f (kol-2) med x (kol-5)

Steg-5:

Ta reda på fx genom att multiplicera fx (col-2) med x (col-5)

Steg-6:

Beräkna Σ f x genom att lägga till värdena i kol-7.

Steg-7:

Sätt värdena i formel.

2. Kort metod eller antagen metod:

Kortfattat är beräkningen av SD lätt och tidskrävande. Om mellanpoängen i klassintervallen är decimaltal blir det mer komplicerat att beräkna SD i lång metod. Denna metod består i huvudsak av att "gissa" eller antar en meningslösning och senare tillämpar en korrigering för att ge verkligt medelvärde. Så att det kallas som antagen medel metod.

Exempel:

Beräkna SD, med följande fördelning:

Lösning:

Steg 1:

Antag mittpunkten för ett klassintervall som "Antaget Mean". Men det är bättre att anta mittpunkten av klassintervallet i mitten med högsta frekvens som antaget medelvärde. Här antas låt = 72 som antagen medelvärde.

Steg 2:

Ta reda på x (avvikelse från poängen från det antagna genomsnittet) som visas i kol-3.

x '= X - M / i

Steg 3:

Beräkna fx ', genom att multiplicera x' med f (kolumn 4).

Steg-4:

Beräkna fx 2 genom att multiplicera x '(col-3) med fx (col-5).

Steg-5:

Ta reda på Σ f x 'och Σ f x ' 2 it 'genom att lägga till värdena i kolumn 4 respektive kolumn 5. '

Steg-6:

Sätt värdena i formel:

Formeln för SD i kort metod är:

Där jag = Storlek på klassintervallet

Σ = Summa totalt av

f = frekvens

x '= avvikelse från poängen från deras antagna medelvärde.

Nu om vi ska ersätta Σ f x '/ N i stället för C.

Formeln kommer att vara som följer:

Nu lägger vi värdena i formel.

1. Om ett konstant värde läggs till varje poäng eller subtraheras från varje poäng, förblir valsen av SD oförändrad:

Det betyder att SD är oberoende av ursprungsändring (tillägg, subtraktion). Om ett konstant värde läggs till eller subtraheras från varje sort, förblir SD därför densamma.

Vi kan undersöka detta från följande exempel:

I ovanstående tabell ges poäng på 5 studenter. Låt oss se vad som händer med SD av poängen om vi lägger till ett konstant tal säga 5 och subtrahera 5 från varje poäng.

2. Om ett konstant värde multipliceras eller divideras med originalvärdena multipliceras värdet på SD också med samma nummer:

Det betyder att SD är oberoende av skalförändring (multiplikation, division). Om vi ​​multiplicerar de ursprungliga värdena med ett konstant tal, blir SD också multiplicerat med samma nummer.

Återigen om vi delar upp varje poäng med ett konstant tal blir SD också delat med samma nummer.

Vi kan illustrera detta med följande exempel:

I ovanstående tabell ges poäng på 5 studenter. Låt oss se vad som händer med SD av de 5 poängen om vi multiplicerar det med ett konstant tal säger 2 och dela den med samma konstanta nummer.

Således från detta fann vi att om poängen multipliceras med ett konstant tal blir σ också multiplicerat med det. Om poängen delas med ett konstant tal blir σ också uppdelat med samma nummer.

Meriter av SD:

1. Standardavvikelsen är noggrant definierad och dess värde är alltid bestämt.

2. Det är baserat på alla observationer av data.

3. Den kan vidare algebraisk behandling och har många matematiska egenskaper.

4. Till skillnad från Q och AD är det mindre påverkat av fluktuationer av poäng.

5. I motsats till AD ignorerar den inte de negativa tecknen. Genom kvadrering av avvikelser övervinner den dessa svårigheter.

6. Det är det pålitliga och mest exakta måttet på variation. Det går alltid med det medelvärde som är det mest stabila måttet på den centrala tendensen.

7. SD ger en åtgärd som är jämförbar mening från ett test till ett annat. Framför allt uttrycks de normala kurvanheterna i en enhet.

Demerits av SD:

1. SD är svårt att förstå och inte lätt att beräkna.

2. SD ger större vikt till extrema poäng och förlust för de som ligger närmare medelvärdet. Det beror på att kvadraterna av avvikelserna, som är stora i storlek, skulle vara proportionellt större än kvadraterna för de avvikelser som är relativt små.

Användning av SD:

1. SD används när vår drivkraft är att mäta variabiliteten med störst stabilitet.

2. När extrema avvikelser kan påverka variationen vid den tiden används SD.

3. SD används för att beräkna ytterligare statistik som korrelationskoefficient, standardresultat, standardfel, variansanalys, analys av samvariation etc.

4. När tolkning av poäng görs i termer av NPC används SD.

5. När vi vill bestämma testresultatets tillförlitlighet och validitet används SD.

Kombinerad standardavvikelse:

Under forskningsarbetet drar vi ibland mer än ett prov från befolkningen. Därför får vi olika SD-filer för varje grupp eller prov. Men ibland behöver vi tolka dessa resultat som en grupp. Därför när olika uppsättningar av poäng har kombinerats till ett enda parti, är det möjligt att beräkna SD av den totala fördelningen från subgruppernas SD-kort.

Formel för beräkning av kombinerad standardavvikelse eller som följande:

N 1, N 2, N n = Antal poäng i grupp 1, grupp 2 och så vidare upp till nth grupp.

d = (Mean-M comb ) "d" hittas genom att dra M- kam från medelvärdet av den berörda gruppen.

På samma sätt finns d 1, d 2 ... d n .

σ = Standardavvikelse för den berörda gruppen σ 1, σ 2, σ 3 betyder σ av gruppen 1, grupp 2, grupp 3 etc.

Exempel:

Lösning:

Sätt nu värdena i formel.