4 vanligen använda dispergeringsåtgärder

Det finns fyra vanligt använda åtgärder för att indikera variabiliteten (eller dispersionen) inom en uppsättning åtgärder. De är: 1. Område 2. Kvartilavvikelse 3. Genomsnittlig avvikelse 4. Standardavvikelse.

Mått # 1. Område:

Området är intervallet mellan högsta och lägsta poängen. Räckvidd är ett mått på variabilitet eller spridning av variaten eller observationerna mellan varandra och ger inte en uppfattning om spridningen av observationerna kring något centralt värde.

Symboliskt R = Hs-Ls. Där R = intervall;

Hs är "Högsta poäng" och Ls är lägsta poäng.

Beräkning av räckvidd (ouppvärmd data):

Exempel 1:

Resultatet av tio pojkar i ett test är:

17, 23, 30, 36, 45, 51, 58, 66, 72, 77.

Exempel 2:

Resultatet av tio tjejer i ett test är:

48, 49, 51, 52, 55, 57, 50, 59, 61, 62.

I exempel är högsta poängen 77 och lägst poäng är 17.

Så intervallet är skillnaden mellan dessa två poäng:

. . . Område = 77 - 17 = 60

På ett liknande sätt, i exempel II

Område = 62 - 48 = 14

Här finner vi att antalet pojkar är spridda. Således varierar pojkernas poäng mycket men antalet pojkar varierar inte mycket (de varierar naturligtvis mindre). Sålunda är variationen i pojkernas poäng mer än variationen i antalet flickor.

Beräkning av intervall (grupperade data):

Exempel 3:

Hitta utbudet av data i följande distribution:

Lösning:

I detta fall är den övre sanna gränsen för högsta klassen 70-79 Hs = 79, 5 och den lägre sanna gränsen för den lägsta klassen 20-29 är Ls = 19, 5

Därför är intervallet R = Hs-Ls

= 79, 5 - 19, 5 = 60, 00

Området är ett index för variabilitet. När intervallet är mer är gruppen mer variabel. Ju mindre intervallet desto mer homogent är gruppen. Räckvidd är det mest allmänna måttet på "spread" eller "scatter" av poäng (eller åtgärder). När vi vill göra en grov jämförelse av variabiliteten hos två eller flera grupper kan vi beräkna intervallet.

Räckvidden i jämförelse ovan är i råform eller är ett absolut mått på dispersion och är olämpligt för jämförelse, speciellt när serien är i två olika enheter. För jämförelse beräknas intervallkoefficienten genom att dividera intervallet med summan av de största och minsta punkterna.

fördelar:

1. Räckvidd kan beräknas ganska enkelt.

2. Det är ett enklast mått på dispersion.

3. Det beräknas när vi vill göra en grov jämförelse av två eller flera grafer av variabilitet.

begränsningar:

1. Området är inte baserat på alla observationer i serien. Det tar endast hänsyn till de mest extrema fallen.

2. Det hjälper oss att bara göra en grov jämförelse av två eller flera grupper av variabilitet.

3. Intervallet tar hänsyn till de två extrema poängen i en serie.

Således när N är liten eller när det finns stora luckor i frekvensfördelningen är räckvidden som ett mått på variabilitet ganska opålitligt.

Exempel 4:

Resultat av grupp A - 3, 5, 8, 11, 20, 22, 27, 33

Här intervall = 33 - 3 = 30

Resultat av grupp B - 3, 5, 8, 11, 20, 22, 27, 93

Här intervall = 93 - 3 = 90.

Jämför bara serien av poäng i grupp A och grupp B. I grupp A om ett enda poäng 33 (sista poängen) ändras till 93, varieras intervallet väldigt. Således kan ett enda högt betyg öka intervallet från låg till hög. Därför är intervallet inte ett pålitligt mått på variabilitet.

4. Det påverkas väldigt mycket av fluktuationer i provtagningen. Dess värde är aldrig stabilt. I en klass där normalt studenternas höjd sträcker sig från 150 cm till 180 cm, om en dvärg, vars höjd är 90 cm tillåts, skulle intervallet skjuta upp från 90 cm till 180 cm.

5. Serien presenterar inte serien och dispersionen verkligen. Asymmetrisk och symmetrisk fördelning kan ha samma intervall men inte samma dispersion. Det är av begränsad noggrannhet och bör användas med försiktighet.

Vi bör emellertid inte förbise det faktum att intervallet är ett orätt mått på dispersion och är helt olämpligt för exakta och noggranna studier.

Mått # 2. Kvartilavvikelse:

Område är intervallet eller avståndet på måtten som omfattar 100 procentfall. Begränsningarna av intervallet beror endast på dess beroende av de två extrema värdena.

Det finns några mått av dispersion som är oberoende av dessa två extrema värden. Mest vanliga av dessa är kvartilavvikelsen som är baserat på intervallet som innehåller de mitten av 50 procenten av fallen i en given fördelning.

Kvartilavvikelse är halva avståndet mellan det tredje kvartilen och den första kvartilen. Det är Semi-Interquartile-sortimentet av en distribution:

Innan vi tar upp kvartilavvikelsen måste vi veta betydelsen av kvartaler och kvartiler.

Till exempel ger ett test 20 poäng och dessa poäng ordnas i en nedåtgående ordning. Låt oss dela fördelningen av poäng i fyra lika delar. Varje del kommer att presentera ett kvart. I varje kvartal kommer det att finnas 25% (eller 1/4 av N) fall.

Eftersom poängen ordnas i fallande ordning,

De 5 bästa poängen kommer att vara i 1: a kvartalet,

Nästa 5 poäng kommer att vara i 2: a kvartalet,

Nästa 5 poäng kommer att vara i 3: e kvartalet och

Och de lägsta 5 poängen kommer att ligga i 4: e kvartalet.

För att få en bättre studie av en serie sammansättning kan det vara nödvändigt att dela upp den i tre, fyra, sex, sju, åtta, nio, tio eller hundra delar.

Vanligtvis är en serie uppdelad i fyra, tio eller hundra delar. Ett objekt delar upp serien i två delar, tre föremål i fyra delar (kvartiler), nio föremål i tio delar (deciler) och nittiofem i hundra delar (procentiler).

Det finns således tre kvartiler, nio deciler och nittio nio procent i en serie. Den andra kvartilen, eller 5: e decilen eller 50: e percentilen är medianen (se figuren).

Värdet på objektet som delar första halvan av en serie (med värden som är mindre än medianvärdet) i två lika delar kallas första kvartilen (Q 1 ) eller nedre kvartilen. Med andra ord är Q 1 en punkt under vilken 25% av fallen ligger. Q 1 är 25: e percentilen.

Andra kvartilen (Mdn) eller Middle Quartile är medianen. Det är med andra ord en punkt under vilken 50% av poängen ligger. En median är 50: e percentilen.

Värdet på objektet som delar den senare halvan av serien (med värden mer än medianvärdet) i två lika delar kallas tredje kvartilen (Q 3 ) eller övre kvartilen. Med andra ord är Q 3 en punkt under vilken 75% av poängen ligger. Q 3 är 75: e percentilen.

Notera:

En elev måste tydligt skilja mellan kvart och kvartil. Kvartalet är ett intervall; men kvartil är en punkt på skalan. Kvartaler är numrerade från topp till botten (eller från högsta poäng till lägsta poäng), men kvartiler är numrerade från botten till toppen.

Kvartilavvikelsen (Q) är en halv avståndet mellan tredje kvartilen (Q 3 ) och första kvartilen (Q 1 ):

L = Nedre gränsen för ci där Q3 ligger,

3N / 4 = 3/4 av eller 75% av N.

F = totalt av alla frekvenser under 'L',

fq = Frekvensen för ci på vilken Q3 ligger och i = storlek eller längd av ci

L = Nedre gränsen för ci där Q 1 ligger,

N / 4 = En fjärdedel (eller 25%) av N,

F = totalt av alla frekvenser under 'L',

fq = frekvens av ci på vilken Q 1 ligger,

och i = storlek eller längd av ci

Kvartilavståndet:

Avståndet mellan det tredje kvartilen och det första kvartilet är känt som interkvartilområdet. Symboliskt interkvartilområde = Q 3 - Q 1 .

Halvkvartil Range:

Det är halva avståndet mellan den tredje kvartilen och den första kvartilen.

Således SI R = Q 3 - Q 1/4

Q eller Quartile Deviation är annars känt som semi-interquartile-sortiment (eller SIR)

Således Q = Q3 - Q1 / 2

Om vi ​​kommer att jämföra formeln Q 3 och Q 1 med formeln för medianen kommer följande observationer att vara tydliga:

jag. Vid Median använder vi N / 2 medan för Q 1 använder vi N / 4 och för Q 3 använder vi 3N / 4.

ii. Vid median använder vi fm för att ange frekvensen av ci, på vilken median ligger men i fall av Q 1 och Q 3 använder vi fq för att ange frekvensen för ci på vilken Q 1 eller Q 3 ligger.

Beräkning av Q (icke-uppdelade data):

För att beräkna Q måste vi beräkna Q 3 och Q 1 först. Q 1 och Q 3 beräknas på samma sätt som vi beräknade medianen.

De enda skillnaderna är:

(i) Vid median räknar vi 50% fall (N / 2) från botten, men

(ii) Vid Q 1 måste vi räkna 25% av fallen (eller N / 4) från botten och

iii) Vid Q 3 måste vi räkna 75% av fallen (eller 3N / 4) från botten.

Exempel 5:

Ta reda på Q av följande poäng 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39.

Det finns 20 poäng.

25% av N = 20/4 = 5

Q 1 är en punkt under vilken 25% av fallen ligger. I detta exempel är Q 1 en punkt under vilken 5 fall ligger. Från den blotta kontrollen av beställda data konstateras att under 24, 5 finns 5 fall. Således Q 1 = 24, 5

På samma sätt är Q 3 en punkt under vilken 75% av lättnaderna ligger.

75% av N = 3/4 x 20 = 15

Vi finner att under 34, 5, 15 fall ligger

Således Q3 = 34, 5.

I en symmetrisk fördelning ligger medianen halvvägs på skalan från Q 1 och Q 3 . Därför ger värdet Q 1 + Q eller Q 3 - Q värdet av medianen. Men i allmänhet är distributioner inte symmetriska och så skulle Q 1 + Q eller Q 3 - Q inte ge medianvärdet.

Beräkning av Q (grupperade data):

Exempel 6:

Poängen som erhållits av 36 elever i ett test visas i tabellen. Hitta kvartilavvikelsen för poängen.

I kolumn 1 har vi tagit klassintervall, i kolumn 2 har vi tagit frekvensen, och i kolumn 3 har kumulativa frekvenser som börjar från botten skrivits.

Här N = 36, så för Q 1 måste vi ta N / 4 = 36/4 = 9 fall och för Q 3 måste vi ta 3N / 4 = 3 x 36/4 = 27 fall. Genom att titta på kolumn 3 kommer cf = 9 att inkluderas i ci 55-59, vars faktiska gräns är 54, 5 - 59, 5. Q1 skulle ligga i intervallet 54, 5 - 59, 5.

Värdet på Q 1 ska beräknas enligt följande:

För beräkning av Q 3 kommer cf = 27 att ingå i ci 65 - 69, vars faktiska gränser är 64. 5 - 69.5. Så Q 3 skulle ligga i intervallet 64, 5 - 69, 5 och dess värde ska beräknas enligt följande:

Tolkning av kvartilavvikelse:

Vid tolkning av värdet av kvartilavvikelsen är det bättre att ha värdena för Median, Q 1 och Q 3 tillsammans med Q. Om värdet på Q är mer, kommer dispersionen att vara mer, men igen beror värdet på skalan av mätning. Två värden på Q ska endast jämföras om den använda skalan är densamma. Q mätt för poäng av 20 kan inte jämföras direkt med Q för poäng av 50.

Om median och Q är kända kan vi säga att 50% av fallen ligger mellan 'Median - Q' och 'Median + Q'. Dessa är de mitten av 50% av fallen. Här kommer vi att veta om intervallet av endast de mitten av 50% av fallen. Hur den lägsta 25% av fallen och den övre 25% av fallen distribueras är inte känd genom denna åtgärd.

Ibland är de extrema fallen eller värdena inte kända, i vilket fall det enda alternativet som är tillgängligt för oss är att beräkna median- och kvartilavvikelsen som mäten av central, tendens och dispersion. Genom median och kvartiler kan vi dra nytta av distributionens symmetri eller skevhet. Låt oss därför få en uppfattning om symmetriska och sneda fördelningar.

Symmetriska och Skewed Distributions:

En fördelning sägs vara symmetrisk när frekvenserna är symmetriskt fördelade kring måttet av central tendens. Med andra ord kan vi säga att fördelningen är symmetrisk om värdena på lika avstånd på de båda sidorna av mätningen av central tendensen har lika frekvenser.

Exempel 7:

Ta reda på om den givna distributionen är symmetrisk eller inte.

Här är mätningen av central tendensen, medelvärdet och medianen, 5. Om vi ​​börjar jämföra frekvenserna på värdena på de två sidorna av 5, finner vi att värdena 4 och 6, 3 och 7, 2 och 8, 1 och 9, 0 och 10 har samma antal frekvenser. Så fördelningen är perfekt symmetrisk.

I en symmetrisk fördelning ligger medelvärdet och medianen lika och median ligger på lika avstånd från de två kvartilerna, dvs Q 3 - Median = Median-Q 1 .

Om en fördelning inte är symmetrisk, hänvisar avvikelsen från symmetri till dess skevhet. Skewness indikerar att kurvan är vänd mer mot ena sidan än den andra. Så kurvan kommer att ha en längre svans på ena sidan.

Skätheten sägs vara positiv om den längre svansen är på höger sida och det sägs negativt om den längre svansen är på vänster sida.

Följande figurer visar utseendet på en positivt skev och negativ snedvridningskurva:

Q 3 - Mdn> Mdn - Q 1 indikerar + ve skewness

Q 3 - Mdn <Mdn - Q 1 indikerar - skevhet

Q 3 - Mdn = Mdn - Q 1 indikerar nollskärhet

Meriter av Q:

1. Det är en mer representativ och pålitlig mått på variation än det totala intervallet.

2. Det är ett bra index för poängtäthet vid mitten av fördelningen.

3. Quartiles är användbara för att ange skenan hos en fördelning.

4. Liksom medianen, Q är tillämplig på open-end-fördelningar.

5. Varhelst median föredras som ett mått på central tendens föredras kvartilavvikelse som mått på dispersion.

Begränsningar av Q:

1. Liksom median är kvartilavvikelsen inte mottaglig för algebraisk behandling, eftersom det inte tar hänsyn till alla värden av fördelningen.

2. Det beräknar endast det tredje och det första kvartilet och talar oss om intervallet. Från Q 'kan vi inte få en sann bild om hur poängen sprids från det centrala värdet. Det är "Q" ger oss ingen aning om sammansättningen av poäng. "Q" i två serier kan vara lika, men serier kan vara ganska olikartade i kompositionen.

3. Det ger ungefär en uppfattning om dispersion.

4. Det ignorerar poängen över det tredje kvartilet och poängen under den första kvartilen. Det talar helt enkelt oss om mitten av 50% av distributionen.

Användning av Q:

1. När medianen är ett mått på en central tendens

2. När fördelningen är ofullständig i båda ändar;

3. När det finns spridda eller extrema poäng som skulle oproportionerligt påverka SD;

4. När koncentrationen runt medianen - de mitten av 50% av fallen är av huvudintresse.

Kvartilavvikelsens koefficient:

Kvartilavvikelsen är ett absolut mått på dispersion och för att göra det relativt, beräknar vi kvartilviktens koefficient. Koefficienten beräknas genom att kvartilavvikelsen divideras med genomsnittet av kvartiler.

Den ges av:

Kvartilavvikelsens koefficient = Q3 - Q1 / Q3 + Q1

Där Q 3 och Q 1 hänvisar till övre respektive nedre kvartiler.

Mått # 3. Genomsnittlig avvikelse (AD) eller medelavvikelse (MD):

Som vi redan har diskuterat varierar utbudet och "Q" ungefär oss med en viss uppfattning om variabilitet. Räckvidden av två serier kan vara densamma eller kvartilavvikelsen i två serier kan vara densamma, men de två serierna kan vara olika. Varken sortimentet eller "Q" talar om seriens sammansättning. Dessa två åtgärder tar inte hänsyn till de enskilda poängen.

Metoden för genomsnittlig avvikelse eller "medelavvikelsen", som det kallas ibland, tenderar att ta bort en allvarlig brist i båda metoderna (Range och "Q"). Den genomsnittliga avvikelsen kallas också det första ögonblicket i dispersionen och baseras på alla objekt i en serie.

Genomsnittlig avvikelse är det aritmetiska medelvärdet av avvikelserna i en serie beräknad från något mått på central tendens (medel, median eller mod), alla avvikelser anses vara positiva. Med andra ord är medelvärdet av avvikelserna för alla värden från det aritmetiska medlet känt som medelvärde eller genomsnittlig avvikelse. (Vanligtvis tas avvikelsen från genomsnittet av distributionen.)

Där Σ är summan av;

X är poängen; M är medelvärdet; N är det totala antalet poäng.

Och "d" betyder avvikelsen för enskilda poäng från medelvärdet.

Beräkning av medelavvikelse (ouppvärmd data):

Exempel 8:

Hitta medelvärden för följande uppsättning variabler:

X = 55, 45, 39, 41, 40, 48, 42, 53, 41, 56

Lösning:

För att hitta medelavvikelser beräknar vi först medelvärdet för den givna uppsättningen observationer.

Avvikelserna och de absoluta avvikelserna anges i tabell 4.2:

Exempel 9:

Hitta medelavvikelsen för de poäng som anges nedan:

25, 36, 18, 29, 30, 41, 49, 26, 16, 27

Medelvärdet av ovanstående poäng visade sig vara 29, 7.

För att beräkna medelavvikelsen:

Notera:

Om du tillämpar någon algebra kan du se att Σ (X - M) är noll

Beräkning av medelavvikelse (grupperade data):

Exempel 10:

Hitta medelavvikelsen för följande frekvensfördelning:

Här, i kolumn 1 skriver vi ci: erna, i kolumn 2 skriver vi motsvarande frekvenser. I kolumn 3 skriver vi mittpunkterna för ci'erna som betecknas med 'X' i kolumn 4, vi skriver produkten av frekvenser och mittenpunkter på ci betecknade med X, i kolumn 5 skriver vi de absoluta avvikelserna av mittpunkterna i ci från medelvärdet som anges av | d | och i kolumn 6 skriver vi produkten av absoluta avvikelser och frekvenser, betecknad med | fd |.

Meriter av medelavvikelse:

1. Genomsnittlig avvikelse är det enklaste måttet på dispersion som tar hänsyn till alla värden i en given fördelning.

2. Det är lättförståeligt även av en person som inte är välinformerad i statistiken.

3. Det påverkas inte mycket av värdet av extrema föremål.

4. Det är medelvärdet av avvikelserna för individuella poäng från medelvärdet.

begränsningar:

1. Medelavvikelse ignorerar de algebraiska tecknen på avvikelserna och som sådan är den inte kapabel till ytterligare matematisk behandling. Så det används endast som en beskrivande mått på variabilitet.

2. Faktum är att MD inte är gemensamt. Det används sällan i modern statistik och allmänt spridning studeras med standardavvikelse.

Användning av MD:

1. När det är önskvärt att väga alla avvikelser beroende på deras storlek.

2. När det är nödvändigt att veta i vilken utsträckning åtgärderna sprids ut på vardera sidan av medelvärdet.

3. När extrema avvikelser otillbörligt påverkar standardavvikelsen.

Tolkning av medelavvikelse:

För att tolka den genomsnittliga avvikelsen är det alltid bättre att titta på det tillsammans med medelvärdet och antalet fall. Medel krävs eftersom medelvärdet och medelavvikelsen är respektive punkten och avståndet på samma måttskala.

Utan medelvärdet kan medelavvikelsen inte tolkas, eftersom det inte finns någon aning om måtten eller mätenheten. Antalet fall är viktigt eftersom måttet av dispersion beror på det. För mindre antal fall är åtgärden sannolikt mer.

I de två exemplen har vi:

I det första fallet är genomsnittlig avvikelse nästan 25% av medelvärdet, medan det i andra fallet är mindre. Men den genomsnittliga avvikelsen kan vara mer i första hand på grund av mindre antal fall. Så de två genomsnittliga avvikelserna som beräknas ovan visar nästan likadant dispersion.

Mått # 4. Standardavvikelse eller SD och variant:

Av flera mått av dispersion är den mest använda åtgärden "standardavvikelse". Det är också det viktigaste på grund av att det är det enda måttet på dispersion som är mottaglig för algebraisk behandling.

Här beaktas även avvikelserna för alla värden från distributionsmedelsvärdet. Denna åtgärd lider av de minsta nackdelarna och ger exakta resultat.

Det tar bort nackdelen att ignorera de algebraiska tecknen medan man beräknar avvikelser från föremålen från medelvärdet. I stället för att försumma tecknen kvadrerar vi avvikelserna, vilket gör dem alla positiva.

Det skiljer sig från AD i flera avseenden:

jag. Vid beräkning av AD eller MD ignorerar vi tecken, medan vi för att hitta SD undviker teckenens svårighet genom att kvadrera de separata avvikelserna;

ii. De kvadrerade avvikelser som används vid beräkning av SD tas alltid från medelvärdet, aldrig från medianen eller läget.

"Standardavvikelse eller SD är kvadratroten av medelvärdet av de kvadrerade avvikelserna för de enskilda poängen från medelvärdet av fördelningen."

För att vara tydligare bör vi notera här att vi vid beräkningen av SD: n kvitterar alla avvikelser separat. Hitta deras summa, dela summan med totalt antal poäng och hitta sedan kvadratroten av medelvärdet av de kvadratiska avvikelserna.

Så SD kallas också "root mean square deviations from mean" och är generellt betecknad av det lilla grekiska bokstaven σ (sigma).

Symboliskt definieras standardavvikelsen för ogrupperade data som:

Där d = avvikelse av enskilda poäng från medelvärdet;

(Vissa författare använder "x" som avvikelsen för enskilda poäng från medelvärdet)

Σ = summan av; N = totalt antal fall.

De genomsnittliga kvadratiska avvikelserna kallas varians. Eller i enkla ord kvadrat av avvikelsens standard kallas det andra ögonblicket av dispersion eller variation.

Beräkning av SD (icke-uppdelad data):

Det finns två sätt att beräkna SD för ogrupperad data:

(a) Direkt metod.

(b) Kortslutningsmetod.

(a) Direkt metod:

Hitta standardavvikelsen för de poäng som anges nedan:

X = 12, 15, 10, 8, 11, 13, 18, 10, 14, 9

Denna metod använder formel (18) för att hitta SD som innefattar följande steg:

Steg 1:

Beräkna aritmetiska medelvärdet av de givna data:

Steg 2:

Skriv värdet av avvikelsen d dvs X - M mot varje poäng i kolumn 2. Här ska avvikelserna av poäng tas från 12. Nu kommer du att finna att Σd eller Σ (X - M) är lika med noll. Tänk, varför är det så? Kolla upp det. Om det inte är så, ta reda på felet vid beräkning och korrigera det.

Steg 3:

Kvadrata avvikelserna och skriv värdet på d 2 mot varje poäng i kolumn 3. Hitta summan av kvadrerade avvikelser. Σd 2 = 84.

Tabell 4.5 Beräkning av SD:

Den erforderliga standardavvikelsen är 2, 9.

Steg 4:

Beräkna medelvärdet av de kvadratiska avvikelserna och ta reda på den positiva kvadratroten för att få värdet av standardavvikelsen dvs σ.

Med hjälp av formel (19) kommer variansen att vara σ 2 = Σd 2 / N = 84/10 = 8, 4

(b) Kortslutningsmetod:

I de flesta fall händer det aritmetiska medelvärdet av den givna data som ett fraktionsvärde och sedan blir processen att ta avvikelser och kvadrera dem tråkiga och kalkkrävande vid beräkning av SD

För att underlätta beräkningen i sådana situationer kan avvikelserna tas från ett antaget medelvärde. Den justerade kortklippsformeln för beräkning av SD kommer då att vara,

var,

d = Poängets avvikelse från ett antagande medelvärde, säg AM; dvs d = (X-AM).

d 2 = Kvadraten av avvikelsen.

Σd = Summan av avvikelserna.

Σd 2 = Summan av de kvadrerade avvikelserna.

N = Antal poäng eller varianter.

Beräkningsförfarandet klargörs i följande exempel:

Exempel 11:

Hitta SD för de värden som anges i tabell 4.5 i X = 12, 15, 10, 8, 11, 13, 18, 10, 14, 9. Använd kortslutningsmetod.

Lösning:

Låt oss ta antagande medelvärdet AM = 11.

Avvikelserna och kvadraterna för avvikelser som behövs i formeln ges i följande tabell:

Sätta värdena från tabellen i formeln, SD

Kortslutningsmetoden ger samma resultat som vi erhållit genom att använda direkt metod i föregående exempel. Men kortslutningsmetod tenderar att minska beräkningsarbetet i situationer där aritmetiska medelvärden inte är ett heltal.

Beräkning av SD (gruppdata):

(a) Lång metod / direkt metod:

Exempel 12:

Hitta SD för följande distribution:

Här är också det första steget att hitta medelvärdet M, som vi måste ta mittpunkterna för c.i betecknas med X 'och hitta produkten f X.'. Medel ges av Σ f x '/ N. Det andra steget är att hitta avvikelserna mellan mittpunkterna i klassintervallen X 'från medelvärdet, dvs X'- M betecknad med d.

Det tredje steget är att kvadrera avvikelserna och hitta produkten av kvadrerade avvikelser och motsvarande frekvens.

För att lösa problemet ovan, skrivs ci i kolumn 1, frekvenser skrivs i kolumn 2, mittpunkter i c.i s dvs X 'är skrivna i kolumn 3, är produkten av f X' i kolumn 4, avvikelsen av X 'från medelvärdet skrivs i kolumn 5, skrivs den kvadrerade avvikelsen d 2 i kolumn 6 och produkten fd 2 är skriven i kolumn 7,

Enligt nedanstående:

Så ska avvikelserna från mittpunkterna tas från 11.1.

Sålunda är den erforderliga standardavvikelsen 4, 74.

(b) Kortslutningsmetod:

Ibland, i direkt metod, observeras att avvikelserna från det faktiska medelvärdet resulterar i decimaler och värdena för d 2 och fd 2 är svåra att beräkna. För att undvika detta problem följer vi en genvägsmetod för beräkning av standardavvikelsen.

I denna metod, i stället för att ta avvikelser från det faktiska medelvärdet, tar vi avvik från ett lämpligt valt antagande medel, säger AM

Följande formel används då för att beräkna SD:

där d är avvikelse från antaget medelvärde.

Följande steg är då inblandade i beräkningen av standardavvikelsen:

(i) Hämta avvikelser från variaterna från antagen medelvärde AM som d = (X-AM)

(ii) Multiplicera dessa avvikelser med motsvarande frekvenser för att få kolumnen fd . Summan av denna kolumn ger Σ fd.

fd med motsvarande avvikelse (d)

(iii) Multiplicera för att få kolonnen fd 2 . Summan av denna kolumn blir Σ fd 2 .

(iv) Använd formel (22) för att hitta SD

Exempel 13:

Med hjälp av genvägsmetoden hittar du SD av data i tabell 4.7.

Lösning:

Låt oss ta antagande medelvärdet AM = 10. Andra beräkningar som behövs för att beräkna SD finns i tabell 4.8.

Sätta värden från bordet

Med hjälp av formeln (19), variansen

(c) stegavvikelse metod:

I denna metod skriver vi i kolumn 1 ci 's; i kolumn 2 skriver vi frekvenserna; i kolumn 3 skriver vi värdena för d, där d = X'-AM / i; I kolumn 4 skriver vi produkten av fd, och i kolumn 5 skriver vi värdena för fd 2, som visas nedan:

Här antas Mean mittpunkten för ci 9-11 dvs 10, så avvikelserna d har tagits från 10 och dividerat med 3, längden på ci Formeln för SD i stegavviksmetoden är

där jag = längden på c.i s,

f = frekvens;

d = avvikelser från mittpunkten för ci s från antagen medelvärde (AM) i klassintervall (i) enheter, som kan anges:

Lägger värden från bordet

Beräkningsförfarandena kan också anges på följande sätt:

Kombinerad standardavvikelse ( σ com b ):

När två uppsättningar av poäng har kombinerats till ett enda parti, är det möjligt att beräkna σ av den totala fördelningen från σ s av de två komponentfördelningarna.

Formeln är:

där σ 1, = SD för fördelning 1

σ 2 = SD för fördelning 2

dl = (Ml-M kam )

d2 = (M2-M kam )

N 1 = Antal fall i distribution 1.

N 2 = Antal fall i distribution 2.

Ett exempel kommer att illustrera användningen av formeln.

Exempel 14:

Antag att vi får medel och SD på ett prestationstest för två klasser av olika storlek och uppmanas att hitta den kombinerade gruppens o .

Data är som följer:

Först finner vi det

Formeln (24) kan utökas till ett antal fördelningar. Till exempel, i fallet med tre fördelningar kommer det att vara

Egenskaper för SD:

1. Om varje variabelvärde ökar med samma konstanta värde, förblir värdet av fördelningens SD-värde oförändrat:

Vi kommer att diskutera denna effekt på SD genom att överväga en illustration. Tabellen (4.10) visar originalvärden på 5 studenter i ett test med ett aritmetiskt medelvärde på 20.

Nya poäng (X ') ges också i samma tabell som vi erhåller genom att lägga till en konstant 5 till varje originalpoäng. Med hjälp av formel för obegränsade data observerar vi att SD av poängen förblir densamma i båda situationerna.

Således är värdet av SD i båda situationerna samma.

2. När ett konstant värde subtraheras från varje variant förblir värdet av SD för den nya fördelningen oförändrad:

Eleverna kan också undersöka att när vi subtraherar en konstant från varje poäng minskar medelvärdet av konstanten, men SD är detsamma. Det beror på att " d " förblir oförändrat.

3. Om varje observerat värde multipliceras med ett konstant värde multipliceras även SD av de nya observationerna med samma konstant:

Låt oss multiplicera varje poäng i originalfördelningen (tabell 4.10) med 5.

Sålunda multipliceras SD för den nya fördelningen med samma konstanta (här är det 5).

4. Om varje observerat värde divideras med ett konstant värde, delas även SD av de nya observationerna med samma konstant. Eleverna kan undersöka med ett exempel:

Således är SD självständigt oberoende av ursprungsändring (addition, subtraktion) men beroende av skalförändring (multiplikation, division).

Mätningar av relativ dispersion (variationskoefficient):

Spridningsåtgärderna ger oss en uppfattning om i vilken utsträckning poängen sprids kring deras centrala värde. Därför kan två frekvensfördelningar med samma centrala värden jämföras direkt med hjälp av olika mått av dispersion.

Om till exempel på ett test i en klass har pojkarna medelvärdet M 1 = 60 med SD σ 1 = 15 och tjejer betyder poäng är M 2 = 60 med SD σ 2 = 10. Det är uppenbart att tjejer som har en mindre SD, är mer konsekventa i poäng runt deras genomsnittliga poäng än pojkar.

Vi har situationer då två eller flera fördelningar med ojämna medel eller olika måttenheter ska jämföras med avseende på deras spridda eller varierande. För att göra sådana jämförelser använder vi koefficienter för relativ dispersion eller variationskoefficient (CV).

Formeln är:

(Variationskoefficient eller koefficient för relativ variabilitet)

V anger den procentandel som σ är av testmedlet. Det är således ett förhållande som är oberoende av måttenheterna.

V är begränsad i användningen på grund av vissa otydligheter i tolkningen. Den är försvarbar när den används med förhållande vågar där enheterna är lika och det finns en sann nollpunkt eller referenspunkt.

Till exempel kan V användas utan tvekan med fysiska vågar - de som berör linjära storheter, vikt och tid.

Två fall uppstår vid användning av V med förhållande vågar:

(1) När enheterna är olika, och

(2) när M är ojämn, är enheterna i skalan densamma.

1. När enheter är olikt:

Exempel 15:

En grupp av 10 år gamla pojkar har en medelhöjd på 137 cm. med en o av 6, 2 cm. Samma grupp pojkar har en medelvikt på 30 kg. med en av 3, 5 kg. I vilket drag är gruppen mer variabel?

Lösning:

Självklart kan vi inte jämföra centimeter och kilo direkt, men vi kan jämföra den relativa variabiliteten hos de två fördelningarna i termer av V.

I det föreliggande exemplet skiljer sig två grupper inte bara i förhållande till medelvärden men också i måttenheter som är cm. i det första fallet och kg. på sekunden. Variationskoefficienten kan användas för att jämföra variabiliteten hos grupperna i en sådan situation.

Vi beräknar således:

Således framgår det av ovanstående beräkning att dessa killar är ungefär dubbelt så varierande (11, 67 / 4, 53 = 2, 58) i vikt som i höjd.

2. När medel är ojämlika, men skalaenheter är desamma :

Antag att vi har följande data på ett test för en grupp pojkar och en grupp män:

Jämför sedan:

(i) De två gruppernas resultat på provet.

(ii) Varianterna av poäng i de två grupperna.

Lösning:

(i) Eftersom den genomsnittliga poängen för en grupp pojkar är större än hos män, har pojkegruppen därför givit provet bättre resultat.

(ii) För att jämföra två grupper med avseende på variabilitet mellan poäng beräknas variationskoefficienterna V av pojkar = 26, 67 och V av män = 38, 46.

Därför är variationen i poäng större i gruppen män. Eleverna i pojkegrupp, som har ett mindre CV, är mer konsekventa i att scorera runt sin genomsnittliga poäng jämfört med mäns grupp.

SD och spridningen av observationer:

I en symmetrisk (normal) fördelning,

(i) Medel ± 1 SD täcker 68, 26% av poängen.

Medel ± 2 SD täcker 95, 44% av poängen.

Medel ± 3 SD täcker 99, 73% av poängen.

ii) I stora prover (N = 500) är området ca 6 gånger SD.

Om N är omkring 100 är området ca 5 gånger SD.

Om N är cirka 50 är området ca 4, 5 gånger SD.

Om N är ca 20 är området ca 3, 7 gånger SD

Tolkning av standardavvikelse:

Standardavvikelsen karaktäriserar fördelningen av poängen. När poängen är mer spridd SD är mer och när poängen är mindre spridd SD är mindre. För att tolka värdet av måttet av dispersion måste vi förstå att större värdet av ' σ ' desto mer spridda är poängen från medelvärdet.

Som vid genomsnittlig avvikelse kräver tolkningen av standardavvikelsen värdet av M och N för överväganden.

I följande exempel ges de nödvändiga värdena av σ, medelvärden och N som:

Här är dispersionen mer i exempel 2 jämfört med exempel 1. Det betyder att värdena är mer spridda i exempel 2 jämfört med värdena i exempel 1.

Meriter av SD:

1. SD är noggrant definierad och dess värde är alltid bestämt.

2. Det är den mest använda och viktiga måttet på dispersion. Den har en central position i statistiken.

3. Liksom genomsnittlig avvikelse är den baserad på alla värden av distributionen.

4. Här ignoreras tecken på avvikelser, i stället elimineras de genom att kvadrera var och en av avvikelserna.

5. Det är mästerskapets mått på variabilitet eftersom det är mottagligt för algebraisk behandling och används i korrelationsarbete och i ytterligare statistisk analys.

6. Det påverkas mindre av fluktuationer av provtagningen.

7. Det är det pålitliga och mest exakta måttet på variation. SD går alltid med det medelvärde som är den mest tillförlitliga åtgärden av central tendens.

8. Det ger en standard måttenhet som har jämförbar betydelse från ett test till ett annat. Dessutom är den normala kurvan direkt relaterad till SD

begränsningar:

1. Det är inte lätt att beräkna och det är inte lätt att förstå.

2. Det ger mer vikter till extrema föremål och mindre till de som ligger nära medelvärdet. När avvikelsen av ett extremt poäng är kvadrerat ger det upphov till ett större värde.

Användning av SD:

Standardavvikelse används:

(i) När den mest exakta, tillförlitliga och stabila variationsmåttet önskas.

(ii) När mer vikt ska ges till extrema avvikelser från medelvärdet.

(iii) När korrelationskoefficienten och annan statistik beräknas senare.

(iv) När mått på tillförlitlighet beräknas.

(v) När poängen ska tolkas korrekt med hänvisning till den normala kurvan.

(vi) När standardvärden ska beräknas.

(vii) När vi vill testa betydelsen av skillnaden mellan två statistik.

(viii) När variationskoefficienten, variansen etc. beräknas.