Šta je varijacijski niz u statistici. Izrada serije varijacija. Istorijat razvoja U-kriterijuma

Stanje:

Postoje podaci o starosnom sastavu radnika (godine): 18, 38, 28, 29, 26, 38, 34, 22, 28, 30, 22, 23, 35, 33, 27, 24, 30, 32, 28 , 25, 29, 26, 31, 24, 29, 27, 32, 25, 29, 29.

    1. Konstruirajte niz intervalne distribucije.
    2. Izradite grafički prikaz serije.
    3. Grafički odredite mod i medijan.

Rješenje:

1) Prema Sturgessovoj formuli, stanovništvo se mora podijeliti na 1 + 3,322 lg 30 = 6 grupa.

Maksimalna starost - 38, minimalna - 18 godina.

Širina intervala Pošto krajevi intervala moraju biti cijeli brojevi, populaciju dijelimo u 5 grupa. Širina intervala - 4.

Radi lakšeg izračunavanja, podatke ćemo rasporediti u rastućem redoslijedu: 18, 22, 22, 23, 24, 24, 25, 25, 26, 26, 27, 27, 28, 28, 28, 29, 29, 29, 29, 29, 30 , 30, 31, 32, 32, 33, 34, 35, 38, 38.

Raspodjela radnika po godinama

Grafički, serija se može prikazati kao histogram ili poligon. Histogram - trakasti grafikon. Osnova kolone je širina intervala. Visina stuba je jednaka frekvenciji.

Poligon (ili poligon distribucije) - graf frekvencije. Da bismo ga izgradili pomoću histograma, povezujemo sredine gornjih strana pravokutnika. Zatvaramo poligon na osi Ox na udaljenosti jednakim polovini intervala od ekstremnih vrijednosti x.

Mod (Mo) je vrijednost karakteristike koja se proučava, a koja se najčešće javlja u datoj populaciji.

Da biste odredili način rada iz histograma, potrebno je odabrati najviši pravougaonik, povući liniju od desnog vrha ovog pravokutnika do gornjeg desnog ugla prethodnog pravokutnika, a od lijevog vrha modalnog pravokutnika povući liniju do lijevog vrha sljedećeg pravougaonika. Od presjeka ovih linija povucite okomitu na x-osu. Apscisa će biti moda. Mo ≈ 27.5. To znači da je najčešća dob u ovoj populaciji 27-28 godina.

Medijan (Me) je vrijednost karakteristike koja se proučava, a koja se nalazi u sredini poretka varijantne serije.

Medijanu nalazimo koristeći kumulat. Kumulati - graf akumuliranih frekvencija. Apscise su varijante niza. Ordinate su akumulirane frekvencije.

Da bismo odredili medijan preko kumulata, nalazimo tačku duž ordinatne ose koja odgovara 50% akumuliranih frekvencija (u našem slučaju 15), kroz nju povlačimo pravu liniju, paralelnu sa Ox osi, i iz tačke njegov presek sa kumulatom, nacrtajte okomitu na x osu. Apscisa je medijana. Me ≈ 25.9. To znači da je polovina zaposlenih u ovoj populaciji mlađa od 26 godina.

RUSKA AKADEMIJA NARODNE EKONOMIJE I JAVNE SLUŽBE pod PREDSEDNIKOM RUSKOG FEDERACIJE

FILIJALA ORYOL

Katedra za matematiku i matematičke metode u menadžmentu

Samostalan rad

Matematika

na temu “Varijacijski niz i njegove karakteristike”

za redovne studente Fakulteta za ekonomiju i menadžment

oblasti obuke "Upravljanje ljudskim resursima"


Cilj rada: Ovladavanje pojmovima matematičke statistike i metodama primarne obrade podataka.

Primjer rješavanja tipičnih problema.

Zadatak 1.

Anketom su dobijeni sljedeći podaci ():

1 2 3 2 2 4 3 3 5 1 0 2 4 3 2 2 3 3 1 3 2 4 2 4 3 3 3 2 0 6

3 3 1 1 2 3 1 4 3 1 7 4 3 4 2 3 2 3 3 1 4 3 1 4 5 3 4 2 4 5

3 6 4 1 3 2 4 1 3 1 0 0 4 6 4 7 4 1 3 5

potrebno:

1) Sastavite seriju varijacija (statistička distribucija uzorka), nakon što ste prethodno zapisali rangiranu diskretnu seriju opcija.

2) Konstruirajte frekvencijski poligon i kumulirajte.

3) Sastaviti niz distribucija relativnih frekvencija (frekvencija).

4) Pronađite glavne numeričke karakteristike niz varijacija (koristite pojednostavljene formule da ih pronađete): a) aritmetička sredina, b) medijana Meh i moda Mo, c) disperzija s 2, d) standardna devijacija s, e) koeficijent varijacije V.

5) Objasnite značenje dobijenih rezultata.

Rješenje.

1) Za kompajliranje rangirani diskretni niz opcija Razvrstajmo podatke ankete po veličini i rasporedimo ih uzlaznim redoslijedom

0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2

3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4

5 5 5 5 6 6 6 7 7.

Sastavimo niz varijacija tako što ćemo posmatrane vrijednosti (varijante) upisati u prvi red tabele, a odgovarajuće frekvencije u drugi (tabela 1)

Tabela 1.

2) Frekvencijski poligon je izlomljena linija koja povezuje tačke ( x i; n i), i=1, 2,…, m, Gdje m X.

Predstavimo poligon frekvencija varijacionog niza (slika 1).

Fig.1. Frekvencijski poligon

Kumulativna kriva (kumulacija) za diskretnu seriju varijacija predstavlja izlomljenu liniju koja povezuje tačke ( x i; n i nak), i=1, 2,…, m.

Nađimo akumulirane frekvencije n i nak(akumulirana učestalost pokazuje koliko je varijanti uočeno sa manjom karakterističnom vrijednošću X). Pronađene vrijednosti unosimo u treći red tabele 1.



Napravimo kumulat (slika 2).

Fig.2. Kumulira

3) Nađimo relativne frekvencije (frekvencije), gdje , gdje m– broj različitih karakterističnih vrijednosti X, koje ćemo izračunati sa jednakom tačnošću.

Zapišimo distributivnu seriju relativnih frekvencija (frekvencija) u obliku tabele 2

tabela 2

4) Nađimo glavne numeričke karakteristike serije varijacija:

a) Pronađite aritmetičku sredinu koristeći pojednostavljenu formulu:

,

gdje su uslovne opcije

Hajde da stavimo With= 3 (jedna od prosječnih posmatranih vrijednosti), k= 1 (razlika između dvije susjedne opcije) i sastaviti proračunsku tablicu (tabela 3).

Tabela 3.

x i n i u i u i n i u i 2 n i
-3 -12
-2 -26
-1 -14
Suma -11

Zatim aritmetička sredina

b) Medijan Meh varijacijski niz je vrijednost karakteristike koja se nalazi u sredini rangirane serije opažanja. Ova diskretna serija varijacija sadrži paran broj pojmova ( n=80), što znači da je medijana jednaka polovini zbira dvije srednje opcije.

Moda Mo varijacijski niz naziva se opcija koja odgovara najvišoj frekvenciji. Za dati niz varijacija, najveća frekvencija n max = 24 odgovara opciji X= 3, znači moda Mo=3.

c) Varijanca s 2, što je mjera disperzije mogućih vrijednosti indikatora X oko njegove prosječne vrijednosti, nalazimo ga pomoću pojednostavljene formule:

, Gdje u i– uslovne opcije

U tabelu 3 ćemo takođe uključiti međukalkulacije.

Zatim varijansa

d) Standardna devijacija s nalazimo ga pomoću formule:

.

e) Koeficijent varijacije V: (),

Koeficijent varijacije je nemjerljiva veličina, pa je pogodan za poređenje disperzije varijacionih serija čije varijante imaju različite dimenzije.

Koeficijent varijacije

.

5) Smisao dobijenih rezultata je da vrednost karakteriše prosečnu vrednost karakteristike X u okviru razmatranog uzorka, odnosno prosječna vrijednost iznosila je 2,86. Standardna devijacija s opisuje apsolutni raspon vrijednosti indikatora X i u u ovom slučaju iznosi s≈ 1,55. Koeficijent varijacije V karakteriše relativnu varijabilnost indikatora X, odnosno relativno širenje oko njegove prosječne vrijednosti, au ovom slučaju je .

odgovor: ; ; ; .

Zadatak 2.

Dostupni su sljedeći podaci o vlasničkom kapitalu 40 najvećih banaka u centralnoj Rusiji:

12,0 49,4 22,4 39,3 90,5 15,2 75,0 73,0 62,3 25,2
70,4 50,3 72,0 71,6 43,7 68,3 28,3 44,9 86,6 61,0
41,0 70,9 27,3 22,9 88,6 42,5 41,9 55,0 56,9 68,1
120,8 52,4 42,0 119,3 49,6 110,6 54,5 99,3 111,5 26,1

potrebno:

1) Konstruirajte niz intervalnih varijacija.

2) Izračunajte srednju vrijednost uzorka i varijansu uzorka

3) Pronađite standardnu ​​devijaciju i koeficijent varijacije.

4) Konstruisati histogram distribucije frekvencija.

Rješenje.

1) Odaberimo proizvoljan broj intervala, na primjer, 8. Tada je širina intervala:

.

Kreirajmo tabelu proračuna:

opcija intervala, x k –x k +1 frekvencija, n i Sredina intervala x i Uslovna opcija, i ja i i n i i ja 2 n i (i i+ 1) 2 n i
10 – 25 17,5 – 3 – 12
25 – 40 32,5 – 2 – 10
40 – 55 47,5 – 1 – 11
55 – 70 62,5
70 – 85 77,5
85 – 100 92,5
100 – 115 107,5
115 – 130 122,5
Suma – 5

Vrijednost odabrana kao lažna nula je c= 62.5 (ova opcija se nalazi otprilike u sredini serije varijacija) .

Uvjetne opcije određuju se formulom

Varijacijski nizovi: definicija, tipovi, glavne karakteristike. Metoda kalkulacije
mod, medijan, aritmetička sredina u medicinskim i statističkim istraživanjima
(prikaži sa uslovnim primerom).

Varijacijska serija je niz numeričkih vrijednosti karakteristike koja se proučava, koje se međusobno razlikuju po veličini i raspoređene u određenom nizu (uzlaznim ili silaznim redoslijedom). Svaka numerička vrijednost serije naziva se varijanta (V), a brojevi koji pokazuju koliko se često određena varijanta pojavljuje u datoj seriji nazivaju se frekvencijom (p).

Ukupan broj slučajeva posmatranja koji čine niz varijacija označen je slovom n. Razlika u značenju karakteristika koje se proučavaju naziva se varijacija. Ako varijabilna karakteristika nema kvantitativnu mjeru, varijacija se naziva kvalitativnom, a serija distribucije naziva se atributivnom (na primjer, distribucija prema ishodu bolesti, zdravstvenom statusu, itd.).

Ako promjenljiva karakteristika ima kvantitativni izraz, takva varijacija se naziva kvantitativna, a serija distribucije naziva se varijantna.

Varijacijski nizovi se dijele na diskontinuirane i kontinuirane - na osnovu prirode kvantitativne karakteristike; jednostavne i ponderisane - na osnovu učestalosti pojavljivanja varijante.

U jednostavnoj seriji varijacija, svaka opcija se pojavljuje samo jednom (p=1), u ponderiranoj seriji, ista opcija se pojavljuje nekoliko puta (p>1). O primjerima takvih serija će biti riječi dalje u tekstu. Ako je kvantitativna karakteristika kontinuirana, tj. Između cjelobrojnih veličina postoje srednje frakcijske veličine; varijacijski niz se naziva kontinuiranim.

Na primjer: 10.0 – 11.9

14,0 – 15,9 itd.

Ako je kvantitativna karakteristika diskontinuirana, tj. njegove pojedinačne vrijednosti (varijante) razlikuju se jedna od druge za cijeli broj i nemaju srednje vrijednosti razlomaka; varijacijski niz naziva se diskontinuiranim ili diskretnim.

Koristeći podatke o pulsu iz prethodnog primjera

za 21 učenika konstruisaćemo varijacioni niz (tabela 1).

Tabela 1

Distribucija studenata medicine prema pulsu (bpm)

Dakle, konstruisati varijacioni niz znači dostupno numeričke vrijednosti(opcije) sistematizovati, organizovati, tj. poređati u određenom nizu (uzlaznim ili silaznim) sa odgovarajućim frekvencijama. U primjeru koji se razmatra, opcije su raspoređene u rastućem redoslijedu i izražene kao cjelobrojni diskontinuirani (diskretni) brojevi, svaka opcija se javlja nekoliko puta, tj. imamo posla sa ponderisanim, diskontinuiranim ili diskretnim nizovima varijacija.

U pravilu, ako broj zapažanja u statističkoj populaciji koju proučavamo ne prelazi 30, tada je dovoljno sve vrijednosti karakteristike koja se proučava u rastućem nizu varijacija, kao u tabeli. 1, ili silaznim redoslijedom.

Uz veliki broj zapažanja (n>30), broj varijanti koje se pojavljuju može biti vrlo velik; u ovom slučaju se sastavlja intervalna ili grupirana serija varijacija, u kojoj se radi pojednostavljenja naknadne obrade i pojašnjavanja prirode distribucije, varijante su kombinovane u grupe.

Obično broj grupna opcija kreće se od 8 do 15.

Trebalo bi da ih bude najmanje 5, jer... inače će biti pregrubo, pretjerano uvećanje, što iskrivljuje cjelokupnu sliku varijacije i u velikoj mjeri utiče na tačnost prosječnih vrijednosti. Kada je broj grupnih varijanti veći od 20-25, točnost izračunavanja prosječnih vrijednosti se povećava, ali su karakteristike varijacije karakteristike značajno iskrivljene i matematička obrada postaje složenija.

Prilikom sastavljanja grupisane serije potrebno je voditi računa

− grupe opcija moraju biti raspoređene određenim redoslijedom (uzlazno ili silazno);

− intervali u grupama opcija moraju biti isti;

− vrijednosti granica intervala ne bi trebale da se podudaraju, jer biće nejasno u koje grupe svrstati pojedinačne varijante;

− potrebno je uzeti u obzir kvalitativne karakteristike prikupljenog materijala prilikom postavljanja granica intervala (na primjer, kod proučavanja težine odraslih osoba prihvatljiv je interval od 3-4 kg, a za djecu u prvim mjesecima života ne bi trebalo da prelazi 100 g)

Konstruirajmo grupiranu (intervalnu) seriju koja karakteriše podatke o pulsu (otkucaja u minuti) 55 studenata medicine prije ispita: 64, 66, 60, 62,

64, 68, 70, 66, 70, 68, 62, 68, 70, 72, 60, 70, 74, 62, 70, 72, 72,

64, 70, 72, 76, 76, 68, 70, 58, 76, 74, 76, 76, 82, 76, 72, 76, 74,

79, 78, 74, 78, 74, 78, 74, 74, 78, 76, 78, 76, 80, 80, 80, 78, 78.

Da biste napravili grupiranu seriju potrebno vam je:

1. Odrediti veličinu intervala;

2. Odredite sredinu, početak i kraj grupa varijacionog niza.

● Veličina intervala (i) određena je brojem pretpostavljenih grupa (r), čiji se broj određuje u zavisnosti od broja posmatranja (n) prema posebnoj tabeli

Broj grupa u zavisnosti od broja posmatranja:

U našem slučaju za 55 učenika možete kreirati od 8 do 10 grupa.

Vrijednost intervala (i) određena je sljedećom formulom -

i = V max-V min/r

U našem primjeru, vrijednost intervala je 82-58/8= 3.

Ako je vrijednost intervala razlomak broj, rezultat treba zaokružiti na cijeli broj.

Postoji nekoliko vrsta prosjeka:

● aritmetička sredina,

geometrijska sredina,

● harmonska sredina,

● srednji kvadrat,

● prosječna progresivna,

● medijana

U medicinskoj statistici najčešće se koriste aritmetički prosjeci.

Aritmetička sredina (M) je generalizirajuća vrijednost koja određuje šta je tipično za cijelu populaciju. Glavne metode za izračunavanje M su: metoda aritmetičke sredine i metoda momenata (uslovna odstupanja).

Metoda aritmetičke sredine se koristi za izračunavanje proste aritmetičke sredine i ponderisane aritmetičke sredine. Izbor metode za izračunavanje aritmetičke sredine zavisi od vrste varijacione serije. U slučaju jednostavne serije varijacija, u kojoj se svaka opcija javlja samo jednom, aritmetička sredina jednostavna se određuje formulom:

gdje je: M – srednja aritmetička vrijednost;

V – vrijednost varijabilne karakteristike (varijante);

Σ – označava radnju – zbrajanje;

n – ukupan broj zapažanja.

Primjer izračunavanja jednostavnog aritmetičkog prosjeka. Brzina disanja (broj disajnih pokreta u minuti) kod 9 muškaraca starosti 35 godina: 20, 22, 19, 15, 16, 21, 17, 23, 18.

Za određivanje prosječnog nivoa respiratorne frekvencije kod muškaraca starosti 35 godina potrebno je:

1. Konstruirajte varijacioni niz, raspoređujući sve opcije u rastućem ili opadajućem redosledu. Dobili smo jednostavan varijacioni niz, jer vrijednosti opcija se javljaju samo jednom.

M = ∑V/n = 171/9 = 19 udisaja u minuti

Zaključak. Brzina disanja kod muškaraca starosti 35 godina je u prosjeku 19 respiratornih pokreta u minuti.

Ako se pojedinačne vrijednosti varijante ponavljaju, nije potrebno svaku varijantu zapisivati ​​u red, dovoljno je navesti veličine varijante (V) koje se pojavljuju i pored toga navesti broj njihovih ponavljanja (p ). Takva serija varijacija, u kojoj su opcije takoreći odmjerene brojem frekvencija koje im odgovaraju, naziva se ponderirani varijacioni niz, a izračunata srednja vrijednost je ponderirana aritmetička sredina.

Ponderisana aritmetička sredina određena je formulom: M= ∑Vp/n

gdje je n broj opservacija jednak zbiru frekvencija – Σr.

Primjer izračunavanja aritmetičkog ponderiranog prosjeka.

Trajanje invaliditeta (u danima) kod 35 pacijenata sa akutnim respiratornim oboljenjima (ARI) liječenih kod lokalnog ljekara tokom prvog kvartala tekuće godine iznosilo je: 6, 7, 5, 3, 9, 8, 7, 5, 6 , 4, 9, 8, 7, 6, 6, 9, 6, 5, 10, 8, 7, 11, 13, 5, 6, 7, 12, 4, 3, 5, 2, 5, 6, 6 , 7 dana .

Metoda za određivanje prosječnog trajanja invaliditeta kod pacijenata sa akutnim respiratornim infekcijama je sljedeća:

1. Hajde da konstruišemo ponderisani varijacioni niz, jer Pojedinačne vrijednosti opcije se ponavljaju nekoliko puta. Da biste to učinili, možete rasporediti sve opcije u rastućem ili opadajućem redoslijedu s njihovim odgovarajućim frekvencijama.

U našem slučaju, opcije su raspoređene u rastućem redoslijedu

2. Izračunajte aritmetički ponderisani prosek koristeći formulu: M = ∑Vp/n = 233/35 = 6,7 dana

Distribucija pacijenata sa akutnim respiratornim infekcijama prema trajanju invaliditeta:

Trajanje invalidnosti (V) Broj pacijenata (p) Vp
∑p = n = 35 ∑Vp = 233

Zaključak. Trajanje invaliditeta kod pacijenata sa akutnim respiratornim oboljenjima u prosjeku je 6,7 dana.

Mod (Mo) je najčešća opcija u seriji varijacija. Za distribuciju predstavljenu u tabeli, način odgovara opciji jednakoj 10; javlja se češće od ostalih - 6 puta.

Distribucija pacijenata prema dužini boravka u bolničkom krevetu (u danima)

V
str

Ponekad je teško odrediti tačnu veličinu modusa jer može postojati nekoliko „najčešćih“ zapažanja u podacima koji se proučavaju.

Medijan (Me) je neparametarski indikator koji dijeli niz varijacija na dvije jednake polovine: isti broj varijanti nalazi se na obje strane medijane.

Na primjer, za distribuciju prikazanu u tabeli, medijan je 10, jer sa obe strane ove vrednosti nalazi se 14 opcija, tj. broj 10 zauzima centralnu poziciju u ovom nizu i njegov je medijan.

S obzirom da je broj zapažanja u ovom primjeru paran (n=34), medijan se može odrediti na sljedeći način:

Ja = 2+3+4+5+6+5+4+3+2/2 = 34/2 = 17

To znači da sredina serije pada na sedamnaestu opciju, što odgovara medijani jednakoj 10. Za distribuciju prikazanu u tabeli, aritmetička sredina je jednaka:

M = ∑Vp/n = 334/34 = 10.1

Dakle, za 34 zapažanja iz tabele. 8, dobili smo: Mo=10, Me=10, aritmetička sredina (M) je 10,1. U našem primjeru ispostavilo se da su sva tri indikatora jednaka ili bliska jedan drugom, iako su potpuno različiti.

Aritmetička sredina je rezultujući zbir svih uticaja, u njegovom formiranju učestvuju sve opcije bez izuzetka, uključujući i one ekstremne, često netipične za datu pojavu ili populaciju.

Mod i medijan, za razliku od aritmetičke sredine, ne ovise o vrijednosti svih pojedinačnih vrijednosti varijabilne karakteristike (vrijednosti ekstremnih varijanti i stepena disperzije serije). Aritmetička sredina karakterizira cjelokupnu masu opažanja, mod i medijan karakteriziraju većinu

Posebno mjesto u statističkoj analizi pripada određivanju prosječnog nivoa karakteristike ili pojave koja se proučava. Prosječan nivo osobina se mjeri prosječnim vrijednostima.

Prosječna vrijednost karakteriše opšti kvantitativni nivo karakteristike koja se proučava i predstavlja grupno svojstvo statističke populacije. On izravnava, slabi nasumična odstupanja pojedinačnih zapažanja u jednom ili drugom smjeru i ističe glavno, tipično svojstvo karakteristike koja se proučava.

Prosjeci se široko koriste:

1. Procijeniti zdravstveno stanje stanovništva: karakteristike fizičkog razvoja (visina, težina, obim grudnog koša itd.), utvrđivanje prevalencije i trajanja različitih bolesti, analiziranje demografskih pokazatelja (vitalno kretanje stanovništva, prosječan životni vijek, reprodukcija stanovništva, prosječna populacija i sl.).

2. Proučavanje aktivnosti medicinskih ustanova, medicinsko osoblje i procjenu kvaliteta njihovog rada, planiranje i utvrđivanje potreba stanovništva za različitim vidovima medicinske zaštite (prosječan broj zahtjeva ili posjeta po stanovniku godišnje, prosječna dužina boravka pacijenta u bolnici, prosječno trajanje pregleda pacijenta , prosječna opremljenost ljekarima, krevetima i sl.).

3. Okarakterisati sanitarno-epidemiološko stanje (prosečan sadržaj prašine u vazduhu u radionici, prosječna površina po osobi, prosječna potrošnja proteina, masti i ugljikohidrata itd.).

4. Određivanje medicinskih i fizioloških pokazatelja u normalnim i patološkim stanjima, prilikom obrade laboratorijskih podataka, utvrđivanje pouzdanosti rezultata uzorka u socijalnim, higijenskim, kliničkim i eksperimentalnim studijama.

Izračunavanje prosječnih vrijednosti vrši se na osnovu varijacionih serija. Varijacijska serija je kvalitativno homogena statistička populacija, čije pojedinačne jedinice karakterišu kvantitativne razlike karakteristike ili fenomena koji se proučava.

Kvantitativna varijacija može biti dva tipa: diskontinuirana (diskretna) i kontinuirana.

Diskontinuirani (diskretni) atribut se izražava samo kao cijeli broj i ne može imati nikakve međuvrijednosti (na primjer, broj posjeta, stanovništvo stranice, broj djece u porodici, težina bolesti u bodovima , itd.).

Neprekidni znak može poprimiti bilo koje vrijednosti u određenim granicama, uključujući i frakcijske, i izražava se samo približno (na primjer, težina - za odrasle može biti ograničena na kilograme, a za novorođenčad - na grame; visina, krvni tlak, vrijeme proveo u pregledu pacijenta i sl.).



Digitalna vrijednost svake pojedinačne karakteristike ili pojave uključene u seriju varijacija naziva se varijanta i označava se slovom V . U matematičkoj literaturi se, na primjer, nalaze i druge oznake x ili y.

Serija varijacija, u kojoj je svaka opcija naznačena jednom, naziva se jednostavna. Takve serije se koriste u većini statističkih problema u slučaju kompjuterske obrade podataka.

Kako se broj zapažanja povećava, pojavljuju se ponavljajuće vrijednosti varijanti. U ovom slučaju se kreira grupisane serije varijacija, gdje je označen broj ponavljanja (učestalost, označena slovom “ R »).

Serija rangiranih varijacija sastoji se od opcija raspoređenih u rastućem ili opadajućem redoslijedu. I jednostavne i grupisane serije mogu se sastaviti sa rangiranjem.

Serija intervalnih varijacija sastavljen u cilju pojednostavljivanja naknadnih proračuna izvedenih bez upotrebe računara, sa veoma velikim brojem jedinica posmatranja (više od 1000).

Kontinuirana serija varijacija uključuje vrijednosti opcija, koje mogu biti bilo koje vrijednosti.

Ako su u nizu varijacija vrijednosti karakteristike (varijante) date u obliku pojedinačnih specifičnih brojeva, tada se takav niz naziva diskretno.

Opće karakteristike vrijednosti karakteristike koje se odražavaju u nizu varijacija su prosječne vrijednosti. Među njima se najčešće koriste: aritmetička sredina M, moda Mo i medijana Ja. Svaka od ovih karakteristika je jedinstvena. One se međusobno ne mogu zamijeniti i samo zajedno predstavljaju karakteristike varijantnog niza sasvim u potpunosti i u sažetom obliku.

Moda (Mo) navedite vrijednost opcija koje se najčešće pojavljuju.

Medijan (ja) – ovo je vrijednost opcije koja rangirani niz varijacija dijeli na pola (na svakoj strani medijane nalazi se polovina opcije). U rijetkim slučajevima, kada postoji simetrična varijantna serija, mod i medijan su međusobno jednaki i poklapaju se sa vrijednošću aritmetičke sredine.

Najtipičnija karakteristika vrijednosti opcija je aritmetička sredina vrijednost( M ). U matematičkoj literaturi se označava .

Aritmetička sredina (M, ) je opšta kvantitativna karakteristika određene karakteristike fenomena koji se proučava, čineći kvalitativno homogenu statističku populaciju. Postoje jednostavne i ponderisane aritmetičke sredine. Jednostavna aritmetička sredina izračunava se za jednostavnu seriju varijacija tako što se zbroje sve opcije i podijeli ovaj zbir s ukupnim brojem opcija uključenih u ovu seriju varijacija. Izračuni se vrše prema formuli:

gdje: M - prosta aritmetička sredina;

Σ V - opcija iznosa;

n- broj zapažanja.

U grupisanom nizu varijacija utvrđuje se ponderisana aritmetička sredina. Formula za njegovo izračunavanje:

gdje: M - aritmetički ponderisani prosek;

Σ Vp - zbir proizvoda varijante po njihovim frekvencijama;

n- broj zapažanja.

Uz veliki broj zapažanja, u slučaju ručnih proračuna, može se koristiti metoda momenata.

Aritmetička sredina ima sledeća svojstva:

· zbir odstupanja od prosjeka ( Σ d ) jednak je nuli (vidi tabelu 15);

· pri množenju (dijeljenju) svih opcija sa istim faktorom (djeliteljem), aritmetička sredina se množi (dijeli) istim faktorom (djeliteljem);

· ako svim opcijama dodate (oduzmete) isti broj, aritmetička sredina se povećava (smanjuje) za isti broj.

Aritmetički prosjeci, uzeti sami po sebi, bez uzimanja u obzir varijabilnosti serije iz koje su izračunati, možda neće u potpunosti odražavati svojstva varijacione serije, posebno kada je potrebno poređenje sa drugim prosjecima. Prosjeci koji su bliski po vrijednosti mogu se dobiti iz serija s različitim stupnjevima raspršenja. Što su pojedinačne opcije bliže jedna drugoj u smislu svojih kvantitativnih karakteristika, to je manje disperzija (oscilacija, varijabilnost) serije, tipičniji je njen prosek.

Glavni parametri koji nam omogućavaju da procijenimo varijabilnost osobine su:

· Obim;

· Amplituda;

· Standardna devijacija;

· Koeficijent varijacije.

Varijabilnost osobine može se približno ocijeniti rasponom i amplitudom serije varijacija. Raspon označava maksimalnu (V max) i minimalnu (V min) opcije u seriji. Amplituda (A m) je razlika između ovih opcija: A m = V max - V min.

Glavna, općeprihvaćena mjera varijabilnosti varijacione serije je disperzija (D ). Ali najčešće se koristi pogodniji parametar izračunat na osnovu disperzije - standardna devijacija ( σ ). Uzima u obzir veličinu odstupanja ( d ) svake serije varijacija iz njene aritmetičke sredine ( d=V - M ).

Budući da odstupanja od prosjeka mogu biti pozitivna i negativna, kada se saberu daju vrijednost “0” (S d=0). Da bi se to izbjeglo, vrijednosti odstupanja ( d) se podižu na drugi stepen i prosječuju. Dakle, disperzija niza varijacija je srednji kvadrat odstupanja varijante od aritmetičke sredine i izračunava se po formuli:

To je najvažnija karakteristika varijabilnosti i koristi se za izračunavanje mnogih statističkih kriterijuma.

Budući da se disperzija izražava kao kvadrat odstupanja, njena vrijednost se ne može koristiti u poređenju sa aritmetičkom sredinom. U te svrhe se koristi standardna devijacija, koji je označen znakom "Sigma" ( σ ). Karakterizira prosječno odstupanje svih varijanti varijacionog niza od srednje aritmetičke vrijednosti u istim jedinicama kao i sama prosječna vrijednost, tako da se mogu koristiti zajedno.

Standardna devijacija se određuje formulom:

Navedena formula se primjenjuje kada se broj zapažanja ( n ) više od 30. Sa manjim brojem n vrijednost standardne devijacije će imati grešku povezanu s matematičkim pomakom ( n - 1). S tim u vezi, točniji rezultat može se dobiti uzimanjem u obzir takve pristranosti u formuli za izračunavanje standardne devijacije:

standardna devijacija (s ) je procjena standardne devijacije slučajne varijable X u vezi nje matematičko očekivanje na osnovu nepristrasne procjene njegove varijanse.

Sa vrijednostima n > 30 standardne devijacije ( σ ) i standardna devijacija ( s ) bit će isti ( σ =s ). Stoga, u većini praktična pomagala smatra se da ovi kriterijumi imaju različita značenja. U Excelu se standardna devijacija može izračunati pomoću funkcije =STDEV(opseg). A da biste izračunali standardnu ​​devijaciju, morate kreirati odgovarajuću formulu.

Srednji kvadrat ili standardna devijacija vam omogućavaju da odredite koliko se vrijednosti neke karakteristike mogu razlikovati od prosječne vrijednosti. Pretpostavimo da postoje dva grada sa istom prosječnom dnevnom temperaturom ljeti. Jedan od ovih gradova nalazi se na obali, a drugi na kontinentu. Poznato je da su u gradovima koji se nalaze na obali, razlike u dnevnim temperaturama manje nego u gradovima koji se nalaze u unutrašnjosti. Stoga će standardna devijacija dnevnih temperatura za primorski grad biti manja nego za drugi grad. U praksi to znači da će se prosječna temperatura zraka svakog određenog dana u gradu koji se nalazi na kontinentu više razlikovati od prosjeka nego u gradu na obali. Osim toga, standardna devijacija omogućava procjenu mogućih temperaturnih odstupanja od prosjeka sa potrebnim nivoom vjerovatnoće.

Prema teoriji vjerovatnoće, u pojavama koje se pridržavaju zakona normalne distribucije, postoji stroga veza između vrijednosti aritmetičke sredine, standardne devijacije i opcija ( tri sigma pravilo). Na primjer, 68,3% vrijednosti različite karakteristike je unutar M ± 1 σ , 95,5% - unutar M ± 2 σ i 99,7% - unutar M ± 3 σ .

Vrijednost standardne devijacije nam omogućava da prosudimo prirodu homogenosti serije varijacija i studijske grupe. Ako je vrijednost standardne devijacije mala, onda to ukazuje na prilično visoku homogenost fenomena koji se proučava. Aritmetičku sredinu u ovom slučaju treba smatrati prilično karakterističnom za dati niz varijacija. Međutim, premala sigma vrijednost navodi na razmišljanje o vještačkom odabiru zapažanja. Uz vrlo veliku sigmu, aritmetička sredina u manjoj mjeri karakterizira varijacijski niz, što ukazuje na značajnu varijabilnost karakteristike ili fenomena koji se proučava ili heterogenost grupe koja se proučava. Međutim, poređenje vrijednosti standardne devijacije moguće je samo za karakteristike iste dimenzije. Zaista, ako uporedimo raznolikost težine novorođene djece i odraslih, uvijek ćemo dobiti veće sigma vrijednosti kod odraslih.

Poređenje varijabilnosti karakteristika različitih dimenzija može se izvršiti pomoću koeficijent varijacije. Izražava različitost kao postotak srednje vrijednosti, omogućavajući poređenje između različitih osobina. Koeficijent varijacije u medicinska literatura označen je znakom " WITH ", i u matematici" v"i izračunava se po formuli:

Vrijednosti koeficijenta varijacije manje od 10% ukazuju na malo rasipanje, od 10 do 20% - oko prosjeka, više od 20% - na jako rasipanje oko aritmetičke sredine.

Aritmetička sredina se obično izračunava na osnovu podataka iz populacije uzorka. Uz ponovljene studije, pod uticajem slučajnih pojava, aritmetička sredina se može promeniti. To je zbog činjenice da se, po pravilu, proučava samo dio mogućih jedinica posmatranja, odnosno populacija uzorka. Podaci o svim mogućim jedinicama koje predstavljaju fenomen koji se proučava mogu se dobiti proučavanjem cjelokupne populacije, što nije uvijek moguće. Istovremeno, za potrebe generalizacije eksperimentalnih podataka, od interesa je vrijednost prosjeka u opštoj populaciji. Stoga, formulisati opšti zaključak o fenomenu koji se proučava, rezultati dobijeni na osnovu populacije uzorka moraju se prenijeti na opštu populaciju pomoću statističkih metoda.

Da bi se odredio stepen slaganja između studije uzorka i opšte populacije, potrebno je procijeniti veličinu greške koja neizbježno nastaje tokom posmatranja uzorka. Ova greška se zove " Greška reprezentativnosti"ili "Prosječna greška aritmetičke sredine." To je zapravo razlika između prosjeka dobijenih iz uzorka statističko posmatranje, te slične vrijednosti koje bi se dobile tokom kontinuiranog proučavanja istog objekta, tj. prilikom proučavanja opšte populacije. Budući da je srednja vrijednost uzorka slučajna varijabla, takva prognoza se izvodi sa nivoom vjerovatnoće prihvatljivim za istraživača. U medicinskim istraživanjima iznosi najmanje 95%.

Greška reprezentativnosti se ne može brkati sa greškama u registraciji ili greškama pažnje (promašaji, pogrešni proračuni, greške u kucanju, itd.), koje treba minimizirati adekvatnim metodama i alatima koji se koriste tokom eksperimenta.

Veličina greške reprezentativnosti zavisi i od veličine uzorka i od varijabilnosti osobine. Kako veći broj posmatranja, što je uzorak bliži populaciji i manja je greška. Što je predznak varijabilniji, to je veća statistička greška.

U praksi, za određivanje greške reprezentativnosti u nizu varijacija, koristi se sljedeća formula:

gdje: m – greška reprezentativnosti;

σ - standardna devijacija;

n– broj opservacija u uzorku.

Formula pokazuje da je veličina prosječne greške direktno proporcionalna standardnoj devijaciji, odnosno varijabilnosti karakteristike koja se proučava, i obrnuto proporcionalna kvadratnom korijenu broja opažanja.

Radeći Statistička analiza Na osnovu izračunavanja relativnih vrijednosti, izgradnja varijacionog niza nije potrebna. U ovom slučaju, određivanje prosječne greške za relativne pokazatelje može se izvršiti korištenjem pojednostavljene formule:

gdje: R– vrijednost relativnog indikatora, izražena u procentima, ppm, itd.;

q– recipročan P i izražen kao (1-P), (100-P), (1000-P) itd., u zavisnosti od osnove na kojoj se indikator izračunava;

n– broj opservacija u populaciji uzorka.

Međutim, navedena formula za izračunavanje greške reprezentativnosti za relativne vrijednosti može se primijeniti samo kada je vrijednost indikatora manja od njegove osnove. U jednom broju slučajeva izračunavanja intenzivnih indikatora ovaj uslov nije ispunjen, te se indikator može izraziti kao broj veći od 100% ili 1000%. U takvoj situaciji se konstruiše varijacioni niz i izračunava se greška reprezentativnosti pomoću formule za prosečne vrednosti na osnovu standardne devijacije.

Predviđanje vrijednosti aritmetičke sredine u populaciji vrši se navođenjem dvije vrijednosti – minimalne i maksimalne. Ove ekstremne vrijednosti mogućih odstupanja, unutar kojih može fluktuirati željena prosječna vrijednost populacije, nazivaju se „ Granice povjerenja».

Postulati teorije vjerovatnoće su dokazali da uz normalnu distribuciju karakteristike sa vjerovatnoćom od 99,7%, ekstremne vrijednosti odstupanja prosjeka neće biti veće od vrijednosti trostruke greške reprezentativnosti ( M ± 3 m ); u 95,5% – ne više od dvostruke prosječne greške prosječne vrijednosti ( M ± 2 m ); u 68,3% – ne više od jedne prosečne greške ( M ± 1 m ) (Sl. 9).

P%

Rice. 9. Gustoća vjerovatnoće normalne distribucije.

Imajte na umu da je gornja izjava tačna samo za osobinu koja se pridržava normalnog Gaussovog zakona raspodjele.

Većina eksperimentalno istraživanje, uključujući i područje medicine, povezana je s mjerenjima, čiji rezultati mogu uzeti gotovo bilo koju vrijednost u datom intervalu, pa se po pravilu opisuju modelom kontinuiranih slučajnih varijabli. U tom smislu, većina statističkih metoda razmatra kontinuirane distribucije. Jedna od ovih distribucija, koja ima osnovnu ulogu u matematičke statistike, je normalna ili Gausova distribucija.

To je zbog brojnih razloga.

1. Prije svega, mnoga eksperimentalna opažanja mogu se uspješno opisati korištenjem normalne distribucije. Odmah treba napomenuti da ne postoje distribucije empirijskih podataka koje bi bile sasvim normalne, budući da je normalno raspoređena slučajna vrijednost je u rasponu od do , što se nikada ne dešava u praksi. Međutim, normalna raspodjela vrlo često dobro funkcionira kao aproksimacija.

Bilo da se provode mjerenja težine, visine i drugih fizioloških parametara ljudskog tijela - svugdje na rezultate uveliko utiče veliki broj slučajni faktori (prirodni uzroci i greške mjerenja). Štaviše, po pravilu, efekat svakog od ovih faktora je beznačajan. Iskustvo pokazuje da će rezultati u takvim slučajevima biti približno normalno raspoređeni.

2. Mnoge distribucije povezane sa slučajnim uzorkovanjem postaju normalne kako se volumen potonjeg povećava.

3. Normalna distribucija je dobra aproksimacija za druge kontinuirane distribucije(na primjer, asimetrična).

4. Normalna distribucija ima niz povoljnih matematičkih svojstava, koja u velikoj mjeri osiguravaju njenu široku upotrebu u statistici.

Istovremeno, treba napomenuti da u medicinskim podacima postoje mnoge eksperimentalne distribucije koje se ne mogu opisati normalnim modelom distribucije. U tu svrhu, statistika je razvila metode koje se obično nazivaju “neparametrijski”.

Izbor statističke metode koja je pogodna za obradu podataka iz određenog eksperimenta treba vršiti u zavisnosti od toga da li dobijeni podaci pripadaju normalnom zakonu distribucije. Testiranje hipoteze o podređenosti znaka zakonu normalne distribucije vrši se korištenjem histograma (grafa) raspodjele frekvencije, kao i niza statističkih kriterija. Među njima:

Kriterijum asimetrije ( b );

Kriterijum za testiranje kurtoze ( g );

Shapiro-Wilksov test ( W ) .

Za svaki parametar se vrši analiza prirode distribucije podataka (koja se naziva i test za normalnost distribucije). Za pouzdanu procjenu da li raspodjela parametra odgovara normalnom zakonu, potreban je dovoljno veliki broj jedinica promatranja (najmanje 30 vrijednosti).

Za normalnu distribuciju, kriterijumi nagnutosti i ekscesa uzimaju vrijednost 0. Ako je distribucija pomaknuta udesno b > 0 (pozitivna asimetrija), sa b < 0 - график распределения смещен влево (отрицательная асимметрия). Критерий асимметрии проверяет форму кривой распределения. В случае нормального закона g =0. At g > 0 kriva distribucije je oštrija ako g < 0 пик более сглаженный, чем функция нормального распределения.

Za provjeru normalnosti koristeći Shapiro-Wilksov kriterij, potrebno je pronaći vrijednost ovog kriterija pomoću statističkih tabela na traženom nivou značajnosti iu zavisnosti od broja jedinica posmatranja (stepena slobode). Dodatak 1. Hipoteza normalnosti se odbacuje pri malim vrijednostima ovog kriterija, po pravilu, pri w <0,8.

mob_info