Primjer analize regresijskog modela. Regresiona analiza u Microsoft Excel-u. Matematička definicija regresije

Glavna svrha regresione analize sastoji se u određivanju analitičkog oblika komunikacije u kojem je promjena efektivne karakteristike posljedica utjecaja jedne ili više faktorskih karakteristika, a skup svih ostalih faktora koji također utiču na efektivnu karakteristiku uzimaju se kao konstantne i prosječne vrijednosti.
Problemi regresijske analize:
a) Utvrđivanje oblika zavisnosti. U pogledu prirode i oblika odnosa među pojavama, pravi se razlika između pozitivne linearne i nelinearne i negativne linearne i nelinearne regresije.
b) Određivanje funkcije regresije u obliku matematičke jednačine ove ili one vrste i utvrđivanje uticaja eksplanatornih varijabli na zavisnu varijablu.
c) Procjena nepoznatih vrijednosti zavisne varijable. Koristeći funkciju regresije, možete reproducirati vrijednosti zavisne varijable unutar intervala specificiranih vrijednosti varijabli objašnjenja (tj. riješiti problem interpolacije) ili procijeniti tok procesa izvan specificirani interval(tj. riješiti problem ekstrapolacije). Rezultat je procjena vrijednosti zavisne varijable.

Uparena regresija je jednačina za odnos između dvije varijable y i x: y=f(x), gdje je y zavisna varijabla (rezultativni atribut); x je nezavisna eksplanatorna varijabla (faktor karakteristika).

Postoje linearne i nelinearne regresije.
Linearna regresija: y = a + bx + ε
Nelinearne regresije se dijele u dvije klase: regresije koje su nelinearne u odnosu na objašnjavajuće varijable uključene u analizu, ali linearne u odnosu na procijenjene parametre, i regresije koje su nelinearne u odnosu na procijenjene parametre.
Regresije koje su nelinearne u eksplanatornim varijablama:

Regresije koje su nelinearne u odnosu na parametre koji se procjenjuju:

  • snaga y=a x b ε
  • eksponencijalna y=a b x ε
  • eksponencijalna y=e a+b x ε
Izrada regresione jednadžbe se svodi na procjenu njenih parametara. Za procjenu parametara regresije linearnih u parametrima, koristite metodu najmanjih kvadrata(MNC). Metoda najmanjih kvadrata omogućava da se dobiju takve procjene parametara kod kojih je zbir kvadrata odstupanja stvarnih vrijednosti efektivne karakteristike y od teorijske y x minimalan, tj.
.
Za linearne i nelinearne linearne jednačine, svedeno na linearno, sljedeći sistem je riješen u odnosu na a i b:

Možete koristiti gotove formule koje slijede iz ovog sistema:

Bliskost odnosa između fenomena koji se proučavaju procjenjuje se koeficijentom linearne parove korelacije r xy za linearnu regresiju (-1≤r xy ≤1):

i indeks korelacije p xy - za nelinearnu regresiju (0≤p xy ≤1):

Kvalitet izgrađenog modela će se ocjenjivati ​​koeficijentom (indeksom) determiniranosti, kao i prosječnom greškom aproksimacije.
Prosječna greška aproksimacije - prosječno odstupanje izračunatih vrijednosti od stvarnih:
.
Dozvoljena granica A vrijednosti nije veća od 8-10%.
Prosječni koeficijent elastičnosti E pokazuje za koji će se postotak u prosjeku rezultat y promijeniti od svoje prosječne vrijednosti kada se faktor x promijeni za 1% od svoje prosječne vrijednosti:
.

Svrha analize varijanse je analiza varijanse zavisne varijable:
∑(y-y )²=∑(y x -y)²+∑(y-y x)²
gdje je ∑(y-y)² - ukupan iznos kvadratna odstupanja;
∑(y x -y)² - zbir kvadrata odstupanja zbog regresije („objašnjeno“ ili „faktorsko“);
∑(y-y x)² - rezidualni zbir kvadrata odstupanja.
Udio varijanse objašnjen regresijom u ukupnoj varijansi rezultantne karakteristike y karakterizira koeficijent (indeks) determinacije R2:

Koeficijent determinacije je kvadrat koeficijenta ili indeksa korelacije.

F-test - procjena kvaliteta jednačine regresije - sastoji se od testiranja hipoteze br o statističkoj beznačajnosti regresione jednačine i indikatora bliskosti veze. Da bi se to postiglo, pravi se poređenje između stvarne F činjenice i kritične (tabelarne) vrijednosti F tablice Fišerova F-kriterija. F činjenica se određuje iz omjera vrijednosti faktora i rezidualnih varijansi izračunatih po stepenu slobode:
,
gdje je n broj jedinica stanovništva; m je broj parametara za varijable x.
F tabela je maksimalna moguća vrijednost kriterijuma pod uticajem slučajnih faktora na datim stepenima slobode i nivou značajnosti a. Nivo značajnosti a je vjerovatnoća odbacivanja tačne hipoteze, pod uslovom da je tačna. Obično se a uzima jednako 0,05 ili 0,01.
Ako je F tabela< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >Činjenica je da se hipoteza H o ne odbacuje i priznaje se statistička beznačajnost i nepouzdanost jednačine regresije.
Za procjenu statističke značajnosti koeficijenata regresije i korelacije, izračunava se Studentov t-test i intervali povjerenja za svaki indikator. Postavlja se hipoteza o slučajnoj prirodi indikatora, tj. o njihovoj neznatnoj razlici od nule. Procjena značajnosti koeficijenata regresije i korelacije pomoću Studentovog t-testa vrši se poređenjem njihovih vrijednosti sa veličinom slučajne greške:
; ; .
Slučajne greške parametara linearne regresije i koeficijenta korelacije određuju se formulama:



Upoređujući stvarne i kritične (tabelarne) vrijednosti t-statistike - t tablice i t činjenice - prihvatamo ili odbacujemo hipotezu H o.
Odnos između Fišerovog F-testa i Studentove t-statistike izražava se jednakošću

Ako t tabela< t факт то H o отклоняется, т.е. a , b и r xy не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >Činjenica je da se hipoteza H o ne odbacuje i da se prepoznaje slučajna priroda formiranja a, b ili r xy.
Da bismo izračunali interval pouzdanosti, određujemo maksimalnu grešku D za svaki indikator:
Δ a =t tabela m a , Δ b =t tabela m b .
Formule za izračunavanje intervala povjerenja su sljedeće:
γ a =aΔ a ; γ a =a-Δ a ; γ a =a+Δa
γ b =bΔ b ; γ b =b-Δ b ; γ b =b+Δ b
Ako nula spada u interval pouzdanosti, tj. Ako je donja granica negativna, a gornja pozitivna, tada se procijenjeni parametar uzima kao nula, jer ne može istovremeno uzimati i pozitivne i negativne vrijednosti.
Predviđena vrijednost y p određuje se zamjenom odgovarajuće (prognozirane) vrijednosti x p u regresionu jednačinu y x =a+b·x. Prosječna standardna greška prognoze m y x izračunava se:
,
Gdje
i konstruiše se interval pouzdanosti za prognozu:
γ y x =y p Δ y p ; γ y x min=y p -Δ y p ; γ y x max=y p +Δ y p
gdje je Δ y x =t tabela m y x .

Primjer rješenja

Zadatak br. 1. Za sedam teritorija Uralskog regiona 199X godine poznate su vrijednosti dvije karakteristike.
Tabela 1.

Obavezno: 1. Da biste okarakterizirali ovisnost y od x, izračunajte parametre sljedećih funkcija:
a) linearni;
b) snaga (najprije morate izvršiti proceduru linearizacije varijabli uzimajući logaritam oba dijela);
c) demonstrativna;
d) jednakostranična hiperbola (također morate smisliti kako unaprijed linearizirati ovaj model).
2. Procijenite svaki model kroz prosječnu grešku aproksimacije A i Fišerov F test.

Rješenje (opcija br. 1)

Za izračunavanje parametara a i b linearne regresije y=a+b·x (izračun se može izvršiti pomoću kalkulatora).
riješiti sistem normalnih jednačina za A I b:
Koristeći početne podatke, izračunavamo ∑y, ∑x, ∑y x, ∑x², ∑y²:
y x yx x 2 y 2 y xy-y xA i
l68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Ukupno405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
sri značenje (Ukupno/n)57,89
y
54,90
x
3166,05
x y
3048,34
3383,68
XX8,1
s 5,74 5,86 XXXXXX
s 232,92 34,34 XXXXXX


a=y -b x = 57,89+0,35 54,9 ≈ 76,88

Regresijska jednadžba: y = 76,88 - 0,35X. Uz povećanje prosječne dnevne plaće za 1 rub. udio rashoda za nabavku prehrambenih proizvoda smanjuje se u prosjeku za 0,35 procentnih poena.
Izračunajmo linearni koeficijent korelacije para:

Veza je umjerena, inverzna.
Odredimo koeficijent determinacije: r² xy =(-0,35)=0,127
Varijacija rezultata od 12,7% objašnjava se varijacijom faktora x. Zamjena stvarnih vrijednosti u jednadžbu regresije X, odredimo teorijske (izračunate) vrijednosti y x . Nađimo vrijednost prosječne greške aproksimacije A:

U prosjeku, izračunate vrijednosti odstupaju od stvarnih za 8,1%.
Izračunajmo F-kriterijum:

Dobijena vrijednost ukazuje na potrebu prihvatanja hipoteze H 0 o slučajnoj prirodi utvrđene zavisnosti i statističkoj beznačajnosti parametara jednačine i indikatora bliskosti veze.
1b. Konstrukciji modela snage y=a·x b prethodi postupak linearizacije varijabli. U primjeru, linearizacija se izvodi uzimanjem logaritama obje strane jednačine:
log y=log a + b log x
Y=C+b·Y
gdje je Y=log(y), X=log(x), C=log(a).

Za proračune koristimo podatke u tabeli. 1.3.
Tabela 1.3

YX YX Y2 X 2 y xy-y x(y-y x)²A i
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Ukupno12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Prosječna vrijednost1,7605 1,7370 3,0572 3,1011 3,0194 XX28,27 8,0
σ 0,0425 0,0484 XXXXXXX
σ 20,0018 0,0023 XXXXXXX

Izračunajmo C i b:

C=Y -b X = 1,7605+0,298 1,7370 = 2,278126
Dobijamo linearnu jednačinu: Y=2,278-0,298 X
Nakon što smo izvršili njegovo potenciranje, dobijamo: y=10 2,278 ·x -0,298
Zamena u zadata jednačina stvarne vrijednosti X, dobijamo teorijske vrijednosti rezultata. Na osnovu njih ćemo izračunati sledeće indikatore: čvrstoću veze - indeks korelacije p xy i prosečnu grešku aproksimacije A.

Performanse modela potencijskog zakona pokazuju da je nešto bolje linearna funkcija opisuje odnos.

1c. Konstrukciji jednadžbe eksponencijalne krive y=a·b x prethodi postupak linearizacije varijabli uzimanjem logaritma obje strane jednačine:
log y=log a + x log b
Y=C+B x
Za proračune koristimo tabelarne podatke.

Yx Yx Y2 x 2y xy-y x(y-y x)²A i
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Ukupno12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
sri zn.1,7605 54,9 96,5711 3,1011 3048,34 XX28,68 8,0
σ 0,0425 5,86 XXXXXXX
σ 20,0018 34,339 XXXXXXX

Vrijednosti regresijskih parametara A i IN iznosio:

A=Y -B x = 1,7605+0,0023 54,9 = 1,887
Dobijena linearna jednačina je: Y=1,887-0,0023x. Potencirajmo rezultirajuću jednačinu i zapišemo je u uobičajenom obliku:
y x =10 1,887 10 -0,0023x = 77,1 0,9947 x
Procijenimo bliskost veze kroz korelacijski indeks p xy:

3588,01 56,9 3,0 9,00 5,0 4 56,7 0,0162 0,9175 0,000262 3214,89 55,5 1,2 1,44 2,1 5 55 0,0170 0,9354 0,000289 3025,00 56,4 -1,4 1,96 2,5 6 54,3 0,0212 1,1504 0,000449 2948,49 60,8 -6,5 42,25 12,0 7 49,3 0,0181 0,8931 0,000328 2430,49 57,5 -8,2 67,24 16,6 Ukupno405,2 0,1291 7,5064 0,002413 23685,76 405,2 0,0 194,90 56,5 Prosječna vrijednost57,9 0,0184 1,0723 0,000345 3383,68 XX27,84 8,1 σ 5,74 0,002145 XXXXXXX σ 232,9476 0,000005 XX

Regresijska i korelaciona analiza su statističke metode istraživanja. Ovo su najčešći načini da se pokaže zavisnost parametra od jedne ili više nezavisnih varijabli.

U nastavku ćemo, koristeći konkretne praktične primjere, razmotriti ove dvije vrlo popularne analize među ekonomistima. Navest ćemo i primjer dobijanja rezultata pri njihovom kombinovanju.

Regresiona analiza u Excelu

Pokazuje uticaj nekih vrednosti (nezavisnih, nezavisnih) na zavisnu varijablu. Na primjer, kako broj ekonomski aktivnog stanovništva zavisi od broja preduzeća, plata i drugih parametara. Ili: kako strane investicije, cijene energije itd. utiču na nivo BDP-a.

Rezultat analize vam omogućava da istaknete prioritete. I na osnovu glavnih faktora predvidjeti i planirati razvoj prioritetne oblasti, donositi upravljačke odluke.

Regresija se dešava:

  • linearni (y = a + bx);
  • parabolični (y = a + bx + cx 2);
  • eksponencijalni (y = a * exp(bx));
  • snaga (y = a*x^b);
  • hiperbolično (y = b/x + a);
  • logaritamski (y = b * 1n(x) + a);
  • eksponencijalni (y = a * b^x).

Pogledajmo primjer izgradnje regresijskog modela u Excelu i interpretacije rezultata. Uzmimo linearni tip regresija.

Zadatak. U 6 preduzeća analizirana je prosječna mjesečna plata i broj zaposlenih koji su otpustili. Potrebno je utvrditi zavisnost broja zaposlenih koji napuštaju rad od prosječne plate.

Model linearne regresije izgleda ovako:

Y = a 0 + a 1 x 1 +…+a k x k.

Gdje su a koeficijenti regresije, x su utjecajne varijable, k je broj faktora.

U našem primjeru, Y je indikator napuštanja zaposlenika. Faktor uticaja su plate (x).

Excel ima ugrađene funkcije koje vam mogu pomoći da izračunate parametre modela linearne regresije. Ali dodatak “Paket analize” će to učiniti brže.

Aktiviramo moćan analitički alat:

Kada se aktivira, dodatak će biti dostupan na kartici Podaci.

Sada uradimo samu regresijsku analizu.



Prije svega, obraćamo pažnju na R-kvadrat i koeficijente.

R-kvadrat je koeficijent determinacije. U našem primjeru – 0,755, odnosno 75,5%. To znači da izračunati parametri modela objašnjavaju 75,5% odnosa između proučavanih parametara. Što je veći koeficijent determinacije, to je model bolji. Dobro - iznad 0,8. Loše – manje od 0,5 (ovakva analiza se teško može smatrati razumnom). U našem primjeru – “nije loše”.

Koeficijent 64.1428 pokazuje koliki će biti Y ako su sve varijable u modelu koji se razmatraju jednake 0. Odnosno, na vrijednost analiziranog parametra utiču i drugi faktori koji nisu opisani u modelu.

Koeficijent -0,16285 pokazuje težinu varijable X na Y. Odnosno, prosječna mjesečna plata u okviru ovog modela utiče na broj onih koji odustaju sa ponderom od -0,16285 (ovo je mali stepen uticaja). Znak “-” ukazuje na negativan uticaj: što je veća plata, manje ljudi daje otkaz. Što je pošteno.



Analiza korelacije u Excel-u

Korelaciona analiza pomaže da se utvrdi da li postoji veza između indikatora u jednom ili dva uzorka. Na primjer, između vremena rada mašine i troškova popravki, cijene opreme i trajanja rada, visine i težine djece itd.

Ako postoji veza, da li povećanje jednog parametra dovodi do povećanja (pozitivna korelacija) ili smanjenja (negativno) drugog. Korelaciona analiza pomaže analitičaru da utvrdi da li se vrednost jednog indikatora može koristiti za predviđanje moguće vrednosti drugog.

Koeficijent korelacije je označen sa r. Varira od +1 do -1. Klasifikacija korelacija za različita područja bit će različita. Kada je koeficijent 0, ne postoji linearna veza između uzoraka.

Pogledajmo kako pronaći koeficijent korelacije koristeći Excel.

Za pronalaženje uparenih koeficijenata koristi se CORREL funkcija.

Cilj: Utvrditi postoji li veza između vremena rada strug i troškove njegovog održavanja.

Postavite kursor u bilo koju ćeliju i pritisnite dugme fx.

  1. U kategoriji “Statistički” odaberite funkciju CORREL.
  2. Argument “Niz 1” - prvi raspon vrijednosti – vrijeme rada mašine: A2:A14.
  3. Argument "Niz 2" - drugi raspon vrijednosti - cijena popravke: B2:B14. Kliknite OK.

Da biste odredili vrstu veze, potrebno je pogledati apsolutni broj koeficijenta (svako polje aktivnosti ima svoju skalu).

Za korelacione analize nekoliko parametara (više od 2), pogodnije je koristiti „Analizu podataka“ (dodatak „Paket analize“). Potrebno je da izaberete korelaciju sa liste i odredite niz. Sve.

Dobijeni koeficijenti će biti prikazani u korelacionoj matrici. Volim ovo:

Korelaciona i regresiona analiza

U praksi se ove dvije tehnike često koriste zajedno.

primjer:


Sada su podaci regresione analize postali vidljivi.

Regresiona analiza

Regresija (linearno) analiza- statistička metoda za proučavanje uticaja jedne ili više nezavisnih varijabli na zavisnu varijablu. Nezavisne varijable se inače nazivaju regresori ili prediktori, a zavisne varijable se nazivaju kriterijumske varijable. Terminologija zavisan I nezavisni varijable odražava samo matematičku zavisnost varijabli ( vidi Lažna korelacija), a ne uzročno-posledične veze.

Ciljevi regresijske analize

  1. Određivanje stepena determinacije varijacije kriterijumske (zavisne) varijable pomoću prediktora (nezavisnih varijabli)
  2. Predviđanje vrijednosti zavisne varijable pomoću nezavisne varijable(e)
  3. Određivanje doprinosa pojedinačnih nezavisnih varijabli varijaciji zavisne varijable

Regresionom analizom se ne može utvrditi da li postoji veza između varijabli, jer je postojanje takve veze preduslov za primenu analize.

Matematička definicija regresije

Strogo regresijski odnos može se definirati na sljedeći način. Neka su , slučajne varijable sa datom zajedničkom distribucijom vjerovatnoće. Ako je za svaki skup vrijednosti definirano uvjetno matematičko očekivanje

(jednačina regresije u opštem obliku),

tada se poziva funkcija regresija vrijednosti Y po vrijednostima, a njegov graf je regresijska linija od , ili jednadžba regresije.

Ovisnost o manifestuje se u promjeni prosječnih vrijednosti Y s promjenom . Iako, za svaki fiksni skup vrijednosti, vrijednost ostaje slučajna varijabla sa određenim raspršenjem.

Da bi se razjasnilo pitanje koliko precizno regresiona analiza procjenjuje promjenu Y pri promjeni, koristi se prosječna vrijednost disperzije Y za različite skupove vrijednosti (u stvari, govorimo o mjeri disperzije zavisne varijable oko linije regresije).

Metoda najmanjih kvadrata (izračunavanje koeficijenata)

U praksi se linija regresije najčešće traži u obliku linearne funkcije (linearna regresija) koja najbolje aproksimira željenu krivu. Ovo se radi korištenjem metode najmanjih kvadrata, kada je zbir kvadrata odstupanja stvarno promatranih od njihovih procjena minimiziran (što znači procjene koristeći pravu liniju koja navodno predstavlja željeni regresijski odnos):

(M - veličina uzorka). Ovaj pristup se zasniva na poznata činjenica, da iznos koji se pojavljuje u gornjem izrazu poprima minimalnu vrijednost upravo za slučaj kada .

Da bi se riješio problem regresione analize metodom najmanjih kvadrata, uvodi se koncept rezidualne funkcije:

Minimalni uvjet za rezidualnu funkciju:

Rezultirajući sistem je sistem linearnih jednačina sa nepoznatim

Ako slobodne članove na lijevoj strani jednadžbe predstavimo kao matricu

a koeficijenti za nepoznate na desnoj strani su matrica

onda dobijamo matrična jednačina:, koji se lako rješava Gaussovom metodom. Rezultirajuća matrica će biti matrica koja sadrži koeficijente jednadžbe regresijske linije:

Da bi se dobile najbolje procjene, potrebno je ispuniti preduslove OLS-a (Gauss–Markov uvjeti). U engleskoj literaturi takve procjene se nazivaju BLUE (Best Linear Unbiased Estimatori).

Interpretacija parametara regresije

Parametri su parcijalni koeficijenti korelacije; tumači se kao udio varijanse Y objašnjenog fiksiranjem utjecaja preostalih prediktora, odnosno mjeri individualni doprinos objašnjenju Y. U slučaju koreliranih prediktora, javlja se problem nesigurnosti u procjenama, koji postaju zavisni od redosleda kojim su prediktori uključeni u model. U takvim slučajevima potrebno je koristiti metode korelacijske i postupne regresione analize.

Kada se govori o nelinearnim modelima regresione analize, važno je obratiti pažnju na to da li je riječ o nelinearnosti u nezavisnim varijablama (sa formalne tačke gledišta, lako svedenoj na linearnu regresiju), ili o nelinearnosti u procijenjenim parametrima (koja uzrokuje ozbiljne računske poteškoće). U slučaju nelinearnosti prvog tipa, sa suštinske tačke gledišta, važno je istaknuti pojavu u modelu pojmova oblika , , što ukazuje na prisustvo interakcija između karakteristika itd. (vidi Multikolinearnost).

vidi takođe

Linkovi

  • www.kgafk.ru - Predavanje na temu “Regresiona analiza”
  • www.basegroup.ru - metode za odabir varijabli u regresijskim modelima

Književnost

  • Norman Draper, Harry Smith Primijenjena regresiona analiza. Višestruka regresija = Primijenjena regresijska analiza. - 3. izd. - M.: "Dijalektika", 2007. - P. 912. - ISBN 0-471-17082-8
  • Metode održive procjene statistički modeli: Monografija. - K.: PP "Sansparel", 2005. - P. 504. - ISBN 966-96574-0-7, UDK: 519.237.5:515.126.2, BBK 22.172+22.152
  • Radčenko Stanislav Grigorijevič, Metodologija regresione analize: Monografija. - K.: "Korniychuk", 2011. - P. 376. - ISBN 978-966-7599-72-0

Wikimedia fondacija. 2010.

Glavna karakteristika regresione analize: uz njenu pomoć možete dobiti specifične informacije o tome kakav oblik i prirodu ima odnos između varijabli koje se proučavaju.

Redoslijed faza regresione analize

Razmotrimo ukratko faze regresione analize.

    Formulacija problema. U ovoj fazi se formiraju preliminarne hipoteze o zavisnosti proučavanih pojava.

    Definicija zavisnih i nezavisnih (objašnjavajućih) varijabli.

    Prikupljanje statističkih podataka. Podaci se moraju prikupiti za svaku od varijabli uključenih u regresijski model.

    Formulacija hipoteze o obliku veze (jednostavna ili višestruka, linearna ili nelinearna).

    Definicija regresijske funkcije (sastoji se u izračunavanju numeričkih vrijednosti parametara regresijske jednadžbe)

    Procjena tačnosti regresione analize.

    Interpretacija dobijenih rezultata. Dobijeni rezultati regresione analize uspoređeni su sa preliminarnim hipotezama. Ocjenjuje se ispravnost i vjerodostojnost dobijenih rezultata.

    Predviđanje nepoznatih vrijednosti zavisne varijable.

Regresionom analizom moguće je riješiti problem predviđanja i klasifikacije. Predviđene vrijednosti se izračunavaju zamjenom vrijednosti objašnjavajućih varijabli u jednadžbu regresije. Problem klasifikacije je riješen na ovaj način: regresijska linija dijeli cijeli skup objekata u dvije klase, pri čemu onaj dio skupa gdje je vrijednost funkcije veća od nule pripada jednoj klasi, a dio gdje je manja od nule. pripada drugoj klasi.

Problemi regresijske analize

Razmotrimo glavne zadatke regresione analize: utvrđivanje oblika zavisnosti, određivanje regresijske funkcije, procjena nepoznatih vrijednosti zavisne varijable.

Uspostavljanje oblika zavisnosti.

Priroda i oblik odnosa između varijabli mogu formirati sljedeće vrste regresije:

    pozitivna linearna regresija (izražena ujednačenim rastom funkcije);

    pozitivna ravnomerno rastuća regresija;

    pozitivna ravnomerno rastuća regresija;

    negativna linearna regresija (izražena kao uniforman pad funkcije);

    negativna ravnomerno ubrzana opadajuća regresija;

    negativna ravnomjerno opadajuća regresija.

Međutim, opisane sorte se obično ne nalaze u čistom obliku, već u kombinaciji jedna s drugom. U ovom slučaju govorimo o kombinovanim oblicima regresije.

Definicija funkcije regresije.

Drugi zadatak se svodi na identifikaciju uticaja na zavisnu varijablu glavnih faktora ili uzroka, pod uslovom da su ostale jednake, i uz isključenje uticaja slučajnih elemenata na zavisnu varijablu. Regresijska funkcija definira se u obliku matematičke jednadžbe jednog ili drugog tipa.

Procjena nepoznatih vrijednosti zavisne varijable.

Rješenje ovog problema svodi se na rješavanje problema jednog od sljedećih tipova:

    Procjena vrijednosti zavisne varijable unutar razmatranog intervala početnih podataka, tj. nedostajuće vrijednosti; u ovom slučaju, problem interpolacije je riješen.

    Procjena budućih vrijednosti zavisne varijable, tj. pronalaženje vrijednosti izvan navedenog intervala izvornih podataka; u ovom slučaju je riješen problem ekstrapolacije.

Oba problema se rješavaju zamjenom pronađenih procjena parametara za vrijednosti nezavisnih varijabli u jednadžbu regresije. Rezultat rješavanja jednadžbe je procjena vrijednosti ciljne (zavisne) varijable.

Pogledajmo neke od pretpostavki na koje se oslanja regresiona analiza.

Pretpostavka linearnosti, tj. pretpostavlja se da je odnos između varijabli koje se razmatraju linearan. Dakle, u ovom primjeru smo nacrtali dijagram raspršenosti i mogli smo vidjeti jasan linearni odnos. Ako na dijagramu raspršenosti varijabli vidimo jasno odsustvo linearne veze, tj. Ako postoji nelinearna veza, treba koristiti metode nelinearne analize.

Pretpostavka normalnosti ostaci. Pretpostavlja se da je distribucija razlike između predviđenih i posmatranih vrijednosti normalna. Da biste vizualno odredili prirodu distribucije, možete koristiti histograme ostaci.

Kada se koristi regresiona analiza, treba uzeti u obzir njeno glavno ograničenje. Sastoji se u činjenici da nam regresiona analiza omogućava da otkrijemo samo zavisnosti, a ne veze koje leže u osnovi ovih zavisnosti.

Regresiona analiza vam omogućava da procenite jačinu veze između varijabli izračunavanjem procenjene vrednosti varijable na osnovu nekoliko poznatih vrednosti.

Jednačina regresije.

Jednačina regresije izgleda ovako: Y=a+b*X

Koristeći ovu jednačinu, varijabla Y je izražena u terminima konstante a i nagiba prave (ili nagiba) b, pomnožene vrijednošću varijable X. Konstanta a se također naziva termin presjeka, a nagib je koeficijent regresije ili B-koeficijent.

U većini slučajeva (ako ne i uvijek) postoji određeni raspršivanje opservacija u odnosu na liniju regresije.

Ostatak je odstupanje jedne tačke (zapažanja) od linije regresije (predviđena vrijednost).

Da biste riješili problem regresione analize u MS Excelu, odaberite iz izbornika Servis"Paket analiza" i alat za analizu regresije. Postavljamo ulazne intervale X i Y. Ulazni interval Y je raspon zavisnih analiziranih podataka, mora uključivati ​​jednu kolonu. Interval unosa X je opseg nezavisnih podataka koje treba analizirati. Broj ulaznih opsega ne bi trebao biti veći od 16.

Na izlazu procedure u izlaznom opsegu dobijamo dat izveštaj tabela 8.3a-8.3v.

ZAKLJUČAK REZULTATA

Tabela 8.3a. Statistika regresije

Statistika regresije

Množina R

R-kvadrat

Normalizirani R-kvadrat

Standardna greška

Zapažanja

Pogledajmo prvo gornji dio proračuna predstavljenih u tabela 8.3a, - statistika regresije.

Magnituda R-kvadrat, koji se naziva i mjera sigurnosti, karakterizira kvalitet rezultirajuće linije regresije. Ovaj kvalitet se izražava stepenom korespondencije između izvornih podataka i regresionog modela (izračunati podaci). Mjera sigurnosti je uvijek unutar intervala.

U većini slučajeva vrijednost R-kvadrat je između ovih vrijednosti, naziva se ekstremna, tj. između nule i jedan.

Ako vrijednost R-kvadrat blizu jedinice, to znači da konstruisani model objašnjava skoro svu varijabilnost odgovarajućih varijabli. Obrnuto, značenje R-kvadrat, blizu nule, znači loš kvalitet izrađenog modela.

U našem primjeru, mjera sigurnosti je 0,99673, što ukazuje na vrlo dobro uklapanje linije regresije sa originalnim podacima.

množina R - koeficijent višestruke korelacije R - izražava stepen zavisnosti nezavisnih varijabli (X) i zavisne varijable (Y).

Množina R jednaki kvadratni korijen iz koeficijenta determinacije, ova veličina poprima vrijednosti u rasponu od nule do jedan.

U jednostavnoj linearnoj regresijskoj analizi množina R jednaka Pearsonovom koeficijentu korelacije. stvarno, množina R u našem slučaju jednak je Pearsonovom koeficijentu korelacije iz prethodnog primjera (0,998364).

Tabela 8.3b. Regresijski koeficijenti

Odds

Standardna greška

t-statistika

Y-raskrsnica

Varijabla X 1

* Dostavljena je skraćena verzija proračuna

Sada razmotrite srednji dio proračuna predstavljenih u tabela 8.3b. Ovdje su dati koeficijent regresije b (2,305454545) i pomak duž ordinatne ose, tj. konstanta a (2,694545455).

Na osnovu proračuna, možemo napisati regresionu jednačinu na sljedeći način:

Y= x*2,305454545+2,694545455

Smjer odnosa između varijabli određuje se na osnovu predznaka (negativnih ili pozitivnih) koeficijenata regresije (koeficijent b).

Ako je predznak koeficijenta regresije pozitivan, odnos između zavisne varijable i nezavisne varijable će biti pozitivan. U našem slučaju predznak koeficijenta regresije je pozitivan, pa je i odnos pozitivan.

Ako je predznak koeficijenta regresije negativan, odnos između zavisne varijable i nezavisne varijable je negativan (inverzan).

IN tabela 8.3c. prikazani su izlazni rezultati ostaci. Da bi se ovi rezultati pojavili u izvještaju, morate aktivirati potvrdni okvir “Residuals” kada pokrećete alat “Regresija”.

POVLAČENJE OSTALOGA

Tabela 8.3c. Ostaci

Opservation

Predviđeno Y

Ostaci

Standardni bilansi

Koristeći ovaj dio izvještaja, možemo vidjeti odstupanja svake tačke od konstruirane linije regresije. Najveća apsolutna vrijednost ostatak u našem slučaju - 0,778, najmanji - 0,043. Da bismo bolje interpretirali ove podatke, koristit ćemo graf izvornih podataka i konstruiranu regresijsku liniju prikazanu u pirinač. 8.3. Kao što vidite, regresijska linija je prilično precizno "uklopljena" u vrijednosti izvornih podataka.

Treba uzeti u obzir da je primjer koji se razmatra prilično jednostavan i da nije uvijek moguće kvalitativno konstruirati liniju linearne regresije.

Rice. 8.3. Izvorni podaci i regresijska linija

Problem procjene nepoznatih budućih vrijednosti zavisne varijable na osnovu poznatih vrijednosti nezavisne varijable ostao je nerazmatran, tj. problem predviđanja.

Imajući jednadžbu regresije, problem predviđanja se svodi na rješavanje jednadžbe Y= x*2,305454545+2,694545455 sa poznatim vrijednostima x. Prikazani su rezultati predviđanja zavisne varijable Y šest koraka unaprijed u tabeli 8.4.

Tabela 8.4. Y varijabilni rezultati prognoze

Y (predviđeno)

Dakle, kao rezultat korištenja regresione analize u Microsoft Excelu, mi:

    izgrađena jednačina regresije;

    utvrđen oblik odnosa i pravac odnosa između varijabli - pozitivna linearna regresija, koja se izražava u ravnomernom rastu funkcije;

    utvrdio pravac odnosa između varijabli;

    procijenio kvalitet rezultirajuće linije regresije;

    bili u mogućnosti da vide odstupanja izračunatih podataka od podataka originalnog skupa;

    predviđene buduće vrijednosti zavisne varijable.

Ako regresijska funkcija definisano, interpretirano i opravdano, a procjena tačnosti regresione analize ispunjava zahtjeve, konstruisani model i predviđene vrijednosti mogu se smatrati dovoljno pouzdanim.

Predviđene vrijednosti dobijene na ovaj način su prosječne vrijednosti koje se mogu očekivati.

U ovom radu razmotrili smo glavne karakteristike deskriptivna statistika a među njima i koncepti kao što su prosječna vrijednost,medijana,maksimum,minimum i druge karakteristike varijacije podataka.

Koncept je također ukratko razmotren emisije. Razmatrane karakteristike se odnose na takozvanu istraživačku analizu podataka, čiji se zaključci možda ne odnose na opštu populaciju, već samo na uzorak podataka. Eksploratorna analiza podataka koristi se za dobijanje primarnih zaključaka i formiranje hipoteza o populaciji.

Diskutovane su i osnove korelacione i regresione analize, njihovi zadaci i mogućnosti praktične upotrebe.

1. Termin „regresija“ prvi je uveo osnivač biometrije F. Galton (19. vek), čije je ideje razvio njegov sledbenik K. Pirson.

Regresiona analiza- metoda statističke obrade podataka koja vam omogućava mjerenje odnosa između jednog ili više uzroka (faktorske karakteristike) i posljedice (rezultativna karakteristika).

Potpiši- ovo je glavna prepoznatljiva karakteristika, karakteristika fenomena ili procesa koji se proučava.

Efikasan znak - indikator koji se proučava.

Faktorski znak- indikator koji utiče na vrijednost rezultirajuće karakteristike.

Svrha regresione analize je da se proceni funkcionalna zavisnost prosečne vrednosti rezultujuće karakteristike ( at) od faktora ( x 1, x 2, …, x n), izraženo kao regresijske jednačine

at= f(x 1, x 2, …, x n). (6.1)

Postoje dvije vrste regresije: uparene i višestruke.

Uparena (jednostavna) regresija- jednačina oblika:

at= f(x). (6.2)

Rezultirajuća karakteristika u regresiji para se smatra funkcijom jednog argumenta, tj. jedna faktorska karakteristika.

Regresiona analiza uključuje sljedeće korake:

· određivanje tipa funkcije;

· određivanje koeficijenata regresije;

· izračunavanje teoretskih vrijednosti rezultirajuće karakteristike;

· provjera statističke značajnosti koeficijenata regresije;

· provjera statističke značajnosti jednačine regresije.

Višestruka regresija- jednačina oblika:

at= f(x 1, x 2, …, x n). (6.3)

Rezultirajući atribut se smatra funkcijom nekoliko argumenata, tj. mnogo faktorskih znakova.

2. Da bi se pravilno odredio tip funkcije, potrebno je na osnovu teoretskih podataka pronaći smjer veze.

Prema smjeru povezivanja, regresija se dijeli na:

· direktna regresija nastaje pod uslovom da sa povećanjem ili smanjenjem nezavisne količine " X" vrijednosti zavisne veličine" y" također povećavaju ili smanjuju u skladu s tim;

· obrnuta regresija koji nastaju pod uslovom da sa povećanjem ili smanjenjem nezavisne vrednosti "X" zavisna količina" y" shodno tome smanjuje ili povećava.

Za karakterizaciju veza koriste se sljedeće vrste uparenih regresionih jednačina:

· y=a+bxlinearno;

· y=e ax + b – eksponencijalna;

· y=a+b/x – hiperbolično;

· y=a+b 1 x+b 2 x 2 – parabolično;

· y=ab x – eksponencijalno i sl.

Gdje a, b 1, b 2- koeficijenti (parametri) jednačine; at- efektni znak; X- faktor faktor.

3. Konstrukcija regresione jednadžbe svodi se na procjenu njenih koeficijenata (parametara), za to koristimo metoda najmanjeg kvadrata(MNC).

Metoda najmanjih kvadrata omogućava da se dobiju takve procjene parametara za koje je zbroj kvadrata odstupanja stvarnih vrijednosti rezultirajućeg atributa " at"od teoretskog" y x» minimalno, tj

Parametri regresijske jednadžbe y=a+bx primjenom metode najmanjih kvadrata procjenjuju se pomoću formula:

Gdje A - slobodni koeficijent, b- koeficijent regresije, pokazuje koliko će se rezultantni predznak promijeniti “ y"kada se promijeni karakteristika faktora" x» po jedinici mjere.

4. Za procjenu statističke značajnosti koeficijenata regresije koristi se Studentov t-test.

Šema za testiranje značajnosti koeficijenata regresije:

1) H 0: a=0, b=0 - koeficijenti regresije se ne razlikuju značajno od nule.

H 1: a≠ 0, b≠ 0 - koeficijenti regresije se značajno razlikuju od nule.

2) R=0,05 – nivo značajnosti.

Gdje m b,m a- slučajne greške:

; . (6.7)

4) t table(R; f),

Gdje f=n-k- 1 - broj stepeni slobode (tabelarna vrijednost), n- broj zapažanja, k X".

5) Ako , onda se odbija, tj. koeficijent je značajan.

Ako , onda je prihvaćeno, tj. koeficijent je beznačajan.

5. Za provjeru ispravnosti konstruirane regresione jednačine koristi se Fisherov kriterij.

Šema za testiranje značaja jednačine regresije:

1) H 0: Jednačina regresije nije značajna.

H 1: Jednačina regresije je značajna.

2) R=0,05 – nivo značajnosti.

3) , (6.8)

gdje je broj zapažanja; k- broj parametara u jednadžbi sa varijablama " X"; at- stvarna vrijednost rezultirajućeg atributa; y x- teorijska vrijednost rezultantnog znaka; - koeficijent korelacije para.

4) F stol(R; f 1 ; f 2),

Gdje f 1 =k, f 2 =n-k-1- broj stupnjeva slobode (tabelarne vrijednosti).

5) Ako F izračunato >F tabela, tada je jednadžba regresije ispravno odabrana i može se koristiti u praksi.

Ako F calc , tada je jednadžba regresije pogrešno odabrana.

6. Glavni indikator koji odražava kvalitet regresione analize je koeficijent determinacije (R 2).

Koeficijent determinacije pokazuje koliki je udio zavisne varijable " at" uzima se u obzir u analizi i uzrokovan je uticajem na njega faktora uključenih u analizu.

Koeficijent determinacije (R 2) uzima vrijednosti u intervalu . Jednačina regresije je kvalitativna ako R 2 ≥0,8.

Koeficijent determinacije jednak je kvadratu koeficijenta korelacije, tj.

Primjer 6.1. Na osnovu sljedećih podataka, konstruirajte i analizirajte jednadžbu regresije:

Rješenje.

1) Izračunajte koeficijent korelacije: . Odnos između znakova je direktan i umjeren.

2) Konstruirajte uparenu jednačinu linearne regresije.

2.1) Kreirajte proračunsku tabelu.

X at Hu x 2 y x (y-y x) 2
55,89 47,54 65,70
45,07 15,42 222,83
54,85 34,19 8,11
51,36 5,55 11,27
42,28 45,16 13,84
47,69 1,71 44,77
45,86 9,87 192,05
Suma 159,45 558,55
Prosjek 77519,6 22,78 79,79 2990,6

,

Uparena jednadžba linearne regresije: y x =25,17+0,087x.

3) Pronađite teorijske vrijednosti " y x"zamjenom stvarnih vrijednosti u jednadžbu regresije" X».

4) Napravite grafikone stvarnih " y" i teorijske vrijednosti" y x"efikasna karakteristika (slika 6.1):r xy =0,47) i mali broj zapažanja.

7) Izračunajte koeficijent determinacije: R 2=(0,47) 2 =0,22. Konstruisana jednačina je lošeg kvaliteta.

Jer proračuni pri izvođenju regresione analize su prilično opsežni, preporučuje se korištenje posebnih programa (Statistica 10, SPSS, itd.).

Na slici 6.2 prikazana je tabela sa rezultatima regresione analize izvršene pomoću programa Statistica 10.

Slika 6.2. Rezultati regresione analize rađene pomoću programa Statistica 10

5. Literatura:

1. Gmurman V.E. Teorija vjerovatnoće i matematička statistika: Udžbenik. priručnik za univerzitete / V.E. Gmurman. - M.: Viša škola, 2003. - 479 str.

2. Koychubekov B.K. Biostatistika: Udžbenik. - Almaty: Evero, 2014. - 154 str.

3. Lobotskaya N.L. Viša matematika. / N.L. Lobotskaya, Yu.V. Morozov, A.A. Dunaev. - Mn.: Viša škola, 1987. - 319 str.

4. Medić V.A., Tokmačev M.S., Fishman B.B. Statistika u medicini i biologiji: Vodič. U 2 toma / Ed. Yu.M. Komarova. T. 1. Teorijska statistika. - M.: Medicina, 2000. - 412 str.

5. Primjena metoda statističke analize za proučavanje javnog zdravlja i zdravstvene zaštite: udžbenik / ur. Kucherenko V.Z. - 4. izd., revidirano. i dodatne – M.: GEOTAR - Mediji, 2011. - 256 str.

mob_info