Regresiona analiza f. Metode regresione analize. Studija rezultata i zaključaka

1. Termin „regresija“ prvi je uveo osnivač biometrije F. Galton (19. vek), čije je ideje razvio njegov sledbenik K. Pirson.

Regresiona analiza- metoda statističke obrade podataka koja vam omogućava mjerenje odnosa između jednog ili više uzroka (faktorske karakteristike) i posljedice (rezultativna karakteristika).

Potpiši- ovo je glavna prepoznatljiva karakteristika, karakteristika fenomena ili procesa koji se proučava.

Efikasan znak - indikator koji se proučava.

Faktorski znak- indikator koji utiče na vrijednost rezultirajuće karakteristike.

Svrha regresione analize je da se proceni funkcionalna zavisnost prosečne vrednosti rezultujuće karakteristike ( at) od faktora ( x 1, x 2, …, x n), izraženo kao regresijske jednačine

at= f(x 1, x 2, …, x n). (6.1)

Postoje dvije vrste regresije: uparene i višestruke.

Uparena (jednostavna) regresija- jednačina oblika:

at= f(x). (6.2)

Rezultirajuća karakteristika u regresiji para se smatra funkcijom jednog argumenta, tj. jedna faktorska karakteristika.

Regresiona analiza uključuje sljedeće korake:

· određivanje tipa funkcije;

· određivanje koeficijenata regresije;

· izračunavanje teoretskih vrijednosti rezultirajuće karakteristike;

· provjera statističke značajnosti koeficijenata regresije;

· provjera statističke značajnosti jednačine regresije.

Višestruka regresija- jednačina oblika:

at= f(x 1, x 2, …, x n). (6.3)

Rezultirajući atribut se smatra funkcijom nekoliko argumenata, tj. mnogo faktorskih znakova.

2. Da bi se pravilno odredio tip funkcije, potrebno je na osnovu teoretskih podataka pronaći smjer veze.

Prema smjeru povezivanja, regresija se dijeli na:

· direktna regresija nastaje pod uslovom da sa povećanjem ili smanjenjem nezavisne količine " X" vrijednosti zavisne veličine" y" također povećavaju ili smanjuju u skladu s tim;

· obrnuta regresija koji nastaju pod uslovom da sa povećanjem ili smanjenjem nezavisne vrednosti "X" zavisna količina" y" shodno tome smanjuje ili povećava.

Za karakterizaciju veza koriste se sljedeće vrste uparenih regresionih jednačina:

· y=a+bxlinearno;

· y=e ax + b – eksponencijalna;

· y=a+b/x – hiperbolično;

· y=a+b 1 x+b 2 x 2 – parabolično;

· y=ab x – eksponencijalno i sl.

Gdje a, b 1, b 2- koeficijenti (parametri) jednačine; at- efektni znak; X- faktor faktor.

3. Konstrukcija regresione jednadžbe svodi se na procjenu njenih koeficijenata (parametara), za to koristimo metoda najmanjih kvadrata (MNC).

Metoda najmanjih kvadrata omogućava da se dobiju takve procjene parametara za koje je zbroj kvadrata odstupanja stvarnih vrijednosti rezultirajućeg atributa " at"od teoretskog" y x» minimalno, tj

Parametri regresijske jednadžbe y=a+bx primjenom metode najmanjih kvadrata procjenjuju se pomoću formula:

Gdje A - slobodni koeficijent, b- koeficijent regresije, pokazuje koliko će se rezultantni predznak promijeniti “ y"kada se promijeni karakteristika faktora" x» po jedinici mjere.

4. Za procjenu statističke značajnosti koeficijenata regresije koristi se Studentov t-test.

Šema za testiranje značajnosti koeficijenata regresije:

1) H 0:a=0, b=0 - koeficijenti regresije se ne razlikuju značajno od nule.

H 1: a≠ 0, b≠ 0 - koeficijenti regresije se značajno razlikuju od nule.

2) R=0,05 – nivo značajnosti.

Gdje m b,m a- slučajne greške:

; . (6.7)

4) t table(R; f),

Gdje f=n-k- 1 - broj stepeni slobode (tabelarna vrijednost), n- broj zapažanja, k X".

5) Ako , onda se odbija, tj. koeficijent je značajan.

Ako , onda je prihvaćeno, tj. koeficijent je beznačajan.

5. Za provjeru ispravnosti konstruirane regresione jednačine koristi se Fisherov kriterij.

Šema za testiranje značaja jednačine regresije:

1) H 0: Jednačina regresije nije značajna.

H 1: Jednačina regresije je značajna.

2) R=0,05 – nivo značajnosti.

3) , (6.8)

gdje je broj zapažanja; k- broj parametara u jednadžbi sa varijablama " X"; at- stvarna vrijednost rezultirajućeg atributa; y x- teorijska vrijednost rezultantnog znaka; - koeficijent korelacije para.

4) F stol(R; f 1 ; f 2),

Gdje f 1 =k, f 2 =n-k-1- broj stupnjeva slobode (tabelarne vrijednosti).

5) Ako F izračunato >F tabela, tada je jednadžba regresije ispravno odabrana i može se koristiti u praksi.

Ako F calc , tada je jednadžba regresije pogrešno odabrana.

6. Glavni indikator koji odražava kvalitet regresione analize je koeficijent determinacije (R 2).

Koeficijent determinacije pokazuje koliki je udio zavisne varijable " at" uzima se u obzir u analizi i uzrokovan je uticajem na njega faktora uključenih u analizu.

Koeficijent determinacije (R 2) uzima vrijednosti u intervalu . Jednačina regresije je kvalitativna ako R 2 ≥0,8.

Koeficijent determinacije jednak je kvadratu koeficijenta korelacije, tj.

Primjer 6.1. Na osnovu sljedećih podataka, konstruirajte i analizirajte jednadžbu regresije:

Rješenje.

1) Izračunajte koeficijent korelacije: . Odnos između znakova je direktan i umjeren.

2) Konstruirajte uparenu jednačinu linearne regresije.

2.1) Kreirajte proračunsku tabelu.

X at Hu x 2 y x (y-y x) 2
55,89 47,54 65,70
45,07 15,42 222,83
54,85 34,19 8,11
51,36 5,55 11,27
42,28 45,16 13,84
47,69 1,71 44,77
45,86 9,87 192,05
Suma 159,45 558,55
Prosjek 77519,6 22,78 79,79 2990,6

,

Uparena jednadžba linearne regresije: y x =25,17+0,087x.

3) Pronađite teorijske vrijednosti " y x"zamjenom stvarnih vrijednosti u jednadžbu regresije" X».

4) Napravite grafikone stvarnih " y" i teorijske vrijednosti" y x"efikasna karakteristika (slika 6.1):r xy =0,47) i mali broj zapažanja.

7) Izračunajte koeficijent determinacije: R 2=(0,47) 2 =0,22. Konstruisana jednačina je lošeg kvaliteta.

Jer proračuni pri izvođenju regresione analize su prilično opsežni, preporučuje se korištenje posebnih programa (Statistica 10, SPSS, itd.).

Na slici 6.2 prikazana je tabela sa rezultatima regresione analize izvršene pomoću programa Statistica 10.

Slika 6.2. Rezultati regresione analize rađene pomoću programa Statistica 10

5. Literatura:

1. Gmurman V.E. Teorija vjerovatnoće i matematička statistika: Udžbenik. priručnik za univerzitete / V.E. Gmurman. - M.: Viša škola, 2003. - 479 str.

2. Koychubekov B.K. Biostatistika: Udžbenik. - Almaty: Evero, 2014. - 154 str.

3. Lobotskaya N.L. Viša matematika. / N.L. Lobotskaya, Yu.V. Morozov, A.A. Dunaev. - Mn.: Viša škola, 1987. - 319 str.

4. Medić V.A., Tokmačev M.S., Fishman B.B. Statistika u medicini i biologiji: Vodič. U 2 toma / Ed. Yu.M. Komarova. T. 1. Teorijska statistika. - M.: Medicina, 2000. - 412 str.

5. Primjena metoda statističke analize za proučavanje javnog zdravlja i zdravstvene zaštite: udžbenik / ur. Kucherenko V.Z. - 4. izd., revidirano. i dodatne – M.: GEOTAR - Mediji, 2011. - 256 str.

Regresiona analiza je u osnovi kreiranja većine ekonometrijskih modela, koji uključuju modele procjene troškova. Za izgradnju modela vrednovanja, ova metoda se može koristiti ako su broj analoga (uporedivih objekata) i broj faktora troškova (elemenata za poređenje) međusobno povezani na sljedeći način: P> (5 -g-10) x za, one. trebalo bi da ima 5-10 puta više analoga od faktora troškova. Isti zahtjev za odnos količine podataka i broja faktora odnosi se i na druge zadatke: uspostavljanje veze između troškovnih i potrošačkih parametara objekta; obrazloženje postupka za izračunavanje korektivnih indeksa; utvrđivanje trendova cijena; uspostavljanje veze između habanja i promjena faktora utjecaja; dobijanje zavisnosti za izračunavanje standarda troškova itd. Usklađenost sa ovim zahtjevom je neophodna kako bi se smanjila vjerovatnoća rada sa uzorkom podataka koji ne zadovoljava zahtjev normalne distribucije slučajnih varijabli.

Regresijski odnos odražava samo prosječni trend promjena rezultirajuće varijable, na primjer, cijene, od promjena u jednoj ili više faktorskih varijabli, na primjer, lokacija, broj soba, površina, sprat, itd. Ovo je razlika između regresijskog odnosa i funkcionalnog odnosa, u kojem je vrijednost rezultirajuće varijable striktno definirana za datu vrijednost faktorskih varijabli.

Prisutnost regresijskog odnosa / između rezultirajućeg at i faktorske varijable x str ..., x k(faktori) ukazuje da je ovaj odnos određen ne samo uticajem odabranih faktorskih varijabli, već i uticajem varijabli, od kojih su neke generalno nepoznate, druge se ne mogu procijeniti i uzeti u obzir:

Uticaj neobračunatih varijabli prikazan je drugim članom ove jednačine ?, što se naziva greškom aproksimacije.

Razlikuju se sljedeće vrste regresijskih ovisnosti:

  • ? uparena regresija - odnos između dvije varijable (rezultant i faktor);
  • ? višestruka regresija – odnos između jedne varijable ishoda i dvije ili više faktorskih varijabli uključenih u studiju.

Glavni zadatak regresione analize je da kvantifikuje bliskost odnosa između varijabli (u parnoj regresiji) i više varijabli (u višestrukoj regresiji). Bliskost veze je kvantitativno izražena koeficijentom korelacije.

Upotreba regresione analize omogućava da se utvrdi obrazac uticaja glavnih faktora (hedonističkih karakteristika) na indikator koji se proučava, kako u cjelini, tako i za svaki od njih posebno. Korištenje regresione analize kao metode matematičke statistike, moguće je, prvo, pronaći i opisati oblik analitičke zavisnosti rezultujuće (tražene) varijable od faktorskih i, drugo, proceniti bliskost ove zavisnosti.

Rješavanjem prvog problema dobija se matematički regresijski model uz pomoć kojeg se zatim izračunava željeni indikator za date vrijednosti faktora. Rješavanje drugog problema nam omogućava da utvrdimo pouzdanost izračunatog rezultata.

Dakle, regresiona analiza se može definisati kao skup formalnih (matematičkih) procedura dizajniranih za merenje bliskosti, usmerenosti i analitičkog izraza oblika odnosa između rezultujućih i faktorskih varijabli, tj. izlaz takve analize treba strukturno i kvantitativno odrediti statistički model tip:

Gdje y - prosječnu vrijednost rezultirajuće varijable (željenog indikatora, na primjer, trošak, najam, stopa kapitalizacije) po P njena zapažanja; x - vrijednost faktorske varijable (/-ti faktor troškova); Za - broj faktorskih varijabli.

Funkcija f(x l ,...,x lc), opisuje zavisnost rezultujuće varijable od faktora faktora naziva se regresijska jednačina (funkcija). Pojam „regresija“ (regresija (lat.) - povlačenje, povratak na nešto) povezuje se sa specifičnostima jednog od specifične zadatke, odlučeno u fazi formiranja metode, i trenutno ne odražava cjelokupnu suštinu metode, ali nastavlja da se koristi.

Regresiona analiza općenito uključuje sljedeće korake:

  • ? formiranje uzorka homogenih objekata i prikupljanje početnih informacija o tim objektima;
  • ? izbor glavnih faktora koji utiču na rezultujuću varijablu;
  • ? provjera uzorka za normalno korištenje X 2 ili binomni test;
  • ? prihvatanje hipoteze o obliku komunikacije;
  • ? matematička obrada podataka;
  • ? dobijanje regresijskog modela;
  • ? procjena njegovih statističkih pokazatelja;
  • ? proračuni verifikacije pomoću regresijskog modela;
  • ? analiza rezultata.

Navedeni slijed operacija odvija se kada se proučava kako upareni odnos između faktorske varijable i jedne rezultantne varijable, tako i višestruki odnos između rezultantne varijable i nekoliko faktorskih.

Upotreba regresione analize nameće početne informacije određene zahtjeve:

  • ? statistički uzorak objekata mora biti homogen u funkcionalnom i strukturno-tehnološkom pogledu;
  • ? prilično brojni;
  • ? indikator troškova koji se proučava - rezultirajuća varijabla (cijena, trošak, troškovi) - mora biti doveden u iste uslove za svoj obračun za sve objekte u uzorku;
  • ? faktorske varijable moraju se izmjeriti dovoljno precizno;
  • ? faktorske varijable moraju biti nezavisne ili minimalno zavisne.

Zahtjevi za homogenost i potpunost uzorka su u suprotnosti: što je stroži odabir objekata na osnovu njihove homogenosti, to je uzorak manji, i obrnuto, za povećanje uzorka potrebno je uključiti objekte koji nisu mnogo slični jedan drugog.

Nakon što se prikupe podaci o grupi homogenih objekata, oni se analiziraju kako bi se ustanovio oblik veze između rezultirajućih i faktorskih varijabli u obliku teorijske regresijske linije. Proces pronalaženja teorijske regresijske linije sastoji se od razumnog izbora aproksimirajuće krive i izračunavanja koeficijenata njene jednadžbe. Regresijska linija je glatka kriva (u konkretnom slučaju prava linija) koja opisuje, koristeći matematičku funkciju, opći trend odnosa koji se proučava i izglađuje nepravilne, nasumične emisije od utjecaja sporednih faktora.

Za prikaz uparenih regresijskih ovisnosti u zadacima procjene najčešće se koriste sljedeće funkcije: linearna - y - a 0 + ars + s snaga - y - aj&i + s indikativno - y - linearni eksponencijalni - y - a 0 + ap* + c. ovdje - e greška aproksimacije uzrokovana djelovanjem neuračunatih slučajnih faktora.

U ovim funkcijama, y ​​je rezultujuća varijabla; x - faktor varijabla (faktor); A 0 , a r a 2 - parametri regresijskog modela, koeficijenti regresije.

Linearni eksponencijalni model pripada klasi takozvanih hibridnih modela oblika:

Gdje

gdje je x (i = 1, /) - vrijednosti faktora;

b t (i = 0, /) - koeficijenti regresione jednadžbe.

IN zadata jednačina komponente A, B I Z odgovaraju troškovima pojedinih komponenti imovine koja se vrednuje, na primer, cena zemljišne parcele i troškovi poboljšanja, i parametar Q je uobičajeno. Dizajniran je da prilagodi vrijednost svih komponenti imovine koja se vrednuje za zajednički faktor utjecaja, kao što je lokacija.

Vrijednosti faktora koji su u snazi ​​odgovarajućih koeficijenata su binarne varijable (0 ili 1). Faktori u osnovi stepena su diskretne ili kontinuirane varijable.

Faktori povezani sa koeficijentima množenja su također kontinuirani ili diskretni.

Specifikacija se u pravilu provodi empirijskim pristupom i uključuje dvije faze:

  • ? crtanje tačaka polja regresije na grafu;
  • ? grafička (vizuelna) analiza tipa moguće aproksimativne krive.

Tip krivulje regresije ne može se uvijek odabrati odmah. Da biste ga odredili, prvo nacrtajte tačke regresijskog polja na osnovu originalnih podataka. Zatim vizualno nacrtajte liniju duž položaja točaka, pokušavajući otkriti kvalitativni obrazac veze: ravnomjeran rast ili ravnomjeran pad, rast (smanjenje) s povećanjem (smanjenjem) stope dinamike, nesmetani pristup određenom nivo.

Ovaj empirijski pristup dopunjen je logičkom analizom, polazeći od već poznatih ideja o ekonomskom i fizičke prirode faktori koji se proučavaju i njihov međusobni uticaj.

Na primjer, poznato je da su ovisnosti rezultirajućih varijabli - ekonomskih pokazatelja (cijena, renta) od niza faktorskih varijabli - faktora formiranja cijene (udaljenost od centra naselja, površine, itd.) nelinearne. u prirodi, a mogu se opisati prilično striktno kao moć, eksponencijalna ili kvadratne funkcije. Ali za male raspone faktorskih promjena, prihvatljivi rezultati se mogu dobiti korištenjem linearne funkcije.

Ako je, međutim, još uvijek nemoguće odmah napraviti siguran izbor bilo koje funkcije, tada se biraju dvije ili tri funkcije, izračunavaju se njihovi parametri, a zatim, koristeći odgovarajuće kriterije za bliskost veze, funkcija se konačno odabrano.

U teoriji, proces regresije za pronalaženje oblika krive se naziva specifikacija model i njegovi koeficijenti - kalibracija modeli.

Ako se utvrdi da rezultirajuća varijabla y ovisi o nekoliko faktorskih varijabli (faktora) x ( , x 2 , ..., x k, tada pribjegavaju izgradnji modela višestruke regresije. Obično se koriste tri oblika višestruke komunikacije: linearna - y - a 0 + a x x x + a^x 2 + ... + a k x k, indikativno - y - a 0 a*i a x t- a x b, snaga - y - a 0 x x ix 2 a 2. .x^ili njihove kombinacije.

Eksponencijalne funkcije i funkcije stepena su univerzalnije, jer aproksimiraju nelinearne odnose, koji su većina onih koji se proučavaju u procjeni zavisnosti. Osim toga, mogu se koristiti pri procjeni objekata iu metodi statističkog modeliranja u masovnoj procjeni, te u metodi direktnog poređenja u individualnoj procjeni pri utvrđivanju faktora korekcije.

U fazi kalibracije, parametri regresijskog modela se izračunavaju metodom najmanjih kvadrata, čija je suština da se zbroj kvadrata odstupanja izračunatih vrijednosti rezultirajuće varijable at., tj. izračunato pomoću odabrane jednadžbe spajanja, od stvarnih vrijednosti treba biti minimalno:

Vrijednosti j) (. i u. poznati su, dakle Q je funkcija samo koeficijenata jednačine. Da nađem minimum S morate uzeti parcijalne derivate Q koeficijentima jednadžbe i izjednačiti ih sa nulom:

Kao rezultat dobijamo sistem normalnih jednačina, čiji je broj jednak broju utvrđenih koeficijenata željene regresione jednačine.

Pretpostavimo da trebamo pronaći koeficijente linearne jednačine y - a 0 + ars. Zbir kvadrata odstupanja ima oblik:

/=1

Razlikujte funkciju Q po nepoznatim koeficijentima a 0 i i izjednačiti parcijalne derivate sa nulom:

Nakon transformacija dobijamo:

Gdje P - broj originalnih stvarnih vrijednosti at njih (broj analoga).

Navedena procedura za izračunavanje koeficijenata regresione jednačine je primenljiva i za nelinearne zavisnosti, ako se te zavisnosti mogu linearizovati, tj. dovesti do linearne forme koristeći promjenu varijabli. Snaga i eksponencijalna funkcija nakon logaritma i odgovarajuće promjene varijabli dobijaju linearni oblik. Na primjer, funkcija stepena nakon logaritma ima oblik: In y = 1p 0 +a x 1ph. Nakon zamjene varijabli Y- U y, L 0 - U i br. X- U x dobijamo linearna funkcija

Y=A 0 + cijX,čiji se koeficijenti nalaze na gore opisani način.

Metoda najmanjih kvadrata se također koristi za izračunavanje koeficijenata modela višestruke regresije. Dakle, sistem normalnih jednačina za izračunavanje linearne funkcije sa dvije varijable Xj I x 2 nakon niza transformacija to izgleda ovako:

Tipično, ovaj sistem jednačina se rješava korištenjem metoda linearne algebre. Funkcija višestruke snage se reducira u linearni oblik uzimanjem logaritma i promjenom varijabli na isti način kao i funkcija parne snage.

Kada se koriste hibridni modeli, višestruki koeficijenti regresije se pronalaze pomoću numeričkih procedura metode uzastopnih aproksimacija.

Da bi se napravio konačan izbor između nekoliko regresijskih jednačina, potrebno je svaku jednačinu testirati na jačinu veze, koja se mjeri koeficijentom korelacije, varijansom i koeficijentom varijacije. Studentov i Fisherov test se također može koristiti za evaluaciju. Što je kriva veća bliskost veze, to je ona poželjnija, pod uslovom da su sve ostale jednake.

Ako se rješava problem ove klase, kada je potrebno utvrditi ovisnost indikatora troškova o faktorima troškova, onda je razumljiva želja da se uzme u obzir što više faktora utjecaja i na taj način izgradi precizniji model višestruke regresije. . Međutim, povećanje broja faktora ometaju dva objektivna ograničenja. Prvo, da bi se izgradio model višestruke regresije, potreban je mnogo veći uzorak objekata nego da se izgradi upareni model. Općenito je prihvaćeno da broj objekata u uzorku treba da bude veći od broja P faktora najmanje 5-10 puta. Iz toga slijedi da je za izgradnju modela sa tri utjecajna faktora potrebno prikupiti uzorak od približno 20 objekata sa različitim skupom vrijednosti faktora. Drugo, faktori odabrani za model u svom uticaju na indikator troškova moraju biti dovoljno nezavisni jedan od drugog. To nije lako osigurati, jer uzorak obično kombinuje predmete koji pripadaju istoj porodici, za koje postoji prirodna promjena mnogih faktora od objekta do objekta.

Kvaliteta regresijskih modela obično se provjerava korištenjem sljedećih statističkih indikatora.

Standardna devijacija greške jednadžbe regresije (greška procjene):

Gdje P - veličina uzorka (broj analoga);

Za - broj faktora (faktori troškova);

Greška nije objašnjena jednadžbom regresije (slika 3.2);

u. - stvarna vrijednost rezultirajuće varijable (na primjer, trošak); y t - izračunatu vrijednost varijable rezultata.

Ovaj indikator se također naziva standardna greška procjene (RMS greška). Na slici tačke označavaju specifične vrijednosti uzoraka, simbol označava liniju prosjeka uzorka, nagnuta isprekidana linija je linija regresije.


Rice. 3.2.

Standardna devijacija greške procjene mjeri iznos odstupanja stvarnih vrijednosti y od odgovarajućih izračunatih vrijednosti at( , dobijeno pomoću regresijskog modela. Ako uzorak na kojem se model zasniva podliježe zakonu normalne distribucije, onda se može tvrditi da 68% stvarnih vrijednosti at su u dometu at ± &e od regresijske linije, a 95% je u rasponu at ± 2d e. Ovaj indikator je zgodan jer su jedinice mjerenja sg? odgovaraju mjernim jedinicama at,. U tom smislu, može se koristiti za ukazivanje na tačnost rezultata dobijenog u procesu ocjenjivanja. Na primjer, u certifikatu o vrijednosti možete naznačiti da je tržišna vrijednost dobivena korištenjem regresijskog modela V sa 95% vjerovatnoće da će biti u rasponu od (V -2d,.) prije (g + 2d s).

Koeficijent varijacije rezultirajuće varijable:

Gdje y - prosječna vrijednost rezultirajuće varijable (slika 3.2).

U regresionoj analizi, koeficijent varijacije var je standardna devijacija ishoda izražena kao postotak srednje vrijednosti varijable ishoda. Koeficijent varijacije može poslužiti kao kriterij za prediktivne kvalitete rezultirajućeg regresijskog modela: što je manja vrijednost var, to su veći prediktivni kvaliteti modela. Upotreba koeficijenta varijacije je poželjnija od &e indikatora, jer je on relativan indikator. At praktična upotreba Za ovaj indikator se može preporučiti da se ne koristi model čiji koeficijent varijacije prelazi 33%, jer se u ovom slučaju ne može reći da podaci uzorka podliježu normalnom zakonu distribucije.

Koeficijent determinacije (koeficijent višestruke korelacije na kvadrat):

Ovaj indikator se koristi za analizu ukupnog kvaliteta rezultirajućeg regresijskog modela. Pokazuje koji je postotak varijanse u rezultirajućoj varijabli objašnjen utjecajem svih faktorskih varijabli uključenih u model. Koeficijent determinacije uvijek leži u rasponu od nule do jedan. Što je vrijednost koeficijenta determinacije bliža jedinici, to model bolje opisuje originalnu seriju podataka. Koeficijent determinacije može se predstaviti drugačije:

Evo greške objašnjene regresijskim modelom,

A - greška, neobjašnjeno

regresijski model. Sa ekonomske tačke gledišta, ovaj kriterijum nam omogućava da procenimo koliki je procenat varijacije cena objašnjen regresionom jednačinom.

Tačna granica prihvatljivosti indikatora R 2 Nemoguće je precizirati za sve slučajeve. Moraju se uzeti u obzir i veličina uzorka i smislena interpretacija jednačine. U pravilu, kada se proučavaju podaci o objektima istog tipa dobijeni u približno istom trenutku, vrijednost R 2 ne prelazi nivo od 0,6-0,7. Ako su sve greške prognoze nula, tj. kada je odnos između rezultantnih i faktorskih varijabli funkcionalan, onda R 2 =1.

Prilagođeni koeficijent determinacije:

Potreba za uvođenjem prilagođenog koeficijenta determinacije objašnjava se činjenicom da sa povećanjem broja faktora To uobičajeni koeficijent determinacije se skoro uvijek povećava, ali se broj stupnjeva slobode smanjuje (p - k- 1). Uneseno podešavanje uvijek smanjuje vrijednost R2, zbog (P - 1) > (p-k- 1). Kao rezultat, vrijednost R 2 CKOf) može čak postati negativan. To znači da je vrijednost R 2 bio blizu nule prije prilagođavanja i udio varijanse varijable objašnjen pomoću regresione jednadžbe at vrlo male.

Od dvije opcije za regresijske modele koji se razlikuju po vrijednosti prilagođenog koeficijenta determinacije, ali imaju jednako dobre druge kriterije kvaliteta, poželjnija je opcija sa većom vrijednošću prilagođenog koeficijenta determinacije. Koeficijent determinacije se ne prilagođava ako (p - k): k> 20.

Fisher koeficijent:

Ovaj kriterij se koristi za procjenu značajnosti koeficijenta determinacije. Preostali zbir kvadrata predstavlja mjeru greške predviđanja koristeći regresiju poznatih vrijednosti troškova y.. Njegovo poređenje sa regresijskim zbirom kvadrata pokazuje koliko puta regresijska zavisnost predviđa rezultat bolji od prosjeka at. Postoji tabela kritičnih vrijednosti F R Fisher koeficijent, ovisno o broju stupnjeva slobode brojioca - Za, imenilac v 2 = p - k- 1 i nivo značaja a. Ako je izračunata vrijednost Fisherovog testa F R veća od tabelarne vrijednosti, onda se postavlja hipoteza o beznačajnosti koeficijenta determinacije, tj. o neskladu između veza ugrađenih u regresionu jednačinu i onih koje stvarno postoje, s vjerovatnoćom p = 1 - a se odbacuje.

Prosječna greška aproksimacije(prosječno procentualno odstupanje) izračunava se kao prosječna relativna razlika, izražena u postocima, između stvarne i izračunate vrijednosti rezultirajuće varijable:

Kako manje vrijednosti ovog indikatora, bolji su prediktivni kvaliteti modela. Kada ovaj pokazatelj nije veći od 7%, model je vrlo precizan. Ako 8 > 15% ukazuje na nezadovoljavajuću tačnost modela.

Standardna greška koeficijenta regresije:

gdje je (/I) -1 .- dijagonalni element matrice (X G X)~ 1 k - broj faktora;

X- matrica vrijednosti faktorske varijable:

X 7 - transponovana matrica vrednosti faktorskih varijabli;

(ZhL) _| - matrica inverzna matrici.

Što su ovi pokazatelji manji za svaki koeficijent regresije, to je pouzdanija procjena odgovarajućeg regresijskog koeficijenta.

Studentov test (t-statistika):

Ovaj kriterijum vam omogućava da izmerite stepen pouzdanosti (značajnosti) odnosa koji je određen datim koeficijentom regresije. Ako je izračunata vrijednost t. veća od vrijednosti u tabeli

t av, gdje v - p - k - 1 je broj stepeni slobode, onda se hipoteza da je ovaj koeficijent statistički beznačajan odbacuje sa vjerovatnoćom (100 - a)%. Postoje posebne tabele /-distribucije koje omogućavaju da se kritična vrednost kriterijuma odredi na osnovu datog nivoa značaja a i broja stepeni slobode v. Najčešće korištena vrijednost za a je 5%.

Multikolinearnost, tj. efekat međusobnih odnosa između faktorskih varijabli dovodi do potrebe da se zadovolji sa ograničenim brojem njih. Ako se to ne uzme u obzir, onda možete završiti s nelogičnim modelom regresije. Da bi se izbjegao negativan učinak multikolinearnosti, koeficijenti parne korelacije se izračunavaju prije izgradnje modela višestruke regresije r xjxj između odabranih varijabli X. I X

Evo XjX; - prosječna vrijednost proizvoda dvije faktorske varijable;

XjXj- proizvod prosječnih vrijednosti dvije faktorske varijable;

Procjena varijanse faktorske varijable x..

Smatra se da su dvije varijable regresijsko povezane jedna s drugom (tj. kolinearne) ako je njihov koeficijent parne korelacije u apsolutnoj vrijednosti striktno veći od 0,8. U ovom slučaju, bilo koja od ovih varijabli mora biti isključena iz razmatranja.

U cilju proširenja mogućnosti ekonomske analize rezultujućih regresijskih modela, pros koeficijenti elastičnosti, određena formulom:

Gdje Xj- prosječnu vrijednost odgovarajuće faktorske varijable;

y - prosječna vrijednost rezultirajuće varijable; a i - koeficijent regresije za odgovarajuću faktorsku varijablu.

Koeficijent elastičnosti pokazuje za koji procenat će se u prosjeku promijeniti vrijednost rezultirajuće varijable kada se faktorska varijabla promijeni za 1%, tj. kako rezultirajuća varijabla reagira na promjene faktorske varijable. Na primjer, kako reagira cijena kvadrata? m površine stana na udaljenosti od centra grada.

Sa stanovišta analize značaja određenog koeficijenta regresije, korisno je procijeniti parcijalni koeficijent determinacije:

Ovdje je procjena varijanse rezultirajućeg

varijabla. Ovaj koeficijent pokazuje u kom postotku se varijacija rezultirajuće varijable objašnjava varijacijom i-te faktorske varijable uključene u regresionu jednačinu.

  • Hedonističke karakteristike se shvataju kao karakteristike predmeta koje odražavaju njegova korisna (vrijedna) svojstva sa stanovišta kupaca i prodavaca.

Tokom studija studenti se vrlo često susreću sa raznim jednačinama. Jedna od njih - jednačina regresije - razmatra se u ovom članku. Ova vrsta jednadžbe se koristi posebno za opisivanje karakteristika odnosa između matematičkih parametara. Ova vrsta jednakosti se koristi u statistici i ekonometriji.

Definicija regresije

U matematici, regresija označava određenu veličinu koja opisuje ovisnost prosječne vrijednosti skupa podataka o vrijednostima druge veličine. Jednačina regresije pokazuje, kao funkciju određene karakteristike, prosječnu vrijednost druge karakteristike. Funkcija regresije ima oblik jednostavna jednačina y = x, u kojoj y djeluje kao zavisna varijabla, a x kao nezavisna varijabla (faktor karakteristika). U stvari, regresija se izražava kao y = f (x).

Koje su vrste odnosa između varijabli?

Općenito, postoje dvije suprotne vrste odnosa: korelacija i regresija.

Prvi karakteriše jednakost uslovnih varijabli. IN u ovom slučaju Ne zna se sa sigurnošću koja varijabla zavisi od druge.

Ako ne postoji jednakost između varijabli i uvjeti govore koja varijabla je eksplanatorna, a koja zavisna, onda možemo govoriti o prisutnosti veze drugog tipa. Da bi se konstruisala jednačina linearne regresije, biće potrebno saznati kakav se tip odnosa posmatra.

Vrste regresije

Danas postoji 7 različitih tipova regresije: hiperbolička, linearna, višestruka, nelinearna, parna, inverzna, logaritamski linearna.

Hiperbolički, linearni i logaritamski

Jednačina linearne regresije se koristi u statistici za jasno objašnjenje parametara jednačine. Izgleda kao y = c+t*x+E. Hiperbolička jednadžba ima oblik regularne hiperbole y = c + m / x + E. Logaritamski linearna jednačina izražava odnose koristeći logaritamska funkcija: In y = In c + t* In x + In E.

Višestruki i nelinearni

Još dva složene vrste Regresija je višestruka i nelinearna. Jednačina višestruke regresije izražava se funkcijom y = f(x 1, x 2 ... x c) + E. U ovoj situaciji, y djeluje kao zavisna varijabla, a x djeluje kao varijabla koja objašnjava. E varijabla je stohastička i uključuje utjecaj drugih faktora u jednačini. Nelinearna jednačina regresija je pomalo kontroverzna. S jedne strane, u odnosu na indikatore koji se uzimaju u obzir, nije linearan, ali s druge strane, u ulozi indikatora ocjenjivanja je linearan.

Inverzne i uparene vrste regresija

Inverzna je vrsta funkcije koju treba pretvoriti u linearni oblik. U najtradicionalnijim aplikativnim programima ima oblik funkcije y = 1/c + m*x+E. Jednačina parne regresije pokazuje odnos između podataka kao funkcije y = f (x) + E. Kao iu drugim jednadžbama, y ​​ovisi o x, a E je stohastički parametar.

Koncept korelacije

Ovo je indikator koji pokazuje postojanje veze između dva fenomena ili procesa. Jačina veze se izražava kao koeficijent korelacije. Njegova vrijednost fluktuira unutar intervala [-1;+1]. Negativan indikator ukazuje na prisustvo povratne informacije, pozitivan indikator ukazuje na direktnu povratnu informaciju. Ako koeficijent ima vrijednost jednaku 0, onda nema veze. Što je vrijednost bliža 1, to je jača veza između parametara; što je bliža 0, to je slabija.

Metode

Korelacione parametarske metode mogu proceniti snagu veze. Koriste se na osnovu procjene distribucije za proučavanje parametara koji se pridržavaju zakona normalne distribucije.

Parametri jednačine linearne regresije su neophodni za identifikaciju tipa zavisnosti, funkciju jednačine regresije i procenu indikatora izabrane formule odnosa. Korelaciono polje se koristi kao metoda identifikacije veze. Da biste to učinili, svi postojeći podaci moraju biti grafički prikazani. Svi poznati podaci moraju biti ucrtani u pravougaoni dvodimenzionalni koordinatni sistem. Tako se formira korelaciono polje. Vrijednosti opisnog faktora su označene duž apscisne ose, dok su vrijednosti zavisnog faktora označene duž ordinatne ose. Ako postoji funkcionalni odnos između parametara, oni su poređani u obliku linije.

Ako je koeficijent korelacije takvih podataka manji od 30%, možemo govoriti o gotovo potpunom odsustvu povezanosti. Ako je između 30% i 70%, onda to ukazuje na prisustvo srednje bliskih veza. 100% indikator je dokaz funkcionalne veze.

Jednačina nelinearne regresije, baš kao i linearna, mora biti dopunjena indeksom korelacije (R).

Korelacija za višestruku regresiju

Koeficijent determinacije je pokazatelj kvadrata višestruke korelacije. On govori o bliskoj povezanosti prikazanog skupa indikatora sa karakteristikom koja se proučava. Takođe se može govoriti o prirodi uticaja parametara na rezultat. Jednačina višestruke regresije se procjenjuje korištenjem ovog indikatora.

Da bi se izračunao indikator višestruke korelacije, potrebno je izračunati njegov indeks.

Metoda najmanjeg kvadrata

Ova metoda je način za procjenu faktora regresije. Njegova je suština minimizirati sumu kvadrata odstupanja dobivenih kao rezultat ovisnosti faktora o funkciji.

Jednadžba linearne regresije u paru može se procijeniti pomoću takve metode. Ova vrsta jednadžbi se koristi kada se otkrije upareni linearni odnos između indikatora.

Parametri jednačine

Svaki parametar funkcije linearne regresije ima specifično značenje. Uparena jednačina linearne regresije sadrži dva parametra: c i m. Parametar m pokazuje prosječnu promjenu konačnog indikatora funkcije y, pod uslovom da se varijabla x smanji (poveća) za jednu konvencionalnu jedinicu. Ako je varijabla x nula, tada je funkcija jednaka parametru c. Ako varijabla x nije nula, onda faktor c nema ekonomsko značenje. Jedini uticaj na funkciju je znak ispred faktora c. Ako postoji minus, onda možemo reći da je promjena rezultata spora u odnosu na faktor. Ako postoji plus, onda to ukazuje na ubrzanu promjenu rezultata.

Svaki parametar koji mijenja vrijednost jednačine regresije može se izraziti kroz jednačinu. Na primjer, faktor c ima oblik c = y - mx.

Grupirani podaci

Postoje uvjeti zadatka u kojima su sve informacije grupirane po atributu x, ali za određenu grupu su naznačene odgovarajuće prosječne vrijednosti zavisnog indikatora. U ovom slučaju, prosječne vrijednosti karakteriziraju kako se indikator mijenja ovisno o x. Dakle, grupisane informacije pomažu u pronalaženju regresijske jednačine. Koristi se kao analiza odnosa. Međutim, ova metoda ima svoje nedostatke. Nažalost, prosječni pokazatelji su često podložni vanjskim fluktuacijama. Ove fluktuacije ne odražavaju obrazac odnosa; one samo maskiraju njegovu „buku“. Prosjeci pokazuju obrasce odnosa mnogo gore od jednadžbe linearne regresije. Međutim, oni se mogu koristiti kao osnova za pronalaženje jednadžbe. Množenjem broja pojedinačne populacije sa odgovarajućim prosjekom, može se dobiti zbir y unutar grupe. Zatim morate zbrojiti sve primljene iznose i pronaći konačni pokazatelj y. Malo je teže izvršiti proračune sa indikatorom zbira xy. Ako su intervali mali, možemo uslovno uzeti indikator x za sve jedinice (unutar grupe) da je isti. Trebali biste ga pomnožiti sa zbirom y da biste saznali zbir proizvoda x i y. Zatim se svi iznosi sabiraju i ispada ukupan iznos hu.

Jednačina višestruke parne regresije: procjena važnosti veze

Kao što je ranije objašnjeno, višestruka regresija ima funkciju oblika y = f (x 1,x 2,…,x m)+E. Najčešće se ovakva jednadžba koristi za rješavanje problema ponude i potražnje za proizvodom, prihoda od kamata na otkupljene dionice, te za proučavanje uzroka i vrste funkcije troškova proizvodnje. Takođe se aktivno koristi u širokom spektru makroekonomskih studija i proračuna, ali na nivou mikroekonomije ova jednačina se koristi nešto rjeđe.

Glavni zadatak višestruke regresije je da izgradi model podataka koji sadrži ogromnu količinu informacija kako bi se dalje utvrdilo kakav uticaj ima svaki od faktora pojedinačno i na svoj opšta populacija na indikator koji treba modelirati i njegove koeficijente. Jednačina regresije može poprimiti širok raspon vrijednosti. U ovom slučaju, za procjenu odnosa, obično se koriste dvije vrste funkcija: linearne i nelinearne.

Linearna funkcija je prikazana u obliku sljedećeg odnosa: y = a 0 + a 1 x 1 + a 2 x 2,+ ... + a m x m. U ovom slučaju, a2, a m se smatraju “čistim” koeficijentom regresije. Oni su neophodni za karakterizaciju prosječne promjene parametra y sa promjenom (smanjenjem ili povećanjem) svakog odgovarajućeg parametra x za jednu jedinicu, uz uvjet stabilnih vrijednosti ostalih indikatora.

Nelinearne jednadžbe imaju, na primjer, oblik funkcija snage y=ax 1 b1 x 2 b2 ...x m bm . U ovom slučaju, indikatori b 1, b 2 ..... b m nazivaju se koeficijenti elastičnosti, oni pokazuju kako će se rezultat promijeniti (za koliko%) s povećanjem (smanjenjem) odgovarajućeg indikatora x za 1% i sa stabilnim pokazateljem drugih faktora.

Koje faktore treba uzeti u obzir pri konstruisanju višestruke regresije

Da bi se pravilno izgradila višestruka regresija, potrebno je saznati na koje faktore treba obratiti posebnu pažnju.

Neophodno je imati određeno razumijevanje prirode odnosa između ekonomskih faktora i onoga što se modelira. Faktori koji će se morati uključiti moraju ispunjavati sljedeće kriterije:

  • Mora biti predmet kvantitativnog mjerenja. Da bi se koristio faktor koji opisuje kvalitetu nekog objekta, u svakom slučaju mu treba dati kvantitativni oblik.
  • Ne bi trebalo postojati međusobna povezanost faktora ili funkcionalni odnos. Takve radnje najčešće dovode do nepovratnih posljedica - sistem običnih jednačina postaje bezuvjetan, a to podrazumijeva njegovu nepouzdanost i nejasne procjene.
  • U slučaju velikog korelacionog indikatora, ne postoji način da se sazna izolovani uticaj faktora na krajnji rezultat indikatora, stoga koeficijenti postaju neinterpretljivi.

Metode izgradnje

Postoji ogroman broj metoda i metoda koje objašnjavaju kako možete odabrati faktore za jednadžbu. Međutim, sve ove metode se zasnivaju na odabiru koeficijenata pomoću indikatora korelacije. Među njima su:

  • Metoda eliminacije.
  • Metoda prebacivanja.
  • Postepena regresiona analiza.

Prva metoda uključuje filtriranje svih koeficijenata iz ukupnog skupa. Druga metoda uključuje uvođenje mnogih dodatnih faktora. Pa, treći je eliminacija faktora koji su prethodno korišteni za jednačinu. Svaka od ovih metoda ima pravo na postojanje. Oni imaju svoje prednosti i nedostatke, ali svi mogu na svoj način riješiti pitanje eliminacije nepotrebnih indikatora. U pravilu, rezultati dobiveni svakom pojedinačnom metodom su prilično bliski.

Metode multivarijantne analize

Takve metode za određivanje faktora zasnivaju se na razmatranju pojedinačnih kombinacija međusobno povezanih karakteristika. To uključuje diskriminantnu analizu, prepoznavanje oblika, analizu glavnih komponenti i analizu klastera. Osim toga, postoji i faktorska analiza, ali se pojavila zbog razvoja komponentne metode. Sve se primjenjuju u određenim okolnostima, pod određenim uvjetima i faktorima.

Regresiona i korelaciona analiza – statističke metode istraživanja. Ovo su najčešći načini da se pokaže zavisnost parametra od jedne ili više nezavisnih varijabli.

U nastavku ćemo, koristeći konkretne praktične primjere, razmotriti ove dvije vrlo popularne analize među ekonomistima. Navest ćemo i primjer dobijanja rezultata pri njihovom kombinovanju.

Regresiona analiza u Excelu

Pokazuje uticaj nekih vrednosti (nezavisnih, nezavisnih) na zavisnu varijablu. Na primjer, kako broj ekonomski aktivnog stanovništva zavisi od broja preduzeća, plata i drugih parametara. Ili: kako strane investicije, cijene energije itd. utiču na nivo BDP-a.

Rezultat analize vam omogućava da istaknete prioritete. I na osnovu glavnih faktora predvidjeti i planirati razvoj prioritetne oblasti, donositi upravljačke odluke.

Regresija se dešava:

  • linearni (y = a + bx);
  • parabolični (y = a + bx + cx 2);
  • eksponencijalni (y = a * exp(bx));
  • snaga (y = a*x^b);
  • hiperbolično (y = b/x + a);
  • logaritamski (y = b * 1n(x) + a);
  • eksponencijalni (y = a * b^x).

Pogledajmo primjer izgradnje regresijskog modela u Excelu i interpretacije rezultata. Uzmimo linearni tip regresija.

Zadatak. U 6 preduzeća analizirana je prosječna mjesečna plata i broj zaposlenih koji su otpustili. Potrebno je utvrditi zavisnost broja zaposlenih koji napuštaju rad od prosječne plate.

Model linearne regresije izgleda ovako:

Y = a 0 + a 1 x 1 +…+a k x k.

Gdje su a koeficijenti regresije, x su utjecajne varijable, k je broj faktora.

U našem primjeru, Y je indikator napuštanja zaposlenika. Faktor uticaja su plate (x).

Excel ima ugrađene funkcije koje vam mogu pomoći da izračunate parametre modela linearne regresije. Ali dodatak “Paket analize” će to učiniti brže.

Aktiviramo moćan analitički alat:

Kada se aktivira, dodatak će biti dostupan na kartici Podaci.

Sada uradimo samu regresijsku analizu.



Prije svega, obraćamo pažnju na R-kvadrat i koeficijente.

R-kvadrat je koeficijent determinacije. U našem primjeru – 0,755, odnosno 75,5%. To znači da izračunati parametri modela objašnjavaju 75,5% odnosa između proučavanih parametara. Što je veći koeficijent determinacije, to je model bolji. Dobro - iznad 0,8. Loše – manje od 0,5 (ovakva analiza se teško može smatrati razumnom). U našem primjeru – “nije loše”.

Koeficijent 64.1428 pokazuje koliki će biti Y ako su sve varijable u modelu koji se razmatraju jednake 0. Odnosno, na vrijednost analiziranog parametra utiču i drugi faktori koji nisu opisani u modelu.

Koeficijent -0,16285 pokazuje težinu varijable X na Y. Odnosno, prosječna mjesečna plata u okviru ovog modela utiče na broj onih koji odustaju sa ponderom od -0,16285 (ovo je mali stepen uticaja). Znak “-” ukazuje na negativan uticaj: što je veća plata, manje ljudi daje otkaz. Što je pošteno.



Analiza korelacije u Excel-u

Korelaciona analiza pomaže da se utvrdi da li postoji veza između indikatora u jednom ili dva uzorka. Na primjer, između vremena rada mašine i troškova popravki, cijene opreme i trajanja rada, visine i težine djece itd.

Ako postoji veza, da li povećanje jednog parametra dovodi do povećanja (pozitivna korelacija) ili smanjenja (negativno) drugog. Korelaciona analiza pomaže analitičaru da utvrdi da li se vrednost jednog indikatora može koristiti za predviđanje moguće vrednosti drugog.

Koeficijent korelacije je označen sa r. Varira od +1 do -1. Klasifikacija korelacija za različita područja bit će različita. Kada je koeficijent 0, ne postoji linearna veza između uzoraka.

Pogledajmo kako pronaći koeficijent korelacije koristeći Excel.

Za pronalaženje uparenih koeficijenata koristi se CORREL funkcija.

Cilj: Utvrditi postoji li veza između vremena rada strug i troškove njegovog održavanja.

Postavite kursor u bilo koju ćeliju i pritisnite dugme fx.

  1. U kategoriji “Statistički” odaberite funkciju CORREL.
  2. Argument “Niz 1” - prvi raspon vrijednosti – vrijeme rada mašine: A2:A14.
  3. Argument "Niz 2" - drugi raspon vrijednosti - cijena popravke: B2:B14. Kliknite OK.

Da biste odredili vrstu veze, potrebno je pogledati apsolutni broj koeficijenta (svako polje aktivnosti ima svoju skalu).

Za korelacione analize nekoliko parametara (više od 2), pogodnije je koristiti „Analizu podataka“ (dodatak „Paket analize“). Potrebno je da izaberete korelaciju sa liste i odredite niz. Sve.

Dobijeni koeficijenti će biti prikazani u korelacionoj matrici. Volim ovo:

Korelaciona i regresiona analiza

U praksi se ove dvije tehnike često koriste zajedno.

primjer:


Sada su podaci regresione analize postali vidljivi.

Svrha regresione analize je mjerenje odnosa između zavisne varijable i jedne (parna regresiona analiza) ili više (više) nezavisnih varijabli. Nezavisne varijable se takođe nazivaju faktorske, eksplanatorne, determinantne, regresorske i prediktorske varijable.

Zavisna varijabla se ponekad naziva određena, objašnjena ili “odgovorna” varijabla. Izuzetno rasprostranjena upotreba regresione analize u empirijskim istraživanjima nije samo zbog činjenice da je ona pogodan alat za testiranje hipoteza. Regresija, posebno višestruka regresija, jeste efikasan metod modeliranje i predviđanje.

Počnimo objašnjavati principe rada s regresijskom analizom jednostavnijom - metodom parova.

Uparena regresijska analiza

Prvi koraci pri korištenju regresione analize bit će gotovo identični onima koje smo poduzeli pri izračunavanju koeficijenta korelacije. Za višestruku regresiju relevantna su i tri glavna uslova za efikasnost korelacione analize korišćenjem Pirsonove metode – normalna distribucija varijabli, intervalno merenje varijabli, linearni odnos između varijabli. Shodno tome, u prvoj fazi se konstruišu dijagrami raspršenja, vrši se statistička i deskriptivna analiza varijabli i izračunava regresijska linija. Kao iu okviru korelacione analize, regresijske linije se konstruišu metodom najmanjih kvadrata.

Da bismo jasnije ilustrovali razlike između ove dvije metode analize podataka, okrenimo se već razmatranom primjeru s varijablama “SPS podrška” i “udio ruralnog stanovništva" Izvorni podaci su identični. Razlika u dijagramima raspršenja će biti u tome što je u regresionoj analizi ispravno iscrtati zavisnu varijablu – u našem slučaju, “SPS podršku” na Y-osi, dok u korelacionoj analizi to nije bitno. Nakon čišćenja odstupanja, dijagram raspršenosti izgleda ovako:

Osnovna ideja regresijske analize je da je, imajući opći trend za varijable - u obliku regresijske linije - moguće predvidjeti vrijednost zavisne varijable, s obzirom na vrijednosti nezavisne.

Zamislimo običnu matematičku linearnu funkciju. Svaka prava linija u Euklidskom prostoru može se opisati formulom:

gdje je a konstanta koja specificira pomak duž ordinatne ose; b je koeficijent koji određuje ugao nagiba linije.

Poznavajući nagib i konstantu, možete izračunati (predvidjeti) vrijednost y za bilo koji x.

Ova najjednostavnija funkcija činila je osnovu modela regresione analize uz upozorenje da nećemo tačno predviđati vrijednost y, već unutar određenog intervala povjerenja, tj. otprilike.

Konstanta je tačka preseka linije regresije i y-ose (F-presek, koji se obično označava kao „presretač” u statističkim paketima). U našem primjeru sa glasanjem za Savez desnih snaga, njegova zaokružena vrijednost će biti 10,55. Ugaoni koeficijent b će biti približno -0,1 (kao u korelacionoj analizi, znak pokazuje vrstu veze - direktnu ili inverznu). Tako će rezultujući model imati oblik SP C = -0,1 x Sel. nas. + 10.55.

Dakle, za slučaj „Republike Adigeje“ sa udelom ruralnog stanovništva od 47%, predviđena vrednost će biti 5,63:

ATP = -0,10 x 47 + 10,55 = 5,63.

Razlika između originalne i predviđene vrijednosti naziva se ostatak (s tim pojmom, koji je fundamentalan za statistiku, već smo se susreli pri analizi kontingentnih tablica). Dakle, za slučaj "Republike Adigeje" ostatak će biti jednak 3,92 - 5,63 = -1,71. Što je veća modularna vrijednost ostatka, to je manje uspješno predviđena vrijednost.

Izračunavamo predviđene vrijednosti i ostatke za sve slučajeve:
Dešava se Sjesti. nas. hvala

(original)

hvala

(predviđeno)

Ostaci
Republika Adygea 47 3,92 5,63 -1,71 -
Republika Altai 76 5,4 2,59 2,81
Republika Baškortostan 36 6,04 6,78 -0,74
Republika Buryatia 41 8,36 6,25 2,11
Republika Dagestan 59 1,22 4,37 -3,15
Republika Ingušetija 59 0,38 4,37 3,99
itd.

Analiza omjera početnih i predviđenih vrijednosti služi za procjenu kvaliteta rezultirajućeg modela i njegove prediktivne sposobnosti. Jedan od glavnih pokazatelja statistike regresije je koeficijent višestruke korelacije R - koeficijent korelacije između originalne i predviđene vrijednosti zavisne varijable. U parnoj regresionoj analizi jednak je uobičajenom Pirsonovom koeficijentu korelacije između zavisnih i nezavisnih varijabli, u našem slučaju - 0,63. Za smisleno tumačenje višestrukog R, mora se pretvoriti u koeficijent determinacije. To se radi na isti način kao u korelacionoj analizi - kvadriranjem. Koeficijent determinacije R-kvadrat (R 2) pokazuje proporciju varijacije zavisne varijable koja je objašnjena nezavisnom varijablom(ama).

U našem slučaju, R 2 = 0,39 (0,63 2); to znači da varijabla „udio ruralnog stanovništva“ objašnjava otprilike 40% varijacije u varijabli „SPS podrška“. Što je veći koeficijent determinacije, to je veći kvalitet modela.

Drugi pokazatelj kvaliteta modela je standardna greška procjene. Ovo je mjera koliko su tačke „rasute“ oko regresijske linije. Mjera širenja za intervalne varijable je standardna devijacija. Prema tome, standardna greška procjene je standardna devijacija distribucije reziduala. Što je veća njegova vrijednost, veći je raspršivanje i lošiji je model. U našem slučaju, standardna greška je 2,18. Upravo za taj iznos će naš model „prosečno grešiti” prilikom predviđanja vrednosti varijable „SPS podrška”.

Regresijska statistika također uključuje analizu varijanse. Uz njegovu pomoć saznajemo: 1) koliki je udio varijacije (disperzije) zavisne varijable objašnjen nezavisnom varijablom; 2) koliki deo varijanse zavisne varijable čine ostaci (neobjašnjivi deo); 3) koliki je omjer ove dvije veličine (/"-odnos). Statistika disperzije je posebno važna za studije uzorka - pokazuje koliko je vjerovatno da postoji veza između nezavisnih i zavisnih varijabli u populaciji. Međutim, za kontinuirane studije (kao u našem primjeru) rezultati studije analize varijanse nisu korisni. U ovom slučaju provjeravaju da li je identificirani statistički obrazac uzrokovan kombinacijom slučajnih okolnosti, koliko je karakterističan za kompleks uslova u kojima se populacija koja se ispituje locira, odnosno utvrđuje se da dobijeni rezultat nije tačan za neki širi opšti agregat, već stepen njegove pravilnosti, oslobođenosti od slučajnih uticaja.

U našem slučaju, ANOVA statistika je sljedeća:

SS df GOSPOĐA F značenje
Regres. 258,77 1,00 258,77 54,29 0.000000001
Ostatak 395,59 83,00 L,11
Ukupno 654,36

F-razmjer od 54,29 je značajan na nivou od 0,0000000001. U skladu s tim, sa sigurnošću možemo odbaciti nultu hipotezu (da je odnos koji smo otkrili posljedica slučajnosti).

Kriterij t ima sličnu funkciju, ali u odnosu na koeficijente regresije (ugaoni i F-presjek). Koristeći / kriterij testiramo hipotezu da su u općoj populaciji koeficijenti regresije jednaki nuli. U našem slučaju, opet možemo sa sigurnošću odbaciti nultu hipotezu.

Višestruka regresijska analiza

Model višestruke regresije je skoro identičan modelu uparene regresije; jedina razlika je u tome što je nekoliko nezavisnih varijabli sekvencijalno uključeno u linearnu funkciju:

Y = b1X1 + b2X2 + …+ bpXp + a.

Ako postoji više od dvije nezavisne varijable, ne možemo dobiti vizualnu predstavu o njihovom odnosu; u tom smislu, višestruka regresija je manje „vizualna“ od regresije u paru. Kada imate dvije nezavisne varijable, može biti korisno prikazati podatke u 3D dijagramu raspršenja. U profesionalnim statističkim softverskim paketima (na primjer, Statistica) postoji mogućnost rotiranja trodimenzionalnog grafikona, što vam omogućava da vizualno dobro predstavite strukturu podataka.

Kod rada sa višestrukom regresijom, za razliku od parne regresije, potrebno je odrediti algoritam analize. Standardni algoritam uključuje sve dostupne prediktore u konačnom regresijskom modelu. Korak po korak algoritam uključuje sekvencijalno uključivanje (isključivanje) nezavisnih varijabli na osnovu njihove objašnjavajuće „težine“. Stepwise metoda je dobra kada postoji mnogo nezavisnih varijabli; “čisti” model od iskreno slabih prediktora, čineći ga kompaktnijim i konciznijim.

Dodatni uslov za ispravnost višestruke regresije (uz interval, normalnost i linearnost) je odsustvo multikolinearnosti – prisustvo jakih korelacija između nezavisnih varijabli.

Interpretacija statistike višestruke regresije uključuje sve elemente koje smo razmotrili za slučaj parne regresije. Pored toga, postoje i druge važne komponente statistike višestruke regresione analize.

Rad ćemo ilustrovati višestrukom regresijom na primjeru testiranja hipoteza koje objašnjavaju razlike u nivou izborne aktivnosti u ruskim regijama. Specifične empirijske studije sugeriraju da na nivo izlaznosti birača utiču:

Nacionalni faktor (varijabilna " rusko stanovništvo"; operacionalizovan kao udio ruskog stanovništva u konstitutivnim entitetima Ruske Federacije). Pretpostavlja se da povećanje udjela ruskog stanovništva dovodi do smanjenja izlaznosti birača;

Faktor urbanizacije (varijabilna " gradsko stanovništvo"; operacionalizovan kao udeo gradskog stanovništva u konstitutivnim entitetima Ruske Federacije, sa ovim faktorom smo već radili u okviru korelacione analize). Pretpostavlja se da povećanje udjela gradskog stanovništva dovodi i do smanjenja izlaznosti birača.

Zavisna varijabla - "intenzitet izborne aktivnosti" ("aktivan") operacionalizovana je kroz podatke o prosječnom odzivu po regionima na saveznim izborima od 1995. do 2003. godine. Početna tabela podataka za dvije nezavisne i jednu zavisnu varijablu bit će sljedeća:

Dešava se Varijable
Imovina. Gor. nas. Rus. nas.
Republika Adygea 64,92 53 68
Republika Altai 68,60 24 60
Republika Buryatia 60,75 59 70
Republika Dagestan 79,92 41 9
Republika Ingušetija 75,05 41 23
Republika Kalmikija 68,52 39 37
Republika Karachay-Cherkess 66,68 44 42
Republika Karelija 61,70 73 73
Republika Komi 59,60 74 57
Republika Mari El 65,19 62 47

itd. (nakon čišćenja emisija, ostala su 83 slučaja od 88)

Statistike koje opisuju kvalitet modela:

1. Višestruki R = 0,62; L-kvadrat = 0,38. Shodno tome, nacionalni faktor i faktor urbanizacije zajedno objašnjavaju oko 38% varijacije varijable „izborna aktivnost“.

2. Prosječna greška je 3,38. Upravo toliko je „prosječno pogrešan“ konstruirani model kada se predviđa nivo izlaznosti.

3. /l-odnos objašnjene i neobjašnjive varijacije je 25,2 na nivou 0,000000003. Odbacuje se nulta hipoteza o slučajnosti identifikovanih veza.

4. Kriterijum / za konstantne i regresijske koeficijente varijabli „gradsko stanovništvo“ i „rusko stanovništvo“ je značajan na nivou od 0,0000001; 0,00005 i 0,007 respektivno. Nul hipoteza da su koeficijenti slučajni se odbacuje.

Dodatne korisne statistike u analizi odnosa između originalne i predviđene vrijednosti zavisne varijable su Mahalanobisova udaljenost i Cookova udaljenost. Prvi je mjera jedinstvenosti slučaja (pokazuje koliko kombinacija vrijednosti svih nezavisnih varijabli za dati slučaj odstupa od prosječne vrijednosti za sve nezavisne varijable istovremeno). Druga je mjera uticaja slučaja. Različita opažanja imaju različite efekte na nagib linije regresije, a Cookova udaljenost se može koristiti za njihovo upoređivanje na ovom indikatoru. Ovo može biti korisno pri čišćenju izvanrednih vrijednosti (odvojeni slučaj se može smatrati pretjerano utjecajnim slučajem).

U našem primjeru, jedinstveni i utjecajni slučajevi uključuju Dagestan.

Dešava se Original

vrijednosti

Predska

vrijednosti

Ostaci Razdaljina

Mahalanobis

Razdaljina
Adygea 64,92 66,33 -1,40 0,69 0,00
Republika Altai 68,60 69.91 -1,31 6,80 0,01
Republika Buryatia 60,75 65,56 -4,81 0,23 0,01
Republika Dagestan 79,92 71,01 8,91 10,57 0,44
Republika Ingušetija 75,05 70,21 4,84 6,73 0,08
Republika Kalmikija 68,52 69,59 -1,07 4,20 0,00

Zapravo regresijski model ima sljedeće parametre: Y-presjek (konstanta) = 75,99; b (horizontalno) = -0,1; Kommersant (rus. nas.) = -0,06. Konačna formula:

Aktivan, = -0,1 x Hor. us.n+- 0,06 x Rus. us.n + 75,99.

Možemo li uporediti „snagu objašnjenja“ prediktora na osnovu vrijednosti koeficijenta 61. U ovom slučaju, da, pošto obje nezavisne varijable imaju isti format procenta. Međutim, najčešće se višestruka regresija bavi varijablama mjerenim na različitim skalama (na primjer, nivo prihoda u rubljama i starost u godinama). Stoga, u opštem slučaju, nije ispravno porediti prediktivne sposobnosti varijabli koristeći koeficijent regresije. U statistici višestruke regresije postoji poseban beta koeficijent (B) za ovu svrhu, koji se posebno izračunava za svaku nezavisnu varijablu. Predstavlja parcijalni (izračunat nakon uzimanja u obzir uticaja svih ostalih prediktora) koeficijent korelacije između faktora i odgovora i pokazuje nezavisni doprinos faktora predviđanju vrednosti odgovora. U parnoj regresionoj analizi, beta koeficijent je, iz očiglednih razloga, jednak koeficijentu parna korelacija između zavisne i nezavisne varijable.

U našem primjeru, beta (Highland populacija) = -0,43, beta (Rusko stanovništvo) = -0,28. Dakle, oba faktora negativno utiču na nivo izborne aktivnosti, dok je značaj faktora urbanizacije znatno veći od značaja nacionalnog faktora. Kombinovani uticaj oba faktora određuje oko 38% varijacije varijable „izborna aktivnost” (vidi vrednost L-kvadrata).

mob_info