Kovarijansa i korelacija. Primjer rješavanja problema na Wikimaticu. Kovarijansne i korelacijske matrice slučajnog vektora Procjena statističke značajnosti koeficijenta korelacije

Koliko često ste čuli izjave koje govore da je jedna pojava u korelaciji s drugom?

„Visoki rast povezan je s dobrim obrazovanjem i srećom, tvrde stručnjaci iz Gallupove ankete.

“Cijena nafte je u korelaciji sa deviznim kursom.”

“Bolovi mišića nakon vježbanja nisu u korelaciji s hipertrofijom mišićnih vlakana.”

Čini se da je koncept "korelacije" postao široko korišten ne samo u nauci, već iu svakodnevnom životu. Korelacija odražava stepen linearne veze između dva slučajna fenomena. Dakle, kada cene nafte počnu da padaju, kurs dolara u odnosu na rublju počinje da raste.

Iz svega navedenog možemo zaključiti da su prilikom opisivanja dvodimenzionalnih slučajnih varijabli takve dobro poznate karakteristike kao što su matematičko očekivanje, disperzija i standardna devijacija ponekad nedovoljne. Stoga se za njihovo opisivanje često koriste još dvije vrlo važne karakteristike: kovarijansa I korelacija.

Kovarijansa

Kovarijansa$cov\left(X,\ Y\right)$ slučajnih varijabli $X$ i $Y$ je matematičko očekivanje proizvoda slučajnih varijabli $X-M\left(X\right)$ i $Y-M\left(Y \desno)$, odnosno:

$$cov\left(X,\ Y\desno)=M\levo(\levo(X-M\levo(X\desno)\desno)\levo(Y-M\levo(Y\desno)\desno)\desno). $$

Može biti zgodno izračunati kovarijansu slučajnih varijabli $X$ i $Y$ koristeći sljedeću formulu:

$$cov\left(X,\ Y\desno)=M\levo(XY\desno)-M\levo(X\desno)M\levo(Y\desno),$$

koji se može dobiti iz prve formule koristeći svojstva matematičkog očekivanja. Hajde da navedemo glavne svojstva kovarijanse.

1 . Kovarijansa slučajne varijable sa samom sobom je njena varijansa.

$$cov\lijevo(X,\ X\desno)=D\lijevo(X\desno).$$

2 . Kovarijansa je simetrična.

$$cov\lijevo(X,\ Y\desno)=cov\lijevo(Y,\ X\desno).$$

3 . Ako su slučajne varijable $X$ i $Y$ nezavisne, tada:

$$cov\lijevo(X,\ Y\desno)=0.$$

4 . Konstantni faktor se može izvaditi iz predznaka kovarijanse.

$$cov\left(cX,\ Y\desno)=cov\left(X,\ cY\right)=c\cdot cov\left(X,\ Y\desno).$$

5 . Kovarijansa se neće promijeniti ako se jednoj od slučajnih varijabli (ili dvije odjednom) doda konstantna vrijednost:

$$cov\left(X+c,\ Y\desno)=cov\levo(X,\ Y+c\desno)=cov\left(X+x,\ Y+c\desno)=cov\left( X,\Y\desno).$$

6 . $cov\left(aX+b,\ cY+d\right)=ac\cdot cov\left(X,\ Y\right)$.

7 . $\left|cov\left(X,\ Y\right)\right|\le \sqrt(D\left(X\right)D\left(Y\right))$.

8 . $\left|cov\left(X,\ Y\right)\right|=\sqrt(D\left(X\right)D\left(Y\right))\Leftrightarrow Y=aX+b$.

9 . Varijanca sume (razlike) slučajnih varijabli jednaka je zbroju njihovih varijansi plus (minus) dvostrukoj kovarijansi ovih slučajnih varijabli:

$$D\left(X\pm Y\desno)=D\levo(X\desno)+D\levo(Y\desno)\pm 2cov\left(X,\ Y\desno).$$

Primjer 1 . Data je korelacija slučajnog vektora $\left(X,\ Y\right)$. Izračunajte kovarijansu $cov\left(X,\ Y\right)$.

$\begin(niz)(|c|c|)
\hline

\hline
-2 & 0,1 & 0 & 0,2 \\
\hline
0 & 0.05 & p_(22) & 0 \\
\hline
1 & 0 & 0,2 & 0,05 \\
\hline
7 & 0,1 & 0 & 0,1 \\
\hline
\end(niz)$

Događaji $\left(X=x_i,\ Y=y_j\right)$ čine kompletnu grupu događaja, stoga zbir svih vjerovatnoća $p_(ij)$ navedenih u tabeli mora biti jednak 1. Tada $0,1 +0+0 ,2+0.05+p_(22)+0+0+0.2+0.05+0.1+0+0.1=1$, dakle $p_(22)=0.2$.

$\begin(niz)(|c|c|)
\hline
X\backslash Y & -6 & 0 & 3 \\
\hline
-2 & 0,1 & 0 & 0,2 \\
\hline
0 & 0,05 & 0,2 & 0 \\
\hline
1 & 0 & 0,2 & 0,05 \\
\hline
7 & 0,1 & 0 & 0,1 \\
\hline
\end(niz)$

Koristeći formulu $p_(i) =\sum _(j)p_(ij) $, nalazimo seriju distribucije slučajne varijable $X$.

$\begin(niz)(|c|c|)
\hline
X & -2 & 0 & 1 & 7 \\
\hline
p_i & 0,3 & 0,25 & 0,25 & 0,2 \\
\hline
\end(niz)$

$$M\left(X\right)=\sum^n_(i=1)(x_ip_i)=-2\cdot 0.3+0\cdot 0.25+1\cdot 0.25+7\cdot 0 ,2=1.05.$ $

$$D\left(X\right)=\sum^n_(i=1)(p_i(\left(x_i-M\left(X\right)\right))^2)=0.3\cdot (\left (-2-1.05\desno))^2+0.25\cdot (\levo(0-1.05\desno))^2+0.25\cdot (\levo(1-1, 05\desno))^2+$$

$$+\ 0.2\cdot (\levo(7-1.05\desno))^2=10.1475.$$

$$\sigma \left(X\right)=\sqrt(D\left(X\right))=\sqrt(10.1475)\približno 3.186.$$

Koristeći formulu $q_(j) =\sum _(i)p_(ij) $, nalazimo seriju distribucije slučajne varijable $Y$.

$\begin(niz)(|c|c|)
\hline
Y & -6 & 0 & 3 \\
\hline
p_i & 0,25 & 0,4 & 0,35 \\
\hline
\end(niz)$

$$M\left(Y\right)=\sum^n_(i=1)(y_ip_i)=-6\cdot 0.25+0\cdot 0.4+3\cdot 0.35=-0.45 .$$

$$D\left(Y\right)=\sum^n_(i=1)(p_i(\left(y_i-M\left(Y\right)\right))^2)=0.25\cdot (\left (-6+0,45\desno))^2+0,4\cdot (\lijevo(0+0,45\desno))^2+0,35\cdot (\lijevo(3+0, 45\desno))^2=11,9475. $$

$$\sigma \left(Y\right)=\sqrt(D\left(Y\right))=\sqrt(11.9475)\približno 3.457.$$

Pošto je $P\left(X=-2,\ Y=-6\right)=0.1\ne 0.3\cdot 0.25$, onda su slučajne varijable $X,\ Y$ zavisne.

Definirajmo kovarijansu $cov\ \left(X,\ Y\right)$ slučajnih varijabli $X,\ Y$ formulom $cov\left(X,\ Y\right)=M\left(XY\) desno)-M\ lijevo(X\desno)M\lijevo(Y\desno)$. Matematičko očekivanje proizvoda slučajnih varijabli $X,\Y$ jednako je:

$$M\left(XY\right)=\sum_(i,\ j)(p_(ij)x_iy_j)=0.1\cdot \left(-2\right)\cdot \left(-6\right) +0.2 \cdot \left(-2\right)\cdot 3+0.05\cdot 1\cdot 3+0.1\cdot 7\cdot \left(-6\right)+0.1\cdot 7\cdot 3=-1.95.$$

Tada $cov\left(X,\ Y\right)=M\left(XY\right)-M\left(X\right)M\left(Y\right)=-1.95-1.05\cdot \left(- 0.45\right)=-1.4775.$ Ako su slučajne varijable nezavisne, onda je njihova kovarijansa nula. U našem slučaju, $cov(X,Y)\ne 0$.

Korelacija

Koeficijent korelacije slučajne varijable $X$ i $Y$ se nazivaju brojem:

$$\rho \levo(X,\ Y\desno)=((cov\levo(X,\ Y\desno))\preko (\sqrt(D\left(X\desno)D\levo(Y\desno) )))).$$

Hajde da navedemo glavne svojstva koeficijenta korelacije.

1 . $\rho \levo(X,\ X\desno)=1$.

2 . $\rho \left(X,\ Y\right)=\rho \left(Y,\ X\right)$.

3 . $\rho \left(X,\ Y\right)=0$ za nezavisne slučajne varijable $X$ i $Y$.

4 . $\rho \left(aX+b,\ cY+d\right)=(sgn \left(ac\right)\rho \left(X,\ Y\right)\ )$, gdje je $(sgn \left( ac\right)\ )$ je znak proizvoda $ac$.

5 . $\left|\rho \left(X,\ Y\right)\right|\le 1$.

6 . $\left|\rho \left(X,\ Y\right)\right|=1\Leftrightarrow Y=aX+b$.

Prethodno je rečeno da koeficijent korelacije $\rho \left(X,\ Y\right)$ odražava stepen linearne zavisnosti između dvije slučajne varijable $X$ i $Y$.

Kada je $\rho \left(X,\ Y\right)>0$ možemo zaključiti da kako slučajna varijabla $X$ raste, slučajna varijabla $Y$ ima tendenciju povećanja. To se zove pozitivna korelacija. Na primjer, visina i težina osobe su u pozitivnoj korelaciji.

Kada $\rho \lijevo(X,\ Y\desno)<0$ можно сделать вывод о том, что с ростом случайной величины $X$ случайная величина $Y$ имеет тенденцию к уменьшению. Это называется отрицательной корреляционной зависимостью. Например, температура и время сохранности продуктов питания связаны между собой отрицательной корреляционной зависимостью.

Kada je $\rho \left(X,\ Y\right)=0$, slučajne varijable $X$ i $Y$ se nazivaju nekoreliranim. Vrijedi napomenuti da nekorelirana priroda slučajnih varijabli $X$ i $Y$ ne znači njihovu statističku neovisnost, to samo znači da ne postoji linearna veza između njih.

Primjer 2 . Odredimo koeficijent korelacije $\rho \left(X,\ Y\right)$ za dvodimenzionalnu slučajnu varijablu $\left(X,\ Y\right)$ iz primjera 1.

Koeficijent korelacije slučajnih varijabli $X,\Y$ je jednak $r_(XY) =(cov(X,Y)\preko \sigma (X)\sigma (Y)) =(-1,4775\preko 3,186\cdot 3.457) =-0.134.$ Od $r_(XY)<0$, то с ростом $X$ случайная величина $Y$ имеет тенденцию к уменьшению (отрицательная корреляционная зависимость).

Matematički kovarijansa (engleski Kovarijansa) je mjera linearne zavisnosti dvije slučajne varijable. U teoriji portfelja, ovaj indikator se koristi za određivanje odnosa između prinosa na određenu hartiju od vrijednosti i prinosa na portfolio vrijednosnih papira. Da biste izračunali kovarijansu prinosa, trebate koristiti sljedeću formulu:

Gdje k i– profitabilnost hartije od vrednosti u i-tom periodu;

Očekivani (prosječni) povrat vrijednosnog papira;

p i– prinos portfelja u i-tom periodu;

Očekivani (prosječni) prinos portfelja;

n– broj zapažanja.

Treba napomenuti da ( n-1) ako je kovarijansa izračunata na osnovu uzorka iz populacije opservacija. Ako se u proračunima uzme u obzir cijela populacija, onda se imenilac zamjenjuje n.

Primjer. U tabeli je prikazana dinamika profitabilnosti akcija Kompanije A i Kompanije B, kao i dinamika profitabilnosti portfelja hartija od vrednosti.


Da biste koristili gornju formulu za izračunavanje kovarijanse prinosa svake dionice s portfeljem, morate izračunati prosječni prinos, koji će biti:

  • za akcije Kompanije A 4,986%;
  • za akcije Kompanije B 5,031%;
  • za portfelj 3,201%.

Tako će kovarijansa akcija Kompanije A sa portfeljem biti -0,313, a akcija Kompanije B 0,242.

Cov(kA,kp) = ((5,93-4,986)(2,27-3,201) + (5,85-4,986)(2,39-3,201) + (5,21-4,986)(3,47-3,201) + (5,37-4,986)(3,21-3,201) + (4,99-4,986)(2,95-3,201) + (4,87-4,986)(2,97-3,201) + (4,70-4,986)(3,32-3,201) + (4,75-4,986)(3,65-3,201) + (4,33-4,986)(3,97-3,201) + (3,86-4,986)(3,81-3,201))/(10-1) = -0,313

Cov (k B, k p) = ((4,25-5,031)(2,27-3,201) + (4,47-5,031)(2,39-3,201) + (4,68-5,031)(3,47-3,201) + (4,71-5,031)(3,21-3,201) + (4,77-5,031)(2,95-3,201) + (5,25-5,031)(2,97-3,201) + (5,45-5,031)(3,32-3,201) + (5,33-5,031)(3,65-3,201) + (5,55-5,031)(3,97-3,201) + (5,85-5,031)(3,81-3,201))/(10-1) = 0,242

Slični proračuni se mogu napraviti u Microsoft Excelu koristeći funkciju “COVARIANCE.B” za uzorak iz populacije ili funkciju “COVARIATION.G” za cijelu populaciju.

Tumačenje kovarijanse

Vrijednost kovarijansnog koeficijenta može biti negativna ili pozitivna. Njegova negativna vrijednost ukazuje da se prinos hartije od vrijednosti i prinos portfelja kreću u različitim smjerovima. Drugim riječima, ako prinos hartije od vrijednosti raste, prinos portfelja će pasti, i obrnuto. Pozitivna vrijednost ukazuje da se prinosi hartije od vrijednosti i portfelja kreću u istom smjeru.

Niska vrijednost (blizu 0) koeficijenta kovarijacije se uočava kada su fluktuacije prinosa hartije od vrijednosti i prinosa portfelja nasumične.

Izračunajmo koeficijent korelacije i kovarijansu za različite vrste odnosa između slučajnih varijabli.

Koeficijent korelacije(korelacioni kriterijum Pearson, engleski Pearson Product Moment koeficijent korelacije) određuje stepen linearno veze između slučajnih varijabli.

Kao što slijedi iz definicije, izračunati koeficijent korelacije potrebno je poznavati distribuciju slučajnih varijabli X i Y. Ako su distribucije nepoznate, procijeniti koeficijent korelacije korišteno koeficijent korelacije uzorkar ( takođe je označen kao Rxy ili r xy) :

gdje je S x – standardna devijacija uzorak slučajne varijable x, izračunat po formuli:

Kao što se vidi iz formule izračuna korelacije, nazivnik (proizvod standardnih devijacija) jednostavno normalizira brojnik tako da korelacija ispada da je to bezdimenzionalni broj od -1 do 1. Korelacija I kovarijansa dati iste informacije (ako su poznate standardne devijacije), Ali korelacija praktičniji za upotrebu, jer to je bezdimenzionalna veličina.

Izračunaj koeficijent korelacije I uzorkovana kovarijansa u MS EXCEL-u nije teško, jer za tu svrhu postoje posebne funkcije CORREL() i KOVAR(). Mnogo je teže shvatiti kako protumačiti dobivene vrijednosti.

Teorijsko povlačenje

Da vas podsjetimo na to korelacione veze nazivaju statistički odnos koji se sastoji u činjenici da različite vrijednosti jedne varijable odgovaraju različitim prosjek vrijednosti su različite (sa promjenom vrijednosti X prosječna vrijednost Y se mijenja na pravilan način). Pretpostavlja se da oboje varijable X i Y su nasumično vrijednosti i imaju određeni slučajni raspršivanje u odnosu na njih prosječna vrijednost.

Napomena. Ako samo jedna varijabla, na primjer, Y, ima slučajnu prirodu, a vrijednosti druge su determinističke (podešene od strane istraživača), onda možemo govoriti samo o regresiji.

Tako se, na primjer, pri proučavanju zavisnosti srednje godišnje temperature ne može govoriti korelacije temperaturu i godinu posmatranja i, shodno tome, primijeniti indikatore korelacije sa njihovim odgovarajućim tumačenjem.

Korelacija između varijabli može nastati na nekoliko načina:

  1. Prisustvo uzročne veze između varijabli. Na primjer, iznos ulaganja u naučna istraživanja (varijabla X) i broj primljenih patenata (Y). Prva varijabla se pojavljuje kao nezavisna varijabla (faktor), drugo - zavisna varijabla (ishod). Mora se imati na umu da ovisnost veličina određuje postojanje korelacije između njih, ali ne i obrnuto.
  2. Prisustvo konjugacije (česti uzrok). Na primjer, kako organizacija raste, povećavaju se platni fond (platni spisak) i troškovi iznajmljivanja prostorija. Očigledno, pogrešno je pretpostaviti da zakup prostorija zavisi od platnog spiska. Obje ove varijable u mnogim slučajevima linearno zavise od broja osoblja.
  3. Uzajamni uticaj varijabli (kada se jedna mijenja mijenja se druga varijabla i obrnuto). Ovim pristupom su dozvoljene dvije formulacije problema; Svaka varijabla može djelovati i kao nezavisna varijabla i kao zavisna varijabla.

dakle, indikator korelacije pokazuje koliko jaka linearni odnos između dva faktora (ako postoji), a regresija vam omogućava da predvidite jedan faktor na osnovu drugog.

Korelacija, kao i svaki drugi statistički indikator, može biti koristan kada se pravilno koristi, ali ima i ograničenja u upotrebi. Ako pokazuje jasno definisan linearni odnos ili potpuni nedostatak odnosa, onda korelacijaće ovo divno odraziti. Ali, ako podaci pokazuju nelinearan odnos (na primjer, kvadratni), prisutnost zasebnih grupa vrijednosti ili izvanrednih vrijednosti, tada izračunata vrijednost koeficijent korelacije može dovesti u zabludu (pogledajte primjer fajla).

Korelacija blizu 1 ili -1 (tj. bliska apsolutnoj vrijednosti 1) pokazuje jak linearni odnos između varijabli, vrijednost blizu 0 ne pokazuje nikakvu vezu. Pozitivno korelacija znači da sa povećanjem jednog pokazatelja drugi u prosjeku raste, a kod negativnog opada.

Da bi se izračunao koeficijent korelacije, potrebno je da upoređene varijable zadovolje sledeće uslove:

  • broj varijabli mora biti jednak dva;
  • varijable moraju biti kvantitativne (npr. učestalost, težina, cijena). Izračunati prosjek ovih varijabli ima jasno značenje: prosječna cijena ili prosječna težina pacijenta. Za razliku od kvantitativnih varijabli, kvalitativne (nominalne) varijable uzimaju vrijednosti samo iz konačnog skupa kategorija (na primjer, spol ili krvna grupa). Ove vrijednosti su konvencionalno povezane s brojčanim vrijednostima (na primjer, ženski rod je 1, a muški rod je 2). Jasno je da je u ovom slučaju kalkulacija prosječna vrijednost, koje je potrebno pronaći korelacije, nije tačan, a samim tim i sam proračun nije tačan korelacije;
  • varijable moraju biti slučajne varijable i imati .

Dvodimenzionalni podaci mogu imati različite strukture. Neki od njih zahtijevaju posebne pristupe u radu sa:

  • Za podatke s nelinearnim odnosom korelacija mora se koristiti s oprezom. Za neke probleme može biti korisno transformirati jednu ili obje varijable da bi se proizveo linearni odnos (ovo zahtijeva pretpostavku o tipu nelinearnog odnosa kako bi se predložio tip transformacije koji je potreban).
  • Korišćenjem raspršene dijagrame Neki podaci mogu pokazivati ​​nejednake varijacije (razbacane). Problem sa neujednačenim varijacijama je u tome što lokacije sa velikom varijacijom ne samo da pružaju najmanje tačne informacije, već imaju i najveći uticaj pri izračunavanju statistike. Ovaj problem se također često rješava transformacijom podataka, kao što je korištenje logaritama.
  • Može se uočiti da su neki podaci podijeljeni u grupe (klastering), što može ukazivati ​​na potrebu podjele stanovništva na dijelove.
  • Izuzetak (vrijednost koja oštro odstupa) može iskriviti izračunatu vrijednost koeficijenta korelacije. Izuzetak može biti posljedica slučajnosti, greške u prikupljanju podataka ili može zapravo odražavati neke karakteristike odnosa. Pošto outlier uveliko odstupa od prosječne vrijednosti, on daje veliki doprinos izračunavanju indikatora. Statistički indikatori se često izračunavaju sa i bez uzimanja u obzir odstupanja.

Korištenje MS EXCEL-a za izračunavanje korelacije

Uzmimo 2 varijable kao primjer X I Y i, shodno tome, uzorak koji se sastoji od nekoliko parova vrijednosti (X i; Y i). Radi jasnoće, napravimo .

Napomena: Za više informacija o izradi dijagrama pogledajte članak. U primjeru datoteke za izgradnju raspršene dijagrame koristi jer Ovdje smo odstupili od zahtjeva da varijabla X bude nasumična (ovo pojednostavljuje generiranje različitih tipova odnosa: konstruiranje trendova i datog raspona). Za stvarne podatke, morate koristiti Scatter grafikon (pogledajte dolje).

Izračuni korelacije Nacrtajmo odnose između varijabli za različite slučajeve: linearni, kvadratni i at nedostatak komunikacije.

Napomena: U datoteci primjera možete postaviti parametre linearnog trenda (nagib, Y-presjek) i stupanj raspršenosti u odnosu na ovu liniju trenda. Također možete podesiti kvadratne parametre.

U primjeru datoteke za izgradnju raspršene dijagrame ako ne postoji zavisnost varijabli, koristi se dijagram raspršenja. U ovom slučaju, tačke na dijagramu su raspoređene u obliku oblaka.

Napomena: Imajte na umu da promjenom skale dijagrama duž vertikalne ili horizontalne ose, oblaku tačaka može se dati izgled vertikalne ili horizontalne linije. Jasno je da će varijable ostati nezavisne.

Kao što je gore pomenuto, za izračunavanje koeficijent korelacije u MS EXCEL-u postoji funkcija CORREL(). Također možete koristiti sličnu funkciju PEARSON(), koja vraća isti rezultat.

Da biste bili sigurni da su kalkulacije korelacije su proizvedeni pomoću funkcije CORREL() koristeći gore navedene formule; korelacije koristeći detaljnije formule:

=COVARIANCE.G(B28:B88;D28:D88)/STDEV.G(B28:B88)/STDEV.G(D28:D88)

=COVARIANCE.B(B28:B88;D28:D88)/STDEV.B(B28:B88)/STDEV.B(D28:D88)

Napomena: Square koeficijent korelacije r je jednako koeficijent determinacije R2, koji se izračunava kada se konstruiše linija regresije pomoću funkcije QPIRSON(). Vrijednost R2 se također može ispisati na dijagram raspršivanja izgradnjom linearnog trenda koristeći standardnu ​​MS EXCEL funkcionalnost (odaberite grafikon, odaberite karticu Layout, zatim u grupi Analiza kliknite na dugme Linija trenda i odaberite Linearna aproksimacija). Za više informacija o izgradnji linije trenda, pogledajte, na primjer, .

Korištenje MS EXCEL-a za izračunavanje kovarijanse

Kovarijansa je blizak po značenju (također mjera disperzije) s tom razlikom što je definiran za 2 varijable, i disperzija- za jednog. Prema tome, cov(x;x)=VAR(x).

Za izračunavanje kovarijanse u MS EXCEL-u (počevši od verzije 2010), koriste se funkcije COVARIATION.G() i COVARIATION.V(). U prvom slučaju, formula za izračunavanje je slična gornjoj (kraj .G stoji za Populacija), u drugom se umjesto množitelja 1/n koristi 1/(n-1), tj. kraj .IN stoji za Uzorak.

Napomena: Funkcija COVAR(), koja je prisutna u MS EXCEL-u u ranijim verzijama, slična je funkciji COVARIATION.G().

Napomena: Funkcije CORREL() i COVAR() predstavljene su u engleskoj verziji kao CORREL i COVAR. Funkcije COVARIANCE.G() i COVARIANCE.B() kao COVARIANCE.P i COVARIANCE.S.

Dodatne formule za proračun kovarijanse:

=ZBIRNI PROIZVOD(B28:B88-PROSEK(B28:B88);(D28:D88-PROSEK(D28:D88)))/BROJ(D28:D88)

=ZBIRNI PROIZVOD(B28:B88-PROSEK(B28:B88),(D28:D88))/BROJ(D28:D88)

=ZBIRNI PROIZVOD(B28:B88;D28:D88)/BROJ(D28:D88)-PROSEK(B28:B88)*PROSEK(D28:D88)

Ove formule koriste svojstvo kovarijanse:

Ako su varijable x I y nezavisne, onda je njihova kovarijansa 0. Ako varijable nisu nezavisne, tada je varijanca njihovog sume jednaka:

VAR(x+y)= VAR(x)+ VAR(y)+2COV(x;y)

A disperzija njihova razlika je jednaka

VAR(x-y)= VAR(x)+ VAR(y)-2COV(x;y)

Procjena statističke značajnosti koeficijenta korelacije

Da bismo testirali hipotezu, moramo znati distribuciju slučajne varijable, tj. koeficijent korelacije r. Obično se hipoteza ne testira za r, već za slučajnu varijablu t r:

koji ima n-2 stepena slobode.

Ako je izračunata vrijednost slučajne varijable |t r | je veća od kritične vrijednosti t α,n-2 (α-specificirana), tada se nulta hipoteza odbacuje (odnos između vrijednosti je statistički značajan).

Dodatak za paket za analizu

B za izračunavanje kovarijanse i korelacije postoje instrumenti istog imena analiza.

Nakon pozivanja alata, pojavljuje se dijaloški okvir koji sadrži sljedeća polja:

  • Interval unosa: trebate unijeti vezu do raspona sa izvornim podacima za 2 varijable
  • Grupisanje: U pravilu se izvorni podaci unose u 2 kolone
  • Oznake u prvom redu: ako je polje za potvrdu označeno, onda Interval unosa mora sadržavati zaglavlja kolona. Preporučljivo je označiti okvir tako da rezultat dodatka sadrži informativne stupce
  • Izlazni interval: opseg ćelija u koje će se nalaziti rezultati proračuna. Dovoljno je označiti gornju lijevu ćeliju ovog raspona.

Dodatak vraća izračunate vrijednosti korelacije i kovarijance (za kovarijansu se također izračunavaju varijanse obje slučajne varijable).

U slučaju višedimenzionalne slučajne varijable (slučajni vektor), karakteristika raspršenosti njenih komponenti i odnosa između njih je matrica kovarijanse.

Kovarijansna matrica definira se kao matematičko očekivanje proizvoda centriranog slučajnog vektora istim, ali transponiranim vektorom:

Gdje

Matrica kovarijanse ima oblik


gdje su varijanse slučajnih vektorskih koordinata smještene duž dijagonale o n =D Xi, o 22 =D X2, o kk = D Xk, a preostali elementi predstavljaju kovarijance između koordinata

°12 = M"x i x 2 j a 1* = M-jc,** >

Matrica kovarijanse je simetrična matrica, tj.

Na primjer, razmotrite matricu kovarijanse dvodimenzionalnog vektora


Matrica kovarijanse se dobija na sličan način za bilo koji /^-dimenzionalni vektor.

Koordinatne disperzije se mogu predstaviti kao

gdje je Gi,C2,...,0? - standardne devijacije slučajnih vektorskih koordinata.

Kao što je poznato, koeficijent korelacije je omjer kovarijanse i proizvoda standardnih devijacija:

Nakon normalizacije posljednjim omjerom članova matrice kovarijanse, dobija se korelacija matrice


što je simetrično i nenegativno određeno.

Višedimenzionalni analog disperzije slučajne varijable je generalizirana disperzija, koja se podrazumijeva kao vrijednost determinante matrice kovarijanse

Još jedna opšta karakteristika stepena disperzije multivarijantne slučajne varijable je trag kovarijansne matrice

gdje su Skk dijagonalni elementi matrice kovarijanse.

Često se u multivarijantnoj statističkoj analizi koristi normalna distribucija.

Generalizacija normalne gustoće vjerovatnoće na slučaj ^-dimenzionalnog slučajnog vektora je funkcija

gdje je q = (pj, q 2 , M^) m - vektor kolone matematičkih očekivanja;

|X| - determinanta kovarijansne matrice X;

1 - inverzna kovarijansna matrica.

Matrica X -1, inverzna matrici X dimenzije puh p, mogu se dobiti na razne načine. Jedna od njih je Jordan-Gaussova metoda. U ovom slučaju se sastavlja matrična jednačina

Gdje X- vektor kolone varijabli, čiji je broj jednak i; b- i je dimenzionalni vektor kolone sa desne strane.

Pomnožimo jednačinu (6.21) s lijeve strane inverznom matricom XG 1:

Pošto proizvod inverzne matrice i date daje matricu identiteta E, To

Ako umjesto toga b uzeti jedinični vektor

zatim proizvod X -1 -e x daje prvi stupac inverzne matrice. Ako uzmemo drugi jedinični vektor

zatim proizvod E 1 e 2 daje prvi stupac inverzne matrice, itd. Dakle, sekvencijalno rješavanje jednačina

koristeći Jordan-Gaussovu metodu, dobijamo sve stupce inverzne matrice.

Druga metoda za dobijanje matrice inverzne matrici E uključuje izračunavanje algebarskih komplemenata A tJ .= (/= 1, 2,..., p; j = 1, 2, ..., p) na elemente date matrice E, zamjenjujući ih umjesto elemenata matrice E i transportujući takvu matricu:

Inverzna matrica se dobija nakon dijeljenja elemenata IN na determinantu matrice E:

Važna karakteristika dobijanja inverzne matrice u ovom slučaju je da je kovarijantna matrica E slabo uslovljena. To dovodi do činjenice da se prilikom invertiranja takvih matrica mogu pojaviti prilično ozbiljne greške. Sve to zahtijeva osiguravanje potrebne tačnosti proračunskog procesa ili korištenje posebnih metoda prilikom izračunavanja takvih matrica.

Primjer. Napišite izraz gustoće vjerovatnoće za normalno raspoređenu dvodimenzionalnu slučajnu varijablu (X v X 2)

pod uslovom da matematička očekivanja, varijanse i kovarijanse ovih veličina imaju sljedeće vrijednosti:

Rješenje. Inverzna kovarijansna matrica za matricu (6.19) može se dobiti korištenjem sljedećeg matričnog inverznog izraza za matricu X:

gdje je A determinanta matrice X.

A i, L 12, A 21, A 22- algebarski dodaci odgovarajućim elementima matrice X.

Zatim za matricu ]r- ! dobijamo izraz

Kako je a 12 = 01O2R i °2i =a 2 a iP> i a i2 a 2i = cyfst|r, onda,

Hajde da nađemo posao



Funkcija gustoće vjerovatnoće će biti zapisana u obliku

Zamjenom početnih podataka dobijamo sljedeći izraz za funkciju gustoće vjerovatnoće


Razmotrimo tehniku ​​izračunavanja kovarijanse i korelacije povrata sigurnosti koristeći primjer.

Prinos na papiru X tokom pet godina bio je 20%, 25%, 22%, 28%, 24%. Prinos na papiru F: 24%, 28%, 25%, 27%, 23%. Odredite kovarijansu povrata sigurnosti.

Predstavimo rješenje problema na dva načina.

a) Ispisujemo kronološkim redom u ćelije sa Al br A5 vrijednosti rentabilnosti papira X, a u ćelijama od B1 do B5 - rentabilnost papira F. Dobijamo rješenje u ćeliji C1, pa pomjeramo kursorom preko njega i kliknite mišem. Ispisujemo formulu u ćeliji C1:

i pritisnite tipku Enter. U ćeliji C1 pojavilo se rješenje problema - broj 3.08, tj. uzorak kovarijanse za naš primjer.

b) Kovarijansa se može izračunati pomoću programa Čarobnjak za funkcije. Da biste to uradili, pomerite kursor preko ikone A na traci sa alatkama i kliknite mišem. Pojavljuje se prozor "Čarobnjak za funkcije". U lijevom polju (“Kategorija”) pomaknite kursor na red “Statistički” i kliknite mišem. Linija je označena plavom bojom, a u desnom polju prozora (“Funkcija”) pojavila se lista statističkih funkcija. Postavite kursor na liniju "KOVAR" i kliknite lijevu tipku miša. Linija je istaknuta plavom bojom. Postavite kursor iznad dugmeta OK i kliknite. Pojavljuje se prozor "KOVAR". U prozoru se nalaze dvije linije koje se zovu "Niz 1" i "Niz 2". U prvi red unosimo brojeve ćelija od A1 do A5. Da biste to učinili, pomaknite kursor na znak 3, koji se nalazi na desnoj strani prvog reda i kliknite mišem. Prozor "KOVAR" postao je polje prvog reda. Postavite kursor na ćeliju A1, pritisnite lijevu tipku miša i, držeći je pritisnutu, pomaknite kursor dolje do ćelije A5 i otpustite tipku. U polju linije pojavljuje se unos A1:A5. Ponovo pomeriti kursor preko znaka??? i kliknite mišem. Pojavljuje se prošireni prozor "KOVAR". Upisujemo brojeve ćelija sa Bl br. B5 u drugom redu. Da biste to učinili, pomaknite kursor na znak 5J u drugom redu i kliknite mišem. Postavite kursor na ćeliju B1, pritisnite lijevu tipku miša i, držeći je pritisnutu, pomaknite kursor dolje do ćelije B5 i otpustite tipku. U polju linije pojavljuje se unos B1:B5. Pomerite kursor na dugme 3| i kliknite mišem. Pojavljuje se prošireni prozor "KOVAR". Postavite kursor preko dugmeta OK i kliknite. U ćeliji C1 pojavio se broj 3.08.

Odrediti koeficijent korelacije povrata sigurnosti za uslove primjera 1. Rješenje. Predstavimo rješenje problema na dva načina.

a) Ispisujemo kronološkim redom u ćelije sa Al br A5 vrijednosti rentabilnosti papira X, a u ćelijama od B1 do B5 - rentabilnost papira F. Dobijamo rješenje u ćeliji C1, pa pomjeramo kursorom preko njega i kliknite mišem. Ispisujemo formulu u ćeliji C1:

i pritisnite tipku Enter. Rješenje problema pojavilo se u ćeliji C1 - broj 0,612114.

b) Korelacija se može izračunati pomoću programa Function Wizard. Da biste to učinili, odaberite ikonu "l" na alatnoj traci pomoću kursora i kliknite mišem. Pojavljuje se prozor "Čarobnjak za funkcije". U lijevom polju (“Kategorija”) odaberite redak “Statistički” kursorom i kliknite mišem. U desnom polju prozora (“Funkcija”) pojavljuje se lista statističkih funkcija. Odaberite liniju “CORREL” kursorom i kliknite mišem. Linija je istaknuta plavom bojom. Postavite kursor preko dugmeta OK i kliknite. Pojavljuje se prozor CORREL. U prozoru se nalaze dvije linije koje se zovu "Niz 1" i "Niz 2". U prvom redu unosimo brojeve ćelija sa Al br A5. Da biste to učinili, pomaknite kursor preko znaka ZR desno od prvog reda i kliknite mišem. CORREL prozor je postao polje prvog reda. Postavite kursor na ćeliju A1, pritisnite lijevu tipku miša i, držeći je pritisnutu, pomaknite kursor dolje do ćelije A5 i otpustite tipku. U polju linije pojavljuje se unos A1:A5. Ponovo pomerite kursor preko znaka Š i kliknite mišem. Pojavljuje se prošireni prozor CORREL. Upisujemo brojeve ćelija sa Bl br. B5 u drugom redu. Da biste to učinili, pomaknite kursor na znak Š u drugom redu i kliknite mišem. Postavite kursor na ćeliju B1, pritisnite lijevu tipku miša i, držeći je pritisnutu, pomaknite kursor dolje do ćelije B5 i otpustite tipku. U polju linije pojavljuje se unos B1:B5. Pomerite kursor preko dugmeta i kliknite na dugme šijemo. Pojavljuje se prošireni prozor CORREL. Postavite kursor iznad dugmeta OK i kliknite. Broj 0,612114 pojavljuje se u ćeliji C1.

U primjerima 1 i 2 izračunali smo kovarijansu i korelaciju prinosa dvaju vrijednosnih papira u portfelju. Ako portfelj uključuje veći broj hartija od vrijednosti, tada se kovarijanse i korelacije njihovih prinosa mogu izračunati u parovima koristeći gore opisanu metodu, ali ovo je radno intenzivno rješenje problema. Excel ima poseban paket „Analiza podataka“ koji vam omogućava da brzo riješite ovaj problem za veliki broj radova. Razmotrimo izračunavanje kovarijanse i korelacije koristeći je.

da li ste znali da: Forex broker "NPBFX" donosi apsolutno sve transakcije svojih klijenata dobavljačima likvidnosti (na međubankarskom tržištu), radeći na STP/NDD tehnologije(Direktna obrada - direktna obrada transakcije / Non Dealing Desk).

"Analysis Pack" možda nije instaliran. Zatim ga trebate instalirati. Da biste to učinili, pomaknite kursor preko izbornika "Servis" i kliknite lijevu tipku miša. Pojavljuje se padajući meni. Pomoću kursora odaberite naredbu „Dodaci“ u njoj i kliknite lijevu tipku miša. Pojavljuje se dijaloški okvir "Dodaci". Postavite kursor preko prozora lijevo od reda „Paket analize“ i kliknite lijevu tipku miša. U prozoru se pojavljuje kvačica. Postavite kursor iznad dugmeta OK i kliknite. Instaliran je "Paket za analizu". Pogledajmo definiciju kovarijance i korelacije za nekoliko vrijednosnih papira koristeći primjer.

Primjer 3: Izračun kovarijanse

Postoji uzorak podataka o prinosima hartija od vrijednosti B, C i D za deset perioda. Ispisujemo vrijednosti prinosa za papir B u ćelijama B1 do B10, papir C od C1 do SY i papir D od D1 do D10, kao što je prikazano na sl. 1.8. Postavite kursor iznad menija "Servis" i kliknite lijevu tipku miša. Pojavljuje se padajući meni. Postavite kursor na liniju „Analiza podataka“ i kliknite lijevu tipku miša. Pojavljuje se prozor "Analiza podataka". Postavite kursor na liniju "Covarijance" i kliknite lijevu tipku miša. Linija je istaknuta plavom bojom. Postavite kursor preko dugmeta OK i kliknite. Pojavljuje se prozor Covarijance." (vidi sliku 1.10).

Postavite kursor na znak 3 desno od polja linije „Input interval“ i kliknite mišem. Prozor Covarijance se skupio u polje reda. Postavite kursor preko ćelije B1, pritisnite lijevu tipku miša i, držeći je pritisnutu, povucite do ćelije D10. Unos $B$1:$D$10 se pojavio u redu. Ponovo pomerite kursor preko znaka i kliknite mišem. Pojavljuje se prošireni prozor “Covarijance”. Grupiramo podatke po kolonama. Stoga, ako u okruglom prozoru nema tačke lijevo od natpisa "po kolonama", onda pomjerimo kursor preko njega i kliknemo lijevom tipkom miša. U prozoru će se pojaviti tačka. Ispod je red “Izlazni interval”. U okruglom prozorčiću lijevo od natpisa treba biti tačka. Ako ga nema, pomaknite kursor preko ove linije i kliknite lijevu tipku miša. U prozoru će se pojaviti tačka. Postavite kursor na znak 3 desno od polja linije „Izlazni interval“ i kliknite mišem. Prozor Covarijance je postao linijsko polje. Uzmimo ćeliju A12 kao početak izlaznog intervala. Stoga pomjerimo kursor preko njega i pritisnemo lijevu tipku miša. Unos $A$12 pojavljuje se u polju linije. Pomaknite kursor na znak 3 ponovo i kliknite mišem. Prozor Covarijance je proširen. Postavite kursor iznad dugmeta OK i kliknite. Rješenje problema se pojavilo na listu kao što je prikazano na sl. 1.11. Blok B13 do D15 predstavlja matricu kovarijanse. Po njegovoj dijagonali, tj. u ćelijama B13, C14 i B15 nalaze se varijanse hartija od vrednosti B, C i D, respektivno, u preostalim ćelijama - kovarijansa prinosa hartija od vrednosti: u ćeliji B14 nalazi se kovarijansa prinosa hartija od vrednosti B i C , u B15 - vrijednosnih papira B i D, u C15 - vrijednosnih papira C i D .

Primjer 4: Proračun korelacija

Postoji uzorak podataka o prinosima tri hartija od vrednosti - B, C i D - za deset perioda. Kao i u zadatku 3, ispisujemo vrijednosti prinosa za papir B u ćelijama B1 do B10, papir C od C1 do C10 i papir D od D1 do D10 (slika 1.9). Postavite kursor na meni "Servis" i kliknite lijevu tipku miša. Pojavljuje se padajući meni. Postavite kursor na liniju „Analiza podataka“ i kliknite lijevu tipku miša. Pojavljuje se prozor "Analiza podataka". Postavite kursor na liniju “Korelacija” i kliknite lijevu tipku miša. Linija je istaknuta plavom bojom. Postavite kursor iznad dugmeta OK i kliknite. Pojavljuje se prozor korelacije (njegova struktura je slična prozoru „kovarijance“). Postavite kursor na znak 3 desno od polja linije „Input interval“ i kliknite mišem. Prozor Korelacija se skupio u linijsko polje. Postavite kursor preko ćelije B1, pritisnite lijevu tipku miša i, držeći je pritisnutu, pomaknite kursor na ćeliju D10. Unos $B$1:$D$10 se pojavio u redu. Ponovo pomerite kursor preko znaka i kliknite mišem. Pojavljuje se prošireni prozor "Korelacija". Grupiramo podatke po kolonama. Stoga, ako u okruglom prozoru nema tačke lijevo od natpisa "po kolonama", pomaknite kursor preko njega i kliknite lijevu tipku miša. U prozoru će se pojaviti tačka. Ispod je red “Izlazni interval”. U okruglom prozorčiću lijevo od natpisa treba biti tačka. Ako ga nema, pomaknite kursor preko ove linije i kliknite lijevu tipku miša. U prozoru će se pojaviti tačka. Postavite kursor na znak 3 desno od polja linije „Izlazni interval“ i kliknite mišem. Prozor Korelacija je postao linijsko polje. Uzmimo ćeliju A12 kao početak izlaznog intervala. Stoga pomjerimo kursor preko njega i pritisnemo lijevu tipku miša. Unos $A$12 pojavljuje se u polju linije. Pomaknite kursor na znak 3 ponovo i kliknite mišem. Prozor "Korelacija" je proširen. Postavite kursor iznad dugmeta OK i kliknite. Rješenje problema se pojavilo na listu kao što je prikazano na slici 1.12. Blok B13 do D15 predstavlja matricu korelacije. Po njegovoj dijagonali, tj. u ćelijama B13, C14 i D15 nalaze se jedinice, u preostalim ćelijama su korelacije prinosa hartija od vrijednosti: u ćeliji B14 postoji korelacija prinosa vrijednosnih papira B i C, u B15 - vrijednosnih papira B i D, u C15 - vrijednosnih papira C i D.

Sadržaj

mob_info