În analiza statistică, variație printre membrii unui set de date, arată cât de departe sunt punctele de date dintr-o linie de trend, cunoscută și sub numele de a regresie. Cu cât variația este mai mare, cu atât sunt mai multe puncte de date. Studiul analizei varianței arată care părți ale varianței pot fi explicate prin caracteristicile datelor și care pot fi atribuite factorilor aleatorii. Partea varianței care nu poate fi explicată este numită varianța reziduală.
Utilizarea foilor de calcul Excel pentru a calcula variația reziduală
Formula pentru calcularea varianței reziduale implică numeroase calcule complexe. Pentru seturile de date mici, procesul de calculare a varianței reziduale de mână poate fi obositor. Pentru seturile de date mari, sarcina poate fi epuizantă. Folosind o foaie de calcul Excel, trebuie doar să introduceți punctele de date și să selectați formulele corecte. Programul gestionează calculele complexe și oferă un rezultat rapid.
Puncte de date
Deschideți o nouă foaie de calcul Excel și introduceți punctele de date în două coloane. Liniile de regresie necesită ca fiecare punct de date să aibă două elemente. Statisticienii etichetează de obicei aceste elemente "X" și "Y." De exemplu, Generic Insurance Co vrea să găsească variația reziduală a înălțimii și greutății angajaților săi. Variabila X reprezintă înălțimea, iar variabila Y reprezintă greutatea. Introduceți înălțimile în coloana A și greutățile în coloana B.
Găsirea Mean
însemna reprezintă media pentru fiecare element din setul de date. În acest exemplu, Generic Insurance dorește să găsească abaterea medie și covarianța de 10 înălțimi și greutăți ale angajaților. Media de înălțime listată în coloana A poate fi găsită prin introducerea funcției "= AVERAGE (A1: A10)" în celula F1. Media greutăților enumerate în coloana B poate fi găsită prin introducerea funcției "= AVERAGE (B1: B10)" în celula F3.
Găsirea deviației standard și a covârșeniei
deviație standard măsoară cât de departe se disting punctele de date de la mijloc. covarianță măsoară cât de mult se schimbă cele două elemente ale punctului de date. Deviația standard a înălțimilor se găsește prin introducerea în celula F2 a funcției "= STDEV (A1: A10)". Deviația standard a greutăților se găsește prin introducerea în celula F4 a funcției "= STDEV (B1: B10)". Corespondența dintre înălțimi și greutăți se găsește prin introducerea în celula F5 a funcției "= COVAR (A1: A10; B1: B10)".
Găsirea liniei de regresie
regresie reprezintă o funcție liniară care urmează trendului punctelor de date. Formula pentru linia de regresie arată astfel: Y = aX + b.
Utilizatorul poate găsi valorile pentru "a" și "b" utilizând calculele pentru mijloace, deviații standard și covarianță. Valoarea pentru "b" reprezintă punctul în care linia de regresie interceptează axa Y. Valoarea poate fi găsită luând covarianța și împărțind-o cu pătratul deviației standard a valorilor X. Formula Excel trece în celula F6 și arată astfel: = F5 / F2 ^ 2.
Valoarea pentru "a" reprezintă panta liniei de regresie. Formula Excel trece în celula F7 și arată astfel: = F3-F6 * F1.
Pentru a vedea formula pentru linia de regresie, introduceți această concatenare în celula F8:
= CONCATENATE ("Y ="; ROUND (F6; 2); "X"; IF (SEMN (F7) = 1; "+";
Calculați valorile Y
Următorul pas presupune calcularea valorilor Y pe linia de regresie pentru valorile X date din setul de date. Formula pentru a găsi valorile Y merge în coloana C și arată astfel:
= $ F $ 6 * A (i) + $ F $ 7
În cazul în care A (i) este valoarea pentru coloana A din rândul (i). Formulele arată astfel în foaia de calcul:
= $ F $ 6 * A1 + $ F $ 7
= $ F $ 6 * A2 + $ F $ 7
= $ F $ 6 * A3 + $ F $ 7, și așa mai departe
Înregistrările din coloana D arată diferențele dintre valorile așteptate și cele reale pentru Y. Formulele arată astfel:
= B (i) -C (i), Unde B (i) și C (i) sunt valorile din rândul (i) din coloanele B și, respectiv, C.
Găsirea varianței reziduale
formula pentru varianta reziduală merge în celula F9 și arată astfel:
= SUMSQ (D1: D10) / (COUNT (D1: D10) -2)
Unde SUMSQ (D1: D10) este suma pătraturilor diferențelor dintre valorile reale și cele așteptate Y și (COUNT (D1: D10) -2) este numărul de puncte de date, minus 2 pentru grade de libertate în date.