Chybějící součet čtverců - Lack-of-fit sum of squares

v statistika, a součet čtverců z důvodu nedostatečného přizpůsobenínebo více stručně a nevyhovující součet čtverců, je jednou ze součástí oddílu systému Windows součet čtverců zbytků v an analýza rozptylu, použitý v čitatel v F-test z nulová hypotéza to říká, že navrhovaný model se hodí dobře. Druhou složkou je součet čistých chyb čtverců.

Součet čistých chyb čtverců je součtem čtvercových odchylek každé hodnoty závislá proměnná z průměrné hodnoty za všechna sdílená pozorování nezávislé proměnné hodnota (hodnoty). Jedná se o chyby, kterým by se nikdy nemohlo vyhnout žádná prediktivní rovnice, která přiřadila předpokládanou hodnotu závislé proměnné jako funkci hodnoty (hodnot) nezávislé proměnné (proměnných). Zbytek zbytkového součtu čtverců je přičítán nedostatečnému přizpůsobení modelu, protože by bylo matematicky možné tyto chyby zcela eliminovat.

Náčrt myšlenky

Aby se neshodný součet čtverců lišil od součet čtverců zbytků, tam musí být víc než jeden hodnota proměnná odezvy pro alespoň jednu z hodnot sady predikčních proměnných. Zvažte například umístění čáry

metodou nejmenší čtverce. Jeden bere jako odhady α a β hodnoty, které minimalizují součet čtverců zbytků, tj. součet čtverců rozdílů mezi pozorovanými y-hodnota a vybavené y-hodnota. Chcete-li mít neshodný součet čtverců, který se liší od zbytkového součtu čtverců, musíte pozorovat více než jeden y-hodnota pro každý z jednoho nebo více z X-hodnoty. Jeden pak rozdělí „součet čtverců kvůli chybě“, tj. Součet čtverců zbytků, na dvě složky:

součet čtverců v důsledku chyby = (součet čtverců v důsledku "čisté" chyby) + (součet čtverců v důsledku nedostatečné shody).

Součet čtverců způsobených „čistou“ chybou je součtem čtverců rozdílů mezi jednotlivými pozorovanými y-hodnota a průměr všech y-hodnoty odpovídající stejné X-hodnota.

Součet čtverců z důvodu nedostatečného přizpůsobení je vážený součet čtverců rozdílů mezi každým průměrem y-hodnoty odpovídající stejné X-hodnota a odpovídající namontovaný y-hodnota, přičemž váha v každém případě je prostě počet pozorovaných y- hodnoty za to X-hodnota.[1][2] Protože je vlastností regrese nejmenších čtverců, že vektor, jehož součásti jsou „čisté chyby“ a vektor prvků, které nejsou vhodné, jsou vzájemně kolmé, platí následující rovnost:

Proto byl zbytkový součet čtverců zcela rozložen na dvě složky.

Matematické detaily

Zvažte přizpůsobení čáry jedné proměnné prediktoru. Definovat i jako index každého z n odlišný X hodnoty, j jako index pozorování proměnné odezvy pro daný X hodnota a ni jako počet y hodnoty spojené s i th X hodnota. Hodnotu každého pozorování proměnné odezvy lze vyjádřit pomocí

Nechat

být nejmenší čtverce odhady nepozorovatelných parametrů α a β na základě pozorovaných hodnot X i a Y já j.

Nechat

být přizpůsobené hodnoty proměnné odezvy. Pak

jsou zbytky, což jsou pozorovatelné odhady nepozorovatelných hodnot chybového členuε ij. Vzhledem k povaze metody nejmenších čtverců je celý vektor zbytků s

skalární komponenty, nutně splňuje dvě omezení

Je tedy nuceno ležet v (N - 2) -dimenzionální podprostor R N, tj. existují N − 2 "stupně svobody pro chybu ".

Teď nech

být průměrem všech Y-hodnoty spojené s i th X-hodnota.

Součet čtverců kvůli chybě rozdělíme na dvě složky:

Pravděpodobnostní rozdělení

Součty čtverců

Předpokládejme chybové podmínky ε já j jsou nezávislý a normálně distribuováno s očekávaná hodnota 0 a rozptyl  σ2. Léčíme X i spíše konstantní než náhodné. Pak proměnné odezvy Y já j jsou náhodné pouze proto, že chyby ε já j jsou náhodné.

Lze ukázat, že pokud je přímkový model správný, pak součet čtverců kvůli chybě děleno odchylkou chyby,

distribuce chí-kvadrát s N - 2 stupně volnosti.

Navíc vzhledem k celkovému počtu pozorování N, počet úrovní nezávislé proměnné n, a počet parametrů v modelu p:

  • Součet čtverců v důsledku čisté chyby vydělený odchylkou chyby σ2, má distribuci chí-kvadrát s N − n stupně svobody;
  • Součet čtverců kvůli nedostatku shody vydělený odchylkou chyby σ2, má distribuci chí-kvadrát s n − p stupně volnosti (zde p = 2, protože v lineárním modelu existují dva parametry);
  • Dva součty čtverců jsou pravděpodobnostně nezávislé.

Statistika testu

Z toho pak vyplývá, že statistika

F-distribuce s odpovídajícím počtem stupňů volnosti v čitateli a jmenovateli, za předpokladu, že je model správný. Pokud je model špatný, pak je rozdělení pravděpodobnosti jmenovatele stále, jak je uvedeno výše, a čitatel a jmenovatel jsou stále nezávislé. Ale čitatel pak má a necentrální distribuce chí-kvadrát a následně kvocient jako celek má a necentrální F-distribuce.

Jeden používá tuto F-statistiku k testování nulová hypotéza že lineární model je správný. Protože necentrální distribuce F je stochasticky větší než (centrální) distribuce F, odmítne nulovou hypotézu, pokud je statistika F větší než kritická hodnota F. Kritická hodnota odpovídá kumulativní distribuční funkce z F distribuce s X se rovná požadovanému úroveň spolehlivosti a stupně volnosti d1 = (n − p) a d2 = (N − n).

Předpoklady normální distribuce chyb a nezávislost lze prokázat, že to znamená test nezpůsobilosti je test poměru pravděpodobnosti této nulové hypotézy.

Viz také

Poznámky

  1. ^ Brook, Richard J .; Arnold, Gregory C. (1985). Aplikovaná regresní analýza a experimentální design. CRC Press. str.48–49. ISBN  0824772520.
  2. ^ Neter, John; Kutner, Michael H .; Nachstheim, Christopher J .; Wasserman, William (1996). Aplikované lineární statistické modely (Čtvrté vydání). Chicago: Irwin. s. 121–122. ISBN  0256117365.