Vážení zákazníci a čtenáři – od 28. prosince do 2. ledna máme zavřeno.
Přejeme Vám krásné svátky a 52 týdnů pohody a štěstí v roce 2025 !

Regresní analýza

Z Multimediaexpo.cz

(Rozdíly mezi verzemi)
m (1 revizi)
m (Nahrazení textu „</math>“ textem „\)</big>“)
 
(Nejsou zobrazeny 2 mezilehlé verze.)
Řádka 1: Řádka 1:
-
{{Wikipedia-cs|Regresní analýza|700}}
+
'''Regresní analýza''' je označení [[statistika|statistických]] metod, pomocí nichž odhadujeme hodnotu jisté [[náhodná veličina|náhodné veličiny]] (takzvané ''závisle proměnné'', nazývané též ''cílová proměnná'', ''regresand'' anebo ''vysvětlovaná proměnná'') na základě znalosti jiných veličin (''nezávisle proměnných'', ''regresorů'', ''kovariát'' anebo ''vysvětlujících proměnných'').
 +
Příkladem uvažování v duchu regresní analýzy z běžného života může být například, odhadujeme-li ráno, jaké bude přes den počasí (regresand) na základě znalosti předpovědi počasí a toho, jaké je venku počasí nyní (dva regresory).
 +
 +
Příklad skutečné regresní analýzy v praxi je odhadování očekávané pooperační délky života pacientů trpících [[rakovina|rakovinou]]. Na základě zkušeností z minulých let, kdy se shromáždily předoperační údaje o zdravotním stavu většího počtu pacientů, například velikost a typ nádorů, věk pacientů apod. (regresory) jakož i záznamy o délce života po operaci (regresand), lze pomocí vhodného typu regresní analýzy (v tomto případě obvykle tzv. [[Coxova regrese|Coxovy regrese]]) stanovit vzorec, s jehož pomocí bude možné u nového pacienta na základě znalosti jeho zdravotního stavu odhadnout střední hodnotu očekávané doby přežití v případě operace. Je-li navíc k dispozici podobná analýza pro pacienty léčené konzervativně, lze pak tomuto novému pacientovi doporučit, který způsob léčby mu v dané situaci dává naději na delší přežití.
 +
 +
== Matematická formulace ==
 +
Podívejme se nejdříve na případ, kdy '''závisle proměnná <big>\(Y\)</big> je [[skalár]] nebo [[vektor]]''' z nějakého [[lineární prostor|lineárního prostoru]], jako tomu bylo v našem příkladu s dobou dožití pacienta, vyjádřenou jako číselný údaj v letech. V takovém případě bývá úloha regrese obvykle formulována jako úloha hledání podmíněné [[střední hodnota|střední hodnoty]] jakožto funkce nezávisle proměnných <big>\(X_1,\cdots,X_p\)</big>:
 +
 +
:<big>\(\mathbb{E}(Y|X_1,\cdots,X_p)=f(X_1,\cdots,X_p),\)</big>
 +
 +
přičemž <big>\(\mathbb{E}\)</big> je symbol střední hodnoty (nepřesně řečeno průměru), svislítko „<big>\(|\)</big>“ zde můžeme číst jako „se znalostí“ a <big>\(f\)</big> je ''regresní funkce'', kterou je třeba odhadnout. Nejčastěji se to děje tak, že se tato funkce předpokládá v nějakém obecném tvaru závislém na neznámých ''regresních parametrech'' čili ''regresních koeficientech'', a tyto koeficienty se poté odhadují na základě pozorovaných dat. Nejčastějším případem je lineární regresní funkce, což vede na regresní rovnici
 +
 +
:<big>\(\mathbb{E}(Y|X_1,\cdots,X_p)=\beta^0 + \sum_{j=1}^p \beta^j X_j\)</big>
 +
 +
s regresními koeficienty <big>\(\beta^j\)</big>. Tomuto důležitému zvláštnímu případu se říká [[lineární regrese]]. Vedle něj existují i regresní modely podstatně nelineární, například některé typy [[neuronové sítě|neuronových sítí]].
 +
 +
Druhou základní možností je, že '''závisle proměnná <big>\(Y\)</big> je diskrétní'''. Například by mohlo jít o situaci, kdy na základě věku a pohlaví zákazníka predikujeme, jaký nápoj si koupí. V tomto případě by <big>\(Y\)</big> nabývala hodnot z množiny {''voda, ovocná limonáda, cola, pivo, víno, tvrdý alkohol''}, a není tudíž definována její střední hodnota. Regresní analýza v této situaci se označuje jako [[diskriminační analýza]] a jejím úkolem je hledat podmíněné pravděpodobnosti toho, že zkoumaný objekt patří do jednotlivých tříd:
 +
 +
:<big>\(p_k(Y|X_1,\cdots,X_p)=f(X_1,\cdots,X_p),\)</big>
 +
 +
kde <big>\(p_k\)</big> je pravděpodobnost, že objekt patří do ''k''-té třídy. Typické metody používané pro řešení úloh tohoto typu jsou [[Karl Pearson|Pearsonova]] [[lineární diskriminační analýza]], [[logistická regrese]] a metody z nich odvozené.
 +
 +
== Externí odkazy ==
 +
* [http://www.mff.cuni.cz/fakulta/mfp/download/books/zvara_-_regrese.pdf] Karel Zvára: ''Regresní analýza'', Matfypress 2008, Praha.
 +
* [http://www.sixsigmafirst.com/regression.htm Regression Analysis SixSigmaFirst]
 +
* [http://www.ebicom.net/~dhyams/cftp.htm Curve Expert (shareware)] fits functions to data (limited to one dependant and one independent variable.)
 +
* [http://zunzun.com Online curve and surface fitting] Online curve and surface fitting
 +
* [http://www.systat.com TableCurve2D and TableCurve3D by Systat] automates curve fitting
 +
* [http://www.math.kent.edu/~blewis/stat/lsq.html LMS applet]
 +
* [http://www.softintegration.com/chhtml/lang/lib/libch/numeric/CGI_Curvefit.html another choice]
 +
* [http://curvefit.com/ online curve-fitting textbook]
 +
 +
 +
{{Článek z Wikipedie}}
[[Kategorie:Statistika]]
[[Kategorie:Statistika]]
[[Kategorie:Ekonometrie]]
[[Kategorie:Ekonometrie]]

Aktuální verze z 14. 8. 2022, 14:53

Regresní analýza je označení statistických metod, pomocí nichž odhadujeme hodnotu jisté náhodné veličiny (takzvané závisle proměnné, nazývané též cílová proměnná, regresand anebo vysvětlovaná proměnná) na základě znalosti jiných veličin (nezávisle proměnných, regresorů, kovariát anebo vysvětlujících proměnných).

Příkladem uvažování v duchu regresní analýzy z běžného života může být například, odhadujeme-li ráno, jaké bude přes den počasí (regresand) na základě znalosti předpovědi počasí a toho, jaké je venku počasí nyní (dva regresory).

Příklad skutečné regresní analýzy v praxi je odhadování očekávané pooperační délky života pacientů trpících rakovinou. Na základě zkušeností z minulých let, kdy se shromáždily předoperační údaje o zdravotním stavu většího počtu pacientů, například velikost a typ nádorů, věk pacientů apod. (regresory) jakož i záznamy o délce života po operaci (regresand), lze pomocí vhodného typu regresní analýzy (v tomto případě obvykle tzv. Coxovy regrese) stanovit vzorec, s jehož pomocí bude možné u nového pacienta na základě znalosti jeho zdravotního stavu odhadnout střední hodnotu očekávané doby přežití v případě operace. Je-li navíc k dispozici podobná analýza pro pacienty léčené konzervativně, lze pak tomuto novému pacientovi doporučit, který způsob léčby mu v dané situaci dává naději na delší přežití.

Matematická formulace

Podívejme se nejdříve na případ, kdy závisle proměnná \(Y\) je skalár nebo vektor z nějakého lineárního prostoru, jako tomu bylo v našem příkladu s dobou dožití pacienta, vyjádřenou jako číselný údaj v letech. V takovém případě bývá úloha regrese obvykle formulována jako úloha hledání podmíněné střední hodnoty jakožto funkce nezávisle proměnných \(X_1,\cdots,X_p\):

\(\mathbb{E}(Y|X_1,\cdots,X_p)=f(X_1,\cdots,X_p),\)

přičemž \(\mathbb{E}\) je symbol střední hodnoty (nepřesně řečeno průměru), svislítko „\(|\)“ zde můžeme číst jako „se znalostí“ a \(f\) je regresní funkce, kterou je třeba odhadnout. Nejčastěji se to děje tak, že se tato funkce předpokládá v nějakém obecném tvaru závislém na neznámých regresních parametrech čili regresních koeficientech, a tyto koeficienty se poté odhadují na základě pozorovaných dat. Nejčastějším případem je lineární regresní funkce, což vede na regresní rovnici

\(\mathbb{E}(Y|X_1,\cdots,X_p)=\beta^0 + \sum_{j=1}^p \beta^j X_j\)

s regresními koeficienty \(\beta^j\). Tomuto důležitému zvláštnímu případu se říká lineární regrese. Vedle něj existují i regresní modely podstatně nelineární, například některé typy neuronových sítí.

Druhou základní možností je, že závisle proměnná \(Y\) je diskrétní. Například by mohlo jít o situaci, kdy na základě věku a pohlaví zákazníka predikujeme, jaký nápoj si koupí. V tomto případě by \(Y\) nabývala hodnot z množiny {voda, ovocná limonáda, cola, pivo, víno, tvrdý alkohol}, a není tudíž definována její střední hodnota. Regresní analýza v této situaci se označuje jako diskriminační analýza a jejím úkolem je hledat podmíněné pravděpodobnosti toho, že zkoumaný objekt patří do jednotlivých tříd:

\(p_k(Y|X_1,\cdots,X_p)=f(X_1,\cdots,X_p),\)

kde \(p_k\) je pravděpodobnost, že objekt patří do k-té třídy. Typické metody používané pro řešení úloh tohoto typu jsou Pearsonova lineární diskriminační analýza, logistická regrese a metody z nich odvozené.

Externí odkazy