This shows you the differences between two versions of the page.
Next revision | Previous revision | ||
stgst [2015/11/22 21:34] efox created |
stgst [2015/11/24 13:41] (current) efox |
||
---|---|---|---|
Line 1: | Line 1: | ||
+ | ====== teoretická ====== | ||
- | Hromadný jev = jev, který se vyskytuje v masovém měřítku a může se neustále opakovat (alespoň 30 pozorování) | + | * [[stgst_uvod|úvod]] |
- | Statistická jednotka = nositel sledovaných vlastností (statistických znaků) vymezených prostorově, | + | * [[stgst_deskriptivni_a_induktivni_statistika|deskriptivní |
- | Statistický soubor = množina sledovaných statistických jednotek vyhovující prostorovému, | + | * [[stgst_trideni_dle_statistickeho_znaku|třídění dle statistického znaku]] |
- | základní statistický soubor (populace) – konečný nebo nekonečný | + | * [[stgst_popisne_charakteristiky|popisné charakteristiky]] |
- | výběrový statistický soubor (výběr) – vždy nekonečný | + | * [[stgst_vylucovani_extremnich_hodnot_ze_souboru|vylučování extrémních hodnot ze souboru]] |
- | Rozsah souboru = počet pozorování ve statistickém souboru (n, N) | + | * [[stgst_testovani_statistickych_hypotez|testování statistických hypotéz]] |
- | Statistický znak = nositel určité vlastnosti každé statistické jednotky | + | * [[stgst_klasifikace_testu_podle_typu_statistickych_dat|klasifikace testů podle typů statistických dat]] |
- | konstantní (identifikační) – vymezují statistický soubor | + | * [[stgst_testovani_normality|testování normality]] |
- | proměnlivý (variabilní) – předmětem zkoumání | + | * [[stgst_parametricke_testy|parametrické testy]] |
- | měřený přímo / nepřímo | + | * [[stgst_hodnoceni_zavislosti_dvou_kvantitativnich_znaku|hodnocení závislosti dvou kvantitativních |
- | nominální znak (alternativní / pomnožný) | + | * [[stgst_charakteristiky_vztahu_mezi_promennymi|charakteristiky vztahů mezi proměnnými]] |
- | ordinální | + | |
- | metrický znak (stupnice bez referenční hodnoty) | + | |
- | kardinální znak (stupnice s referenční hodnotou) | + | |
- | Deskriptivní statistika: | ||
- | popis statistických souborů | ||
- | možnost vzájemného srovnání: | ||
- | míry polohy, variability, | ||
- | rozdělení | ||
- | indexy | ||
- | Induktivní statistika: | + | * [[stgst_zapisy_z_prednasek|ZÁPISY Z PŘEDNÁŠEK]] |
- | vyslovování závěrů o statistickém souboru na základě výběru: | + | |
- | odhady parametrů | + | |
- | ověřování (testování) hypotéz | + | |
- | modelování závislostí | + | |
- | vysvětlování souvislostí | + | |
- | Třídění dle statistického znaku: | + | * [[stgst_geostatistika|GEOSTATISTIKA]] |
- | Důvody třídění | + | |
- | zpřehlednění souboru | + | |
- | zjištění empirického rozdělení statistického souboru | + | |
- | snížení numerické náročnosti výpočtu statistických charakteristik | + | |
- | Dle počtu třídících znaků | + | |
- | jednostupňové | + | |
- | dvoustupňové (kontigenční tabulky) | + | |
- | vícestupňové | + | |
- | Dle typu třídění: | + | |
- | třídění prosté (malý počet různých hodnot znaku) | + | |
- | třídění intervalové (velký počet různých hodnot znaku, spojitý numerický znak) | + | |
- | Základní zásady při třídění: | + | |
- | zásada úplnosti (každá jednotka musí někam patřit) | + | |
- | zásada jednoznačnosti (každá jednotka musí mít právě jedno místo při třídění) | + | |
- | + | ||
- | POPISNÉ CHARAKTERISTIKY | + | |
- | jsou číselné charakteristiky, | + | |
- | obvykle slouží pro popis kvantitativního (kardinálního) statistického znaku, ale některé je možno použít i pro jednodušší statistické znaky (např. modus) | + | |
- | někdy je problém s jejich interpretací i u disktrétního znaku ( průměr je 1,85 dítěte) | + | |
- | odlehlé hodnoty (pozorování) | + | |
- | pozorování, | + | |
- | bývají vlivnými hodnotami | + | |
- | vlivné hodnoty (pozorování) | + | |
- | ovlivňují výsledek statistické analýzy (výpočet charakteristik, | + | |
- | + | ||
- | 1. Míry polohy | + | |
- | mají být typickou hodnotou statistického znaku z daného statistického souboru | + | |
- | jsou jednozačně definované a relativně jednoduše zjistitelné | + | |
- | slouží k porovnání úrovně různých statistických souborů, nebo vývoje statistického souboru v čase | + | |
- | mají co nejméně podléhat nahodilostem výběru respektive odlehlým hodnotám (pozorováním) – požadavek robustnosti | + | |
- | + | ||
- | 1. Průměry I | + | |
- | aritmetický průměr, vážený aritmetický průměr | + | |
- | nerobustní míra ovlivněná odlehlými hodnotami | + | |
- | průměr může představovat rovnoměrnost nebo normu, která vůbec neexistuje a nemá odraz ve skutečnosti | + | |
- | geometrický a geometrický vážený průměr (ve výpočtech časových řad a některých indexů – inflace apod. ) | + | |
- | harmonický a harmonický vážený průměr (v časových výpočtech – frekvence, ...) | + | |
- | + | ||
- | 2. Modus | + | |
- | nejčetnější hodnota znaku | + | |
- | modální interval – interval s největší četností | + | |
- | + | ||
- | 3. Medián | + | |
- | hodnota znaku, jež dělí soubor na dvě poloviny, na ta pozorování s nižšími hodnotami znaku a ta s vyššími hodnotami znaku | + | |
- | + | ||
- | 4. Kvartily | + | |
- | dolní kvartil (0,25) | + | |
- | hodnota znaku, jež dělí soubor na čtvrtinu a tři čtvrtiny. | + | |
- | Horní kvartil (0,75) | + | |
- | dělí soubor na tři čtvrtiny a čtvrtinu | + | |
- | Výběrový kvartil | + | |
- | Decil | + | |
- | Percentil | + | |
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | 2. Míry variability | + | |
- | vypovídají o variabilitě (proměnlivosti) hodnot statistického znaku z daného statistického souboru | + | |
- | slouží k porovnání variability různých statistických souborů, nebo vývoje statistického souboru v čase | + | |
- | mají co nejméně podléhat nahodilostem výběru respektive odlehlým hodnotám – požadavek robustnosti | + | |
- | některé vycházejí v odlišných jednotkách než posuzovaný statistický znak (rozptyly), nebo jsou relativní mírou variability (variační koeficient) | + | |
- | + | ||
- | 1. Variační rozpětí | + | |
- | range | + | |
- | je definováno jako rozdíl největší a nejmenší hodnotou řady | + | |
- | je velmi přibližnou charakteristikou variability, | + | |
- | ale dá se použít rozpětí kvantilů, např kvartilové rozpětí | + | |
- | + | ||
- | 2. Rozptyl | + | |
- | aritmetický průměr čtverců odchylek jednotlivých hodnot sledované proměnné xi od průměru celého souboru | + | |
- | vychází v jednotkách na druhou | + | |
- | velikost rozptylu se zvyšuje při zvětšující se variabilitě hodnot sledované proměnné | + | |
- | nemůže nikdy nabývat záporných hodnot (bo je na druhou!) | + | |
- | + | ||
- | 3. Směrodatná odchylka | + | |
- | kladná druhá odmocnina z rozptylu | + | |
- | má stejné měrné hodnoty jako sledovaná proměnná | + | |
- | udává, jak se v průměru v daném statistickém souboru odchylují hodnoty sledované proměnné od aritmetického průměru souboru | + | |
- | + | ||
- | 4. Variační koeficient | + | |
- | „relativní směrodatná odchylka“ | + | |
- | používáme ho, máme-li vzájemně srovnat variabilitu dvou nebo více souborů s podstatně odlišnou úrovní hodnot (nemůžeme srovnávat hmotnost krtků a hrochů) | + | |
- | v takovém případě musíme odstranit vliv obecné úrovně daných hodnot. Děláme to tak, že směrodatnou odchylku dělíme střední hodnotou, od které byly počítány odchylky pro součet čtverců, obvykle tedy při praktických výpočtech aritmetickým průměrem výběrového souboru | + | |
- | variační koeficienty jsou relativní míry variability („indexy“), | + | |
- | s odlišnými jednotkami | + | |
- | mající sice stejné jednotky, ale odlišnou míru polohy | + | |
- | je relativní mírou variability a tedy není vlivněn absolutními hodnotami sledovaného statistického znaku jako směrodatná odchylka | + | |
- | v případě vyjádření v procentech udává, z kolika procent se podílí směrodatná odchylka na aritmetickém průměru | + | |
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | 5. Střední chyba průměru | + | |
- | relativní míra variability | + | |
- | měří rozptýlenost vypočítaného aritmetického průměru v různých výběrových souborech z jednoho základního souboru | + | |
- | střední (směrodaná) odchylka průměru je teoreticky definovaná jako směrodatná odchylka všech možných výběrových průměrů z jedné populace, vypočítaných pro výběry o rozsahu n členů. Vyjadřuje tedy kolísání výběrových průměrů kolem teoretické (skutečné) střední hodnoty Psí v celém základním souboru | + | |
- | závisí jednak na rozptylu základního souboru a jednak na rozsahu výběrového souboru | + | |
- | výběrová střední chyba průměru může být použita jako míra přesnosti, s jakou výběrový aritmetický průměr x odhaduje skutečnou střední hodnotu Psí. Prakticky se používá pro výpočet intervalů spolehlivosti aritmetického průměru u výběrových souborů | + | |
- | + | ||
- | 6. Koeficient šikmosti (je více malých nebo velkých hodnot?) | + | |
- | pokud je > 0: | + | |
- | kladné zešikmení = vyšší koncentrace podprůměrných hodnot v porovnání s koncentrací hodnot nadprůměrných | + | |
- | pokud = 0: | + | |
- | pak mluvíme o symetrickém zešikmení = stejná koncentrace podprůměrných a nadprůměrných hodnot | + | |
- | pokud je < 0: | + | |
- | záporné zešikmení = vyšší koncentrace nadprůměrných hodnot v porovnání s koncentrací hodnot podprůměrných | + | |
- | Pearsonova míra šikmosti | + | |
- | počítá se jinak, blabla | + | |
- | > 0: | + | |
- | koncentrace některých podprůměrných hodnot je vyšší v porovnání s koncentrací hodnot nadprůměrných | + | |
- | = 0: | + | |
- | „průměrné“ hodnoty jsou nejčastější | + | |
- | < 0: | + | |
- | koncentrace některých nadprůměrných hodnot je vyšší v porovnání s koncentrací hodnot podprůměrných | + | |
- | 7. Míra špičatosti (jsou data kumulována kolem střední hodnoty?) | + | |
- | pokud je > 0: | + | |
- | kladná špičatost = koncentrace průměrných hodnot je vyšší, než bývá u normálního rozdělení | + | |
- | pokud = 0: | + | |
- | normální špičatost = koncentrace průměrných hodnot je právě taková, jako u normálního rozdělení | + | |
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | BOX-PLOT | + | |
- | vizualizace popisných statistik – vybrané míry polohy a vybraných variabilit | + | |
- | + | ||
- | + | ||
- | + | ||
- | VYLUČOVÁNÍ EXTRÉMNÍCH HODNOT SOUBORU | + | |
- | rozdíl mezi hrubou chybou a náhodnou chybou! | + | |
- | Ke zjištění, | + | |
- | Grubbsův test – pro tesstování souborů odpovídajících normálnímu rozdělení | + | |
- | Dixonův test (Q test) – pro testování souborů s neznámým rozdělením (případně souborů s malým počtem měření) | + | |
- | + | ||
- | 1. vylučování extrémních hodnot u souboru s normálním rozdělením | + | |
- | vyloučení extrémních hodnot u dat s Gaussovým normálním rozdělením lze provést orientačně nebo pomocí výpočtu testovacího kritéria s následným porovnáním s tabulkovou kritickou hodnotou (Grubbsův test) | + | |
- | + | ||
- | a) orientační vyloučení extrémních hodnot | + | |
- | jestliže odchylka libovolné hodnoty variační řady od aritmetického průměru vypočítaného z hodnot souboru s vyloučením extrémně odlišné hodnoty, převyšuje více než 3x směrodatnou odchylku vypočtenou ze souboru bez extrémní hodnoty, považujeme tuto hodnotu za netypickou a můžeme ji vloučit z dalšího zpracování | + | |
- | vypočítáme aritmetický průměr a směrodatnou odchylku bez podezřelé hodnoty. Jestliže odchylka podezřelé hodnoty od průměru překračuje 3s, pak tuto hodnotu vyloučíme | + | |
- | + | ||
- | b) Grubbsův test extrémních odchylek | + | |
- | používá se pro objektivní vylučování extrémních hodnost na základě vypočteného testovacího kritéria u souborů dat, které odpovídají Gaussovu normálnímu rozdělení pravděpodobností sledované náhodné veličiny | + | |
- | + | ||
- | 2. vylučování extrémních hodnot u souboru s neznámým rozdělením | + | |
- | a) Dixonův test extrémních odchylek | + | |
- | při výpočtu testovacího kritéria se využívá variační rozpětí souboru | + | |
- | výhoda tohoto testu je použití i u souborů s malým počtem hodnot | + | |
- | vypočtené testovací kritérium porovnáme s tabulkovou kritickou hodnotou pro příslušné n výběrového souboru a zvolenou Alfa pro Dixonův test | + | |
- | pokud je hodnota větší než testovací kritérium, hodnotu variační řady vyloučíme | + | |
- | pokud je menší nebo rovna, hodnotu vyloučit nemůžeme, patří do souboru | + | |
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ | + | |
- | dvojice vzájemně se vylučujících hypotéz | + | |
- | H0 – nulová hypotéza – hypotéza, která má být zamítnuta, matematické vyjádření hypotézy obsahuje „=“, „nic se nestalo“, zamítnutí má vážnější důsledky | + | |
- | tvrzení, které obvykle vyjadřuje žádný neboli nulový rozdíl mezi testovanými soubory dat (nelze tedy říct, že jakýkoliv nalezený rozdíl mezi soubory lze přičíst přirozené variabilitě dat) | + | |
- | H1 – alternativní hypotéza – hypotéza, která má být prokázána, | + | |
- | popírá platnost nulové hypotézy | + | |
- | „existence závislosti“ mezi proměnnými | + | |
- | za platnosti H0 se pomocí matematické statistiky odvodí tzv. Testovací kritérium – to je náhodnou veličinou se známým rozdělením | + | |
- | body oddělující obor nezamítnutí a kritický obor se nazývají kritické hodnoty a jsou jimi kvantily příslušných rozdělení | + | |
- | + | ||
- | 1. zvolení hladiny významnosti (chyby Alfa) | + | |
- | musíme určit hladinu významnosti testu (chyba Alfa), což je pravděpodobnost, | + | |
- | testovací hypotézu vždy přijímáme nebo zamítáme na základě výsledků náhodného výběru, můžeme chybovat | + | |
- | chyba 1.druhu Alfa – zamítneme nulovou hypotézu, když platí | + | |
- | chyba 2.druhu Beta – nesprávně přijmeme nulovou hypotézu, když neplatí | + | |
- | + | ||
- | 2. výpočet testovacího kritéria | + | |
- | rozhodnutí o platnosti/ | + | |
- | t (studentův t-test pro testování rozdílu dvou středních hodnot) | + | |
- | F (F-test pro testování rozdílu dvou rozptylů) | + | |
- | X2 (X2-test pro testování rozdílu četnosti souborů) | + | |
- | obor hodnot testovacího kritéria rozdělujeme při testování hypotéz na dvě části: | + | |
- | 1. kritický obor – takový obor, který svědčí ve prospěch alternativní hypotézy. Vypočteme-li tedy z těchto dat hodnotu testovacího kritéria, která padne do tohoto oboru, přijmeme alternaticní hypotézu a zamítneme tu nulovou | + | |
- | 2. obor přijetí – padne-li vypočtená hodnota testovacího kritéria do tohoto oboru, pak testovanou nulovou hypotézu nezamítneme | + | |
- | vymezení kritického oboru a oboru přijetí se provádí pomocí kritických hodnot testovacího kritéria | + | |
- | + | ||
- | 3. závěr testování | + | |
- | převedeme testovací statistiku do pravděpodobnostní škály a počítáme pravděpodobnost p, která odpovídá na otázku „jestliže nulová hypotéza platí, jaká je pravděpodobnost, | + | |
- | jestliže p-hodnota je menší, než hladina významnosti Alfa (chyba Alfa), zamítáme nulovou hypotézu | + | |
- | p < 0,05 – statisticky významný rozdíl | + | |
- | jestliže je p-hodnota větší než hladina významnosti Alfa (chyba Alfa), nulovou hypotézu nemůžeme zamítnout a tedy předpokládáme, | + | |
- | p > 0,05 – statisticky nevýznamný rozdíl | + | |
- | KLASIFIKACE TESTŮ PODLE TYPŮ STATISTICKÝCH DAT | + | |
- | pomocí statistických testů je vždy důležité vybrat vhodnou a odpovídající metou testování pro příslušný typ statistických dat | + | |
- | tři základní typy statistických znaků: nominální (kategoriální data), ordinální (pořadová data) a kardinální (metrická data) | + | |
- | nominální a ordinální znaky jsou data diskrétní (nespojitá) | + | |
- | kardinální znaky mohou být představovány daty spojitými i diskrétními | + | |
- | 1. testování nominálních (kategoriálních) dat | + | |
- | používá se hodnocení rozdílu četností těchto znaků v souborech, a to četnosti empirické a teoretické | + | |
- | dále testujeme tvrzení, že četnosti jedné veličiny určitým způsobem podmiňují četnosti druhé veličiny, tzn. že jsou na sobě sledované veličiny závislé | + | |
- | analýzu těchto dat provádíme pomocí chí-kvadrát testů (X2 – test) | + | |
- | + | ||
- | 2. testování ordinálních (pořadových) dat | + | |
- | při porovnání dvou souborů vytváříme směsný výběr – variační řadu uspořádaných hodnot z obou souborů, v němž přidělíme jednotlivým hodnotám pořadová čísla. Následně vypočítáme součty pořadových čísel zvlášť pro hodnoty pocházející z jednoho i druhého souboru. Pokud se porovnávané sooubory příliš neliší, oba součty pořadí dávají přibližně stejnou hodnotu. | + | |
- | Testování dat je reprezentováno neparametrickými testy, které jsou používány pro testování hypotéz u ordinálních znaků, u kardinálních znaků diskrétní povahy a u kardinálních spojitých znaků v souborech, které neodpovídají normálnímu rozdělení pravděpodobností | + | |
- | hypotézy testované neparametrickými testy se týkají pouze obecných vlastností rozdělení, | + | |
- | + | ||
- | 3. testování spojitých dat s normálním rozdělením | + | |
- | v případě porovnávání dvou souborů spojitých náhodných veličin, které odpovídají normálnímu rozdělení pravděpodobností, | + | |
- | Studentův t-test testuje hypotézu o shodě dvou středních hodnot. Na základě výběrových průměrů a rozptylů počítáme testovací kritérium | + | |
- | při porovnání s tabulkovou kritickou hodnotou pak rozhodneme o statistické významnosti rozdílu obou srovnávaných středních hodnot | + | |
- | + | ||
- | TESTOVÁNÍ NORMALITY | + | |
- | test, zda soubor dat sledované náhodné veličiny odpovídá Gaussovu normálnímu rozdělení pravděpodobností, | + | |
- | X2 test dobré shody je vedle šikmosti a špičatosti normálního rozdělení jedním z nejpoužívanějších testů normality dat | + | |
- | + | ||
- | 1. X2test dobré shody | + | |
- | používaný obecně k testování shody četností (především u nominálních dat) | + | |
- | je založen na posouzení rozdílu mezi skutečnými (empirickými) četnostmi výskytu hodnot ve výběrovém souboru a očekávanými (teoretickými) četnostm, odpovídajícími příslušnému předpokládanému rozdělení pravděpodobností | + | |
- | rozhoduje, zda je rozdíl mezi empirickými a teoretickými četnostmi způsoben pouze náhodně a výběrový soubor pochází z populaces normálním rozdělením, | + | |
- | PARAMETRICKÉ TESTY | + | |
- | základní otázka, zda-li se dva výběry shodují ve svém průměru nebo zda-li sledovaný výběr má určitou konkrétní hodnotu průměru. Dále hypotézy týkající se rozdílu rozptylů mezi dvěma populacemi při hodnocení vlivu pokusných zásahů na variabilitu sledované veličiny | + | |
- | mezi parametrické testy se řadí především Studentův t-test pro testování rozdílu dvou středních hodnot a F-test pro testování rozdílu dvou rozptylů | + | |
- | + | ||
- | 1. testování rozdílu dvou rozpylů F-test | + | |
- | testem rozhodujeme, | + | |
- | je důležitý i pro porovnání přesnosti dvou metod měření | + | |
- | + | ||
- | 2. testování rozdílu dvou středních hodnot Studentův test | + | |
- | nejčastěji používaný parametrický test | + | |
- | používá se pro testování rozdílu dvou středních hodnot | + | |
- | 1. porovnání základního a výběrového souboru (jednovýběrový t-test) | + | |
- | používáme pro hodnocení experimentů, | + | |
- | 2. porovnání dvou výběrových souborů (dvouvýběrový t-test) | + | |
- | tato varianta Studentova t-testu se používá pro hodnocení experimentů, | + | |
- | párový pokus = porovnáváme data, která byla vytvořena dvojím měřením té samé věci | + | |
- | nepárový pokus = data, která pocházejí ze dvou různých skupin objektů | + | |
- | a pak tu je samé něco, čemu fakt už nerozumím. Statistica rulez. | + | |
- | + | ||
- | 3. testování rozdílu více středních hodnot | + | |
- | máme mnoho skupin dat, které byly podrobeny působení různých podmínek, jejichž účinek je předmětem našeho sledování | + | |
- | potřebujeme zjistit, zda existují rozdíly mezi těmito skupinami, respektive potřebujeme porovnat jejich průměry navzájem pro všechny možné páry skupin (případně pouze střední hodnoty pokusných skupin oproti kontrole) | + | |
- | statistické metody, které toto umožňují najdeme pod souhrnným názvem analýza rozptylu = ANOVA (analysis of variance) | + | |
- | metoda je založena na vztazích rozptylů porovnávaných souborů (testování shody středních hodnot se vlastně převádí na testování shody dvou rozptylů (F-test)) | + | |
- | pro validní použití musí být splněny následující předpoklady : | + | |
- | nezávislost měření (všechna měření musí být nezávisla uvnitř skupin i mezi skupinami) | + | |
- | normalita dat (hodnoty v každí skupině musí alespoň přibližně odpovídat Gaussovu normálnímu rozdělení) | + | |
- | homogenita rozptylů uvnitř skupiny (rozptyly ve všech skupinách musí být alespoň přibližně shodné) | + | |
- | nejjednodušším | + | |
- | zkoumá se, zda skupiny vytvořené klasifikačním faktorem jsou si podobné,, nebo zda jednotlivé průměry tvoří nějaké identifikovatelné shluky (homogenní podskupiny se stejnými hodnotami) | + | |
- | celkovou variabilitu (rozptyl) zkoumané proměnné lze rozdělit na dvě složky: rozptyl „mezi skupinami“ (tzn. rozptyl výběrových průměrů kolem společného průměru, tj. Váženého průměru ze všech výběrových průměrů) a rozptyl „uvnitř skupin“ (tj. Rozptyl mezi jedinci ve stejné skupině) | + | |
- | + | ||
- | HODNOCENÍ ZÁVISLOSTI 2 KVANTITATIVNÍCH ZNAKŮ | + | |
- | dvě veličiny jsou závislé, pokud jejich veličiny určitým způsobem korespondují | + | |
- | korelační analýza = zkoumá vztahy proměnných pomocí různých měr závislosi, které nazýváme korelační koeficienty. Pomocí korelačních koeficientů je kvantitativně vyjádřena těsnost (síla) vzájemné závislosti obou sledovaných proměnných | + | |
- | regresní analýza = studuje, jaký vztah existuje mezi proměnnými (lineární, | + | |
- | vztahy mezi proměnnými můžeme obecně rozdělit do dvou základních skupin: | + | |
- | funkční závislost: | + | |
- | v každé číselné hodnotě jedné proměnné Xi odpovídá přesně jedna hodnota druhé proměnné Yi | + | |
- | X je nezávislá proměnná, Y je závislá proměnná | + | |
- | statická (korelační) závislost | + | |
- | jsou to náhodné jevy, už to není matematika, ale příroda, jejich charakter je totiž proměnlivý a nestálý | + | |
- | taková závislost má relativní charakter | + | |
- | existence (změna) jedné proměnné vyvolává existenci (změnu) jiné proměnné jen s určitou pravděpodobností („znaky spolu korelují“) | + | |
- | jediné číselné hodnotě Xi (nezávislá proměnná) může tedy odpovídat celá řada náhodných hodnot druhé veličiny Yi (závislá proměnná) | + | |
- | graficky = bodový diagram – každý bod odpovídá korelační dvojici (xi, yi) | + | |
- | pokud jsou body seskupeny podél některého směru, tvoří tvz. Korelační pás a svědčí to o přítomnosti určitého vztahu mezi sledovanými proměnnými | + | |
- | přímá korelace (pozitivní) jde zdola nahoru, nepřímá jde zhora | + | |
- | + | ||
- | + | ||
- | + | ||
- | Korelační koeficient | + | |
- | přímá, nepřímá úměra | + | |
- | pomocí korelačního koeficientu se zjišťují vzájemné vazby a jejich závislosti na třetím faktoru | + | |
- | + | ||
- | GEOSTATISTIKA | + | |
- | studium jevů, které se mění v prostoru (a čase) | + | |
- | statistické nástroje sloužící k pochopení a modelování prostorové variability jevů | + | |
- | 1. regionalizovaná proměnná | + | |
- | proměnná, která je distribuována v prostoru | + | |
- | typy půd, výskyt minerálů, nadmořská výška, teplota, tlak | + | |
- | 2. hodnota proměnné je funkcí polohy | + | |
- | systematická složka – funkce polohy (X, Y, Z) | + | |
- | náhodná složka – náhodné vlivy, šum,... | + | |
- | + | ||
- | ZÁKLADNÍ KONCEPTY | + | |
- | prostorová (auto)korelace | + | |
- | blízké jevy jsou si podobnější než jevy vzdálenější | + | |
- | EDA | + | |
- | první krok při analýze dat | + | |
- | grafické a numerické metody | + | |
- | deskriptivní statistika | + | |
- | homogenita, typ rozdělení, | + | |
- | ESDA | + | |
- | grafické i numerické metody | + | |
- | analýza prostorových vzorů | + | |
- | trend v datech, anizotropie | + | |
- | hypotézy založené na poloze dat | + | |
- | prostorové modely | + | |
- | INTERPOLACE | + | |
- | měřené prostorových jevů probíhá většinou diskrétně | + | |
- | = tvorba kontinuálních povrchů | + | |
- | výpočet hodnoty v neznámých místech | + | |
- | spline, trend, regresní funkce | + | |
- | VARIOGRAFIE | + | |
- | strukturální funkce | + | |
- | vizualizace, | + | |
- | zkoumá variabilitu jevu ve vztahu ke vzdálenosti | + | |
- | + | ||
- | KRIGING | + | |
- | = výpočet pravděpodobné hodnoty proměnné buď v bodě, kde nebylo provedeno měření, nebo v relativně malé ploše | + | |
- | označuje interpolační metody, které využívají geostacionární metody odhadu | + | |
- | pro krigování se používá tzv. Lokální odhad, což je výpočet pravděpodobné hodnoty proměnné buď v bodě, kde nebylo provedeno měření = bodový odhad, anebo v relativně malé ploše = blokový odhad | + | |
- | je základní geostatistickou metodou určování lokálního odhadu | + | |
- | nedůležitější je základní krigování = podle cíle odhadu se vyčleňují bodové a blokové odhady | + | |
- | pro bodový odhad při základním krigování se využívá soustava rovnic v maticovém tvaru | + | |
- | univerzální krigování = prostorová proměnná je považována za součet dvou komponent – trendu (driftu), který určuje průměrnou hodnotu v tom místě, a reziduí. Po výpočtu trendu lze získat hodnot rezidua odečtením hodnoty trendu v daném místě od skutečné hodnoty | + | |
- | + | ||
- | Spatial pattern | + | |
- | identifikace převažujících procesů | + | |
- | morishitův index | + | |
- | fry plot | + | |
- | ripleyho K-funkce a její variace | + | |
- | Shlukování | + | |
- | mapy hustoty jevu (heat maps, density maps) | + | |
- | LISA – local indicators of spatial association | + | |
- | lokální obdoba globálních indexů prostorové autokorelace | + | |
- | Geostatistické simulace | + | |
- | výsledky interpolačních metod jsou vyhlazené, protože modelují systematickou složku | + | |
- | realita není hladká -> vnesení náhodné složky (šumu) do výsledků | + | |
- | Simulace Monte Carlo, Gaussovské simulace | + | |
- | Interpolace = predikce | + | |
- | simulace = výpočet jedné z mnoha možných realit | + | |
- | Další metody | + | |
- | modelování časových řad | + | |
- | Space – time analysis | + | |
- | space-time clustering | + | |
- | space-time cube | + | |
- | metody geocomputation | + | |
- | fraktály | + | |
- | vícerozměrné statistické metody | + | |
- | geograficky vážená regrese | + | |
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | EDA A POPISNÁ STATISTIKA | + | |
- | Explorary data analysis | + | |
- | průzkumová analýza dat | + | |
- | základní popis dat s pomocí numerických a grafických metod a jednoduchých modelů | + | |
- | účel průzkumové analýzy | + | |
- | detekce chyb a odlehlých měření | + | |
- | zpřesnění vzorkování, | + | |
- | kontrola předpokladů pro následné statistické zpracování | + | |
- | jaké máme typy dat? Jaké je jejich rozdělení? | + | |
- | zkoumání vzorků v datech | + | |
- | existují nějaké vztahy mezi proměnnými v datech? | + | |
- | Mají mnou zkoumaná data nějakou vnitřní strukturu? | + | |
- | Lze popsat data jednoduchým modelem? | + | |
- | Typy EDA | + | |
- | jednorozměrná | + | |
- | zkoumáme pouze jednu vlastnost proměnné | + | |
- | frekvenční tabulky, histogramy, distribuční funkce | + | |
- | dvourozměrná | + | |
- | zkoumáme dvě vlastnosti proměnné a jejich vztah | + | |
- | korelace, lineální regrese, scatterplot | + | |
- | vícerozměrná | + | |
- | zkoumáme více než dvě vlastnosti proměnné znaků a jejich vztahy | + | |
- | metody: MDS, PCA, FA,... | + | |
- | + | ||
- | VARIOGRAFIE | + | |
- | modelování prostrorového vztahu (autokorelace) mezi naměřenými body | + | |
- | vzdálenost a směr | + | |
- | kovariogram | + | |
- | m(x) je střední hodnota veličiny u v blízkosti místa x | + | |
- | korelogram = normovaná kovariační funkce | + | |
- | variogram | + | |
- | nejpoužívanější strukturální funkce | + | |
- | experimentální variogram – vychází z měření | + | |
- | teoretický variogram – teoretický model | + | |
- | vyjadřuje, jak se měn proměnná mezi místem u a místem (u+h), mezi nimiž je vzdálenost h | + | |
- | vypočítají se všechny dvojice bodů a jim odpovídající variogram cloud | + | |
- | body jsou kategorizovány do tříd podle vzdálenosti (důležitá je velikost kroku) | + | |
- | pro každou třídu je zjištěn průměr | + | |
- | vizualizace závislosti semivariance na vzdálenosti | + | |
- | = výsledkem analýzy je identifikovaný typ variogramu a jeho parametry | + | |
- | osa x = kategorie vzdálenosti mezi body | + | |
- | osa y = semivariance – variabilita 2.řádu; jak se mění v krocích hodnoty x | + | |
- | nugget – zbytkový rozptyl = rozptyl v oblasi menší velikosti než je základní krok nebo nepřesnost základních hodnot | + | |
- | sill (práh) = hodnota semivariance (osa y), kde semivariogram mění svůj průběh | + | |
- | range (dosah) = vzdálenost, | + | |
- | izotropie / | + | |
- | některé přírodní jevy mohou mít výrazně anizotropní charakter | + | |
- | přirozená povaha nebo vliv predispozic okolí | + | |
- | například uložení geologických vrstev a výskyt rud, zlomy a průběh pohoří, hluk podél silnic, apod.... | + | |
- | anizotropii je tedy potřeba zohlednit i v případě tvorby experimentálního variogramu | + | |
- | není-li definováno, | + | |
- | izotropní jevy, tvoří kružnice kolem bodů | + | |
- | směrové variogramy zohledňují převládající trend | + | |
- | definice směru a jeho tolerance | + | |
- | čím více párů, tím spolehlivější je odhad semivariance pro danou velikost kroku | + | |
- | + | ||
- | teoretické modely variogramu | + | |
- | modely s přechodem | + | |
- | malé vzdálenosti -> vysoká shoda mezi zjištěnými hodnotami (nízká variabilita), | + | |
- | za dosahem se úroveň neshody stabilizuje kolem hodnoty statistického rozptylu, není prostorová vazba a variabilita je plně určována statistickým rozptylem | + | |
- | model bez přechodu | + | |
- | extrémní případ přechodového modelu | + | |
- | model oscilační | + | |
- | důsledek pravidelného střídání pásů s vyššími a nižšími hodnotami | + | |
- | nehomogenním charakterem zkoumaného pole, nestabilita modelů (pro krigging se nepoužívá) | + | |
- | modely složené | + | |
- | složené z výše zmíněných modelů | + | |
- | každý zdroj variability má svůj model | + | |
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | CHARAKTERISTIKY VZTAHŮ MEZI PROMĚNNÝMI | + | |
- | zjištění, | + | |
- | kovariance | + | |
- | absolutní hodnota | + | |
- | korelace | + | |
- | relativní hodnota | + | |
- | pearsonova, spearmanova | + | |
- | lineární regrese | + | |
- | y = ax + b | + | |
- | + | ||
- | Boxplot | + | |
- | krabicový graf | + | |
- | Q-Q plot | + | |
- | srovnání reálných hodnot s teoretickým odhadem hodnot vybraného rozdělení | + | |
- | nejčastěji porovnání s normálním rozdělením | + | |
- | Sccaterplot | + | |
- | X-Y bodový graf | + | |
- | + | ||
- | ZÁPISKY Z PŘEDNÁŠEK | + | |
- | + | ||
- | Regresivní analýza | + | |
- | regrese umí data proložit spojitou funkcí a predikovat následující data | + | |
- | slouží k prokládání dat a predikci sledovaného jevu | + | |
- | + | ||
- | Náhodná veličina | + | |
- | 1 záznam je náhodný jev | + | |
- | více záznamů je náhodná veličina | + | |
- | = jsou hodnoty uskutečněného náhodného pokusu zopakovaného dostatečně četněkrát | + | |
- | znázorňujeme tiskacími písmeny | + | |
- | + | ||
- | Data – diskrétní (čítání po jedničkách) x spojitá (čas, výška) | + | |
- | + | ||
- | Diskrétní náhodná veličina | + | |
- | nabývá konečného nebo nekonečného množství hodnot, kdy každá z těch hodnot má určitou pravdivost, že může nastat, či nikoliv | + | |
- | + | ||
- | míry polohy: | + | |
- | určují, kde se daná data soustřeďují (kde je těžiště celého rozdělení pravděpodobností) | + | |
- | i) průměr | + | |
- | - jeho nevýhodou je citlivost na tvar rozdělení pravděpodobností | + | |
- | ii) modus | + | |
- | - používá se tam, kde je velká četnost stejných pozorování. Nemá smysl ho používat tam, kde celkový počet pozorování je v řádech desítek | + | |
- | - je to nejčetnější hodnota v datovém souboru | + | |
- | iii) medián | + | |
- | - vezmu hodnoty a uspořádám je podle velikost | + | |
- | - vyhledám prostřední hodnotu uspořádání | + | |
- | - sudý, lichý! | + | |
- | + | ||
- | Míry variability | + | |
- | i) rozpětí | + | |
- | ii) rozptyl | + | |
- | + | ||
- | REGRESE | + | |
- | - hledání vztahu mezi proměnnými | + | |
- | - prokládá ověřená data nějakou předem definovanou funkcí a zjišťuje, jestli zvolená funkce odpovídá charakteru dat | + | |
- | - druhou základní aplikací regrese je použití zvolené fce na predikci do budoucna | + | |
- | - lineární regrese – když b stojí samostatně | + | |
- | - nelineární – když b vkročí do funkce | + | |
+ | ====== praktická ====== | ||
+ | RStudio | ||