This is an old revision of the document!
Hromadný jev = jev, který se vyskytuje v masovém měřítku a může se neustále opakovat (alespoň 30 pozorování) Statistická jednotka = nositel sledovaných vlastností (statistických znaků) vymezených prostorově, časově nebo věcně Statistický soubor = množina sledovaných statistických jednotek vyhovující prostorovému, časovému a věcnému hledisku základní statistický soubor (populace) – konečný nebo nekonečný výběrový statistický soubor (výběr) – vždy nekonečný Rozsah souboru = počet pozorování ve statistickém souboru (n, N) Statistický znak = nositel určité vlastnosti každé statistické jednotky souboru konstantní (identifikační) – vymezují statistický soubor proměnlivý (variabilní) – předmětem zkoumání měřený přímo / nepřímo nominální znak (alternativní / pomnožný) ordinální znak (kvalitativní znak, zavedené uspořádání) metrický znak (stupnice bez referenční hodnoty) kardinální znak (stupnice s referenční hodnotou)
Deskriptivní statistika: popis statistických souborů možnost vzájemného srovnání: míry polohy, variability, šikmosti, špičatosti rozdělení indexy
Induktivní statistika: vyslovování závěrů o statistickém souboru na základě výběru: odhady parametrů ověřování (testování) hypotéz modelování závislostí vysvětlování souvislostí
Třídění dle statistického znaku: Důvody třídění zpřehlednění souboru zjištění empirického rozdělení statistického souboru snížení numerické náročnosti výpočtu statistických charakteristik Dle počtu třídících znaků jednostupňové dvoustupňové (kontigenční tabulky) vícestupňové Dle typu třídění: třídění prosté (malý počet různých hodnot znaku) třídění intervalové (velký počet různých hodnot znaku, spojitý numerický znak) Základní zásady při třídění: zásada úplnosti (každá jednotka musí někam patřit) zásada jednoznačnosti (každá jednotka musí mít právě jedno místo při třídění)
POPISNÉ CHARAKTERISTIKY jsou číselné charakteristiky, které jediným číslem vyjadřují určitou vlastnost statistického znaku obvykle slouží pro popis kvantitativního (kardinálního) statistického znaku, ale některé je možno použít i pro jednodušší statistické znaky (např. modus) někdy je problém s jejich interpretací i u disktrétního znaku ( průměr je 1,85 dítěte) odlehlé hodnoty (pozorování) pozorování, jehož hodnota znaku vybočuje (reálná / nereálná) bývají vlivnými hodnotami vlivné hodnoty (pozorování) ovlivňují výsledek statistické analýzy (výpočet charakteristik, odhadů, parametrů, …)
1. Míry polohy mají být typickou hodnotou statistického znaku z daného statistického souboru jsou jednozačně definované a relativně jednoduše zjistitelné slouží k porovnání úrovně různých statistických souborů, nebo vývoje statistického souboru v čase mají co nejméně podléhat nahodilostem výběru respektive odlehlým hodnotám (pozorováním) – požadavek robustnosti
1. Průměry I aritmetický průměr, vážený aritmetický průměr nerobustní míra ovlivněná odlehlými hodnotami průměr může představovat rovnoměrnost nebo normu, která vůbec neexistuje a nemá odraz ve skutečnosti geometrický a geometrický vážený průměr (ve výpočtech časových řad a některých indexů – inflace apod. ) harmonický a harmonický vážený průměr (v časových výpočtech – frekvence, …)
2. Modus nejčetnější hodnota znaku modální interval – interval s největší četností
3. Medián hodnota znaku, jež dělí soubor na dvě poloviny, na ta pozorování s nižšími hodnotami znaku a ta s vyššími hodnotami znaku
4. Kvartily dolní kvartil (0,25) hodnota znaku, jež dělí soubor na čtvrtinu a tři čtvrtiny. Horní kvartil (0,75) dělí soubor na tři čtvrtiny a čtvrtinu Výběrový kvartil Decil Percentil
2. Míry variability vypovídají o variabilitě (proměnlivosti) hodnot statistického znaku z daného statistického souboru slouží k porovnání variability různých statistických souborů, nebo vývoje statistického souboru v čase mají co nejméně podléhat nahodilostem výběru respektive odlehlým hodnotám – požadavek robustnosti některé vycházejí v odlišných jednotkách než posuzovaný statistický znak (rozptyly), nebo jsou relativní mírou variability (variační koeficient)
1. Variační rozpětí range je definováno jako rozdíl největší a nejmenší hodnotou řady je velmi přibližnou charakteristikou variability, protože je příliš ovlivněno velikostí extrémních hodnot ale dá se použít rozpětí kvantilů, např kvartilové rozpětí
2. Rozptyl aritmetický průměr čtverců odchylek jednotlivých hodnot sledované proměnné xi od průměru celého souboru vychází v jednotkách na druhou velikost rozptylu se zvyšuje při zvětšující se variabilitě hodnot sledované proměnné nemůže nikdy nabývat záporných hodnot (bo je na druhou!)
3. Směrodatná odchylka kladná druhá odmocnina z rozptylu má stejné měrné hodnoty jako sledovaná proměnná udává, jak se v průměru v daném statistickém souboru odchylují hodnoty sledované proměnné od aritmetického průměru souboru
4. Variační koeficient „relativní směrodatná odchylka“ používáme ho, máme-li vzájemně srovnat variabilitu dvou nebo více souborů s podstatně odlišnou úrovní hodnot (nemůžeme srovnávat hmotnost krtků a hrochů) v takovém případě musíme odstranit vliv obecné úrovně daných hodnot. Děláme to tak, že směrodatnou odchylku dělíme střední hodnotou, od které byly počítány odchylky pro součet čtverců, obvykle tedy při praktických výpočtech aritmetickým průměrem výběrového souboru variační koeficienty jsou relativní míry variability („indexy“), což umožňuje porovnávat variabilitu statistických znaků: s odlišnými jednotkami mající sice stejné jednotky, ale odlišnou míru polohy je relativní mírou variability a tedy není vlivněn absolutními hodnotami sledovaného statistického znaku jako směrodatná odchylka v případě vyjádření v procentech udává, z kolika procent se podílí směrodatná odchylka na aritmetickém průměru
5. Střední chyba průměru relativní míra variability měří rozptýlenost vypočítaného aritmetického průměru v různých výběrových souborech z jednoho základního souboru střední (směrodaná) odchylka průměru je teoreticky definovaná jako směrodatná odchylka všech možných výběrových průměrů z jedné populace, vypočítaných pro výběry o rozsahu n členů. Vyjadřuje tedy kolísání výběrových průměrů kolem teoretické (skutečné) střední hodnoty Psí v celém základním souboru závisí jednak na rozptylu základního souboru a jednak na rozsahu výběrového souboru výběrová střední chyba průměru může být použita jako míra přesnosti, s jakou výběrový aritmetický průměr x odhaduje skutečnou střední hodnotu Psí. Prakticky se používá pro výpočet intervalů spolehlivosti aritmetického průměru u výběrových souborů
6. Koeficient šikmosti (je více malých nebo velkých hodnot?) pokud je > 0: kladné zešikmení = vyšší koncentrace podprůměrných hodnot v porovnání s koncentrací hodnot nadprůměrných pokud = 0: pak mluvíme o symetrickém zešikmení = stejná koncentrace podprůměrných a nadprůměrných hodnot pokud je < 0: záporné zešikmení = vyšší koncentrace nadprůměrných hodnot v porovnání s koncentrací hodnot podprůměrných Pearsonova míra šikmosti počítá se jinak, blabla
0:
koncentrace některých podprůměrných hodnot je vyšší v porovnání s koncentrací hodnot nadprůměrných = 0: „průměrné“ hodnoty jsou nejčastější < 0: koncentrace některých nadprůměrných hodnot je vyšší v porovnání s koncentrací hodnot podprůměrných 7. Míra špičatosti (jsou data kumulována kolem střední hodnoty?) pokud je > 0: kladná špičatost = koncentrace průměrných hodnot je vyšší, než bývá u normálního rozdělení pokud = 0: normální špičatost = koncentrace průměrných hodnot je právě taková, jako u normálního rozdělení
BOX-PLOT vizualizace popisných statistik – vybrané míry polohy a vybraných variabilit
VYLUČOVÁNÍ EXTRÉMNÍCH HODNOT SOUBORU rozdíl mezi hrubou chybou a náhodnou chybou! Ke zjištění, zda zdánlivě odlehlá hodnota patří do souboru (je to tedy náhodná chyba a nelze ze souboru jenom tak vyloučit) můžeme použít statistické testy: Grubbsův test – pro tesstování souborů odpovídajících normálnímu rozdělení Dixonův test (Q test) – pro testování souborů s neznámým rozdělením (případně souborů s malým počtem měření)
1. vylučování extrémních hodnot u souboru s normálním rozdělením vyloučení extrémních hodnot u dat s Gaussovým normálním rozdělením lze provést orientačně nebo pomocí výpočtu testovacího kritéria s následným porovnáním s tabulkovou kritickou hodnotou (Grubbsův test)
a) orientační vyloučení extrémních hodnot jestliže odchylka libovolné hodnoty variační řady od aritmetického průměru vypočítaného z hodnot souboru s vyloučením extrémně odlišné hodnoty, převyšuje více než 3x směrodatnou odchylku vypočtenou ze souboru bez extrémní hodnoty, považujeme tuto hodnotu za netypickou a můžeme ji vloučit z dalšího zpracování vypočítáme aritmetický průměr a směrodatnou odchylku bez podezřelé hodnoty. Jestliže odchylka podezřelé hodnoty od průměru překračuje 3s, pak tuto hodnotu vyloučíme
b) Grubbsův test extrémních odchylek používá se pro objektivní vylučování extrémních hodnost na základě vypočteného testovacího kritéria u souborů dat, které odpovídají Gaussovu normálnímu rozdělení pravděpodobností sledované náhodné veličiny
2. vylučování extrémních hodnot u souboru s neznámým rozdělením a) Dixonův test extrémních odchylek při výpočtu testovacího kritéria se využívá variační rozpětí souboru výhoda tohoto testu je použití i u souborů s malým počtem hodnot vypočtené testovací kritérium porovnáme s tabulkovou kritickou hodnotou pro příslušné n výběrového souboru a zvolenou Alfa pro Dixonův test pokud je hodnota větší než testovací kritérium, hodnotu variační řady vyloučíme pokud je menší nebo rovna, hodnotu vyloučit nemůžeme, patří do souboru
TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ dvojice vzájemně se vylučujících hypotéz H0 – nulová hypotéza – hypotéza, která má být zamítnuta, matematické vyjádření hypotézy obsahuje „=“, „nic se nestalo“, zamítnutí má vážnější důsledky tvrzení, které obvykle vyjadřuje žádný neboli nulový rozdíl mezi testovanými soubory dat (nelze tedy říct, že jakýkoliv nalezený rozdíl mezi soubory lze přičíst přirozené variabilitě dat) H1 – alternativní hypotéza – hypotéza, která má být prokázána, zamítnutí nemá tak vážné důsledky popírá platnost nulové hypotézy „existence závislosti“ mezi proměnnými za platnosti H0 se pomocí matematické statistiky odvodí tzv. Testovací kritérium – to je náhodnou veličinou se známým rozdělením body oddělující obor nezamítnutí a kritický obor se nazývají kritické hodnoty a jsou jimi kvantily příslušných rozdělení
1. zvolení hladiny významnosti (chyby Alfa) musíme určit hladinu významnosti testu (chyba Alfa), což je pravděpodobnost, že se zamítne nulová hypotéza, ačkoliv ona platí testovací hypotézu vždy přijímáme nebo zamítáme na základě výsledků náhodného výběru, můžeme chybovat chyba 1.druhu Alfa – zamítneme nulovou hypotézu, když platí chyba 2.druhu Beta – nesprávně přijmeme nulovou hypotézu, když neplatí
2. výpočet testovacího kritéria rozhodnutí o platnosti/neplatnosti nulové hypotézy provádíme na základš výpočtu testovacího kritéria. Jako testovací kritérium můžou sloučit například veličiny: t (studentův t-test pro testování rozdílu dvou středních hodnot) F (F-test pro testování rozdílu dvou rozptylů) X2 (X2-test pro testování rozdílu četnosti souborů) obor hodnot testovacího kritéria rozdělujeme při testování hypotéz na dvě části: 1. kritický obor – takový obor, který svědčí ve prospěch alternativní hypotézy. Vypočteme-li tedy z těchto dat hodnotu testovacího kritéria, která padne do tohoto oboru, přijmeme alternaticní hypotézu a zamítneme tu nulovou 2. obor přijetí – padne-li vypočtená hodnota testovacího kritéria do tohoto oboru, pak testovanou nulovou hypotézu nezamítneme vymezení kritického oboru a oboru přijetí se provádí pomocí kritických hodnot testovacího kritéria
3. závěr testování převedeme testovací statistiku do pravděpodobnostní škály a počítáme pravděpodobnost p, která odpovídá na otázku „jestliže nulová hypotéza platí, jaká je pravděpodobnost, že získáme právě vypočítanou hodnotu nebo ještě neobvyklejší hodnotu testovací statistiky?“ jestliže p-hodnota je menší, než hladina významnosti Alfa (chyba Alfa), zamítáme nulovou hypotézu p < 0,05 – statisticky významný rozdíl jestliže je p-hodnota větší než hladina významnosti Alfa (chyba Alfa), nulovou hypotézu nemůžeme zamítnout a tedy předpokládáme, že platí p > 0,05 – statisticky nevýznamný rozdíl KLASIFIKACE TESTŮ PODLE TYPŮ STATISTICKÝCH DAT pomocí statistických testů je vždy důležité vybrat vhodnou a odpovídající metou testování pro příslušný typ statistických dat tři základní typy statistických znaků: nominální (kategoriální data), ordinální (pořadová data) a kardinální (metrická data) nominální a ordinální znaky jsou data diskrétní (nespojitá) kardinální znaky mohou být představovány daty spojitými i diskrétními 1. testování nominálních (kategoriálních) dat používá se hodnocení rozdílu četností těchto znaků v souborech, a to četnosti empirické a teoretické dále testujeme tvrzení, že četnosti jedné veličiny určitým způsobem podmiňují četnosti druhé veličiny, tzn. že jsou na sobě sledované veličiny závislé analýzu těchto dat provádíme pomocí chí-kvadrát testů (X2 – test)
2. testování ordinálních (pořadových) dat při porovnání dvou souborů vytváříme směsný výběr – variační řadu uspořádaných hodnot z obou souborů, v němž přidělíme jednotlivým hodnotám pořadová čísla. Následně vypočítáme součty pořadových čísel zvlášť pro hodnoty pocházející z jednoho i druhého souboru. Pokud se porovnávané sooubory příliš neliší, oba součty pořadí dávají přibližně stejnou hodnotu. Testování dat je reprezentováno neparametrickými testy, které jsou používány pro testování hypotéz u ordinálních znaků, u kardinálních znaků diskrétní povahy a u kardinálních spojitých znaků v souborech, které neodpovídají normálnímu rozdělení pravděpodobností hypotézy testované neparametrickými testy se týkají pouze obecných vlastností rozdělení, například shody dvou křivek rozdělení, přičemž nepředpokládají normalitu dat
3. testování spojitých dat s normálním rozdělením v případě porovnávání dvou souborů spojitých náhodných veličin, které odpovídají normálnímu rozdělení pravděpodobností, používáme parametrické testy, které testují hypotézy týkající se parametrů normálního rozdělení, tzn. střední hodnoty a rozptylu Studentův t-test testuje hypotézu o shodě dvou středních hodnot. Na základě výběrových průměrů a rozptylů počítáme testovací kritérium při porovnání s tabulkovou kritickou hodnotou pak rozhodneme o statistické významnosti rozdílu obou srovnávaných středních hodnot
TESTOVÁNÍ NORMALITY test, zda soubor dat sledované náhodné veličiny odpovídá Gaussovu normálnímu rozdělení pravděpodobností, nebo ne X2 test dobré shody je vedle šikmosti a špičatosti normálního rozdělení jedním z nejpoužívanějších testů normality dat
1. X2test dobré shody používaný obecně k testování shody četností (především u nominálních dat) je založen na posouzení rozdílu mezi skutečnými (empirickými) četnostmi výskytu hodnot ve výběrovém souboru a očekávanými (teoretickými) četnostm, odpovídajícími příslušnému předpokládanému rozdělení pravděpodobností rozhoduje, zda je rozdíl mezi empirickými a teoretickými četnostmi způsoben pouze náhodně a výběrový soubor pochází z populaces normálním rozdělením, nebo je rozdíl natolik velký, že je způsoben tím, že výběrový soubor nepochází z populace PARAMETRICKÉ TESTY základní otázka, zda-li se dva výběry shodují ve svém průměru nebo zda-li sledovaný výběr má určitou konkrétní hodnotu průměru. Dále hypotézy týkající se rozdílu rozptylů mezi dvěma populacemi při hodnocení vlivu pokusných zásahů na variabilitu sledované veličiny mezi parametrické testy se řadí především Studentův t-test pro testování rozdílu dvou středních hodnot a F-test pro testování rozdílu dvou rozptylů
1. testování rozdílu dvou rozpylů F-test testem rozhodujeme, zda pokusný zásah má vliv na proměnlivost zkoumané náhodné veličiny je důležitý i pro porovnání přesnosti dvou metod měření
2. testování rozdílu dvou středních hodnot Studentův test nejčastěji používaný parametrický test používá se pro testování rozdílu dvou středních hodnot 1. porovnání základního a výběrového souboru (jednovýběrový t-test) používáme pro hodnocení experimentů, kdy známe střední hodnotu u základního souboru (tuto je pak možno považovat za konstantu). Pak ověřujeme hypotézu, že sledovaný výběrový soubor pochází z populace, která má stejnou střední hodnotu jako tato známá konstanta. 2. porovnání dvou výběrových souborů (dvouvýběrový t-test) tato varianta Studentova t-testu se používá pro hodnocení experimentů, kde neznáme střední hodnotu základního souboru, a vycházíme proto pouze z výběrových dat dvou souborů párový pokus = porovnáváme data, která byla vytvořena dvojím měřením té samé věci nepárový pokus = data, která pocházejí ze dvou různých skupin objektů a pak tu je samé něco, čemu fakt už nerozumím. Statistica rulez.
3. testování rozdílu více středních hodnot máme mnoho skupin dat, které byly podrobeny působení různých podmínek, jejichž účinek je předmětem našeho sledování potřebujeme zjistit, zda existují rozdíly mezi těmito skupinami, respektive potřebujeme porovnat jejich průměry navzájem pro všechny možné páry skupin (případně pouze střední hodnoty pokusných skupin oproti kontrole) statistické metody, které toto umožňují najdeme pod souhrnným názvem analýza rozptylu = ANOVA (analysis of variance) metoda je založena na vztazích rozptylů porovnávaných souborů (testování shody středních hodnot se vlastně převádí na testování shody dvou rozptylů (F-test)) pro validní použití musí být splněny následující předpoklady : nezávislost měření (všechna měření musí být nezávisla uvnitř skupin i mezi skupinami) normalita dat (hodnoty v každí skupině musí alespoň přibližně odpovídat Gaussovu normálnímu rozdělení) homogenita rozptylů uvnitř skupiny (rozptyly ve všech skupinách musí být alespoň přibližně shodné) nejjednodušším případem analýzy rozptylu je jednofaktorová analýza rozptylu, kdy analyzujeme účinek jednoho faktoru na zkoumanou závisle proměnnou zkoumá se, zda skupiny vytvořené klasifikačním faktorem jsou si podobné,, nebo zda jednotlivé průměry tvoří nějaké identifikovatelné shluky (homogenní podskupiny se stejnými hodnotami) celkovou variabilitu (rozptyl) zkoumané proměnné lze rozdělit na dvě složky: rozptyl „mezi skupinami“ (tzn. rozptyl výběrových průměrů kolem společného průměru, tj. Váženého průměru ze všech výběrových průměrů) a rozptyl „uvnitř skupin“ (tj. Rozptyl mezi jedinci ve stejné skupině)
HODNOCENÍ ZÁVISLOSTI 2 KVANTITATIVNÍCH ZNAKŮ dvě veličiny jsou závislé, pokud jejich veličiny určitým způsobem korespondují korelační analýza = zkoumá vztahy proměnných pomocí různých měr závislosi, které nazýváme korelační koeficienty. Pomocí korelačních koeficientů je kvantitativně vyjádřena těsnost (síla) vzájemné závislosti obou sledovaných proměnných regresní analýza = studuje, jaký vztah existuje mezi proměnnými (lineární, kvadratický, logaritmický,…) a jak se mění závislá proměnná Y v závislosti na změnách ji podmiňující nezávislé proměnné X. Jde tedy o jednostrannou závislost (na rozdíl od korelační analýzy která studuje dvoustranný reciproční vztah obou náhodných proměnných) vztahy mezi proměnnými můžeme obecně rozdělit do dvou základních skupin: funkční závislost: v každé číselné hodnotě jedné proměnné Xi odpovídá přesně jedna hodnota druhé proměnné Yi X je nezávislá proměnná, Y je závislá proměnná statická (korelační) závislost jsou to náhodné jevy, už to není matematika, ale příroda, jejich charakter je totiž proměnlivý a nestálý taková závislost má relativní charakter existence (změna) jedné proměnné vyvolává existenci (změnu) jiné proměnné jen s určitou pravděpodobností („znaky spolu korelují“) jediné číselné hodnotě Xi (nezávislá proměnná) může tedy odpovídat celá řada náhodných hodnot druhé veličiny Yi (závislá proměnná) graficky = bodový diagram – každý bod odpovídá korelační dvojici (xi, yi) pokud jsou body seskupeny podél některého směru, tvoří tvz. Korelační pás a svědčí to o přítomnosti určitého vztahu mezi sledovanými proměnnými přímá korelace (pozitivní) jde zdola nahoru, nepřímá jde zhora
Korelační koeficient přímá, nepřímá úměra pomocí korelačního koeficientu se zjišťují vzájemné vazby a jejich závislosti na třetím faktoru
GEOSTATISTIKA studium jevů, které se mění v prostoru (a čase) statistické nástroje sloužící k pochopení a modelování prostorové variability jevů 1. regionalizovaná proměnná proměnná, která je distribuována v prostoru typy půd, výskyt minerálů, nadmořská výška, teplota, tlak 2. hodnota proměnné je funkcí polohy systematická složka – funkce polohy (X, Y, Z) náhodná složka – náhodné vlivy, šum,…
ZÁKLADNÍ KONCEPTY
prostorová (auto)korelace blízké jevy jsou si podobnější než jevy vzdálenější EDA první krok při analýze dat grafické a numerické metody deskriptivní statistika homogenita, typ rozdělení, testování hypotéz, jednoduché statistické modely, korelace ESDA grafické i numerické metody analýza prostorových vzorů trend v datech, anizotropie hypotézy založené na poloze dat prostorové modely INTERPOLACE měřené prostorových jevů probíhá většinou diskrétně = tvorba kontinuálních povrchů výpočet hodnoty v neznámých místech spline, trend, regresní funkce VARIOGRAFIE strukturální funkce vizualizace, modelování a průzkum prostorové autokorelace zkoumá variabilitu jevu ve vztahu ke vzdálenosti
KRIGING = výpočet pravděpodobné hodnoty proměnné buď v bodě, kde nebylo provedeno měření, nebo v relativně malé ploše označuje interpolační metody, které využívají geostacionární metody odhadu pro krigování se používá tzv. Lokální odhad, což je výpočet pravděpodobné hodnoty proměnné buď v bodě, kde nebylo provedeno měření = bodový odhad, anebo v relativně malé ploše = blokový odhad je základní geostatistickou metodou určování lokálního odhadu nedůležitější je základní krigování = podle cíle odhadu se vyčleňují bodové a blokové odhady pro bodový odhad při základním krigování se využívá soustava rovnic v maticovém tvaru univerzální krigování = prostorová proměnná je považována za součet dvou komponent – trendu (driftu), který určuje průměrnou hodnotu v tom místě, a reziduí. Po výpočtu trendu lze získat hodnot rezidua odečtením hodnoty trendu v daném místě od skutečné hodnoty
Spatial pattern identifikace převažujících procesů morishitův index fry plot ripleyho K-funkce a její variace Shlukování mapy hustoty jevu (heat maps, density maps) LISA – local indicators of spatial association lokální obdoba globálních indexů prostorové autokorelace Geostatistické simulace výsledky interpolačních metod jsou vyhlazené, protože modelují systematickou složku realita není hladká → vnesení náhodné složky (šumu) do výsledků Simulace Monte Carlo, Gaussovské simulace Interpolace = predikce simulace = výpočet jedné z mnoha možných realit Další metody modelování časových řad Space – time analysis space-time clustering space-time cube metody geocomputation fraktály vícerozměrné statistické metody geograficky vážená regrese
EDA A POPISNÁ STATISTIKA Explorary data analysis průzkumová analýza dat základní popis dat s pomocí numerických a grafických metod a jednoduchých modelů účel průzkumové analýzy detekce chyb a odlehlých měření zpřesnění vzorkování, eliminace odchylek pro přesnější popis kontrola předpokladů pro následné statistické zpracování jaké máme typy dat? Jaké je jejich rozdělení? První hypotézy zkoumání vzorků v datech existují nějaké vztahy mezi proměnnými v datech? Mají mnou zkoumaná data nějakou vnitřní strukturu? Lze popsat data jednoduchým modelem? Typy EDA jednorozměrná zkoumáme pouze jednu vlastnost proměnné frekvenční tabulky, histogramy, distribuční funkce dvourozměrná zkoumáme dvě vlastnosti proměnné a jejich vztah korelace, lineální regrese, scatterplot vícerozměrná zkoumáme více než dvě vlastnosti proměnné znaků a jejich vztahy metody: MDS, PCA, FA,…
VARIOGRAFIE modelování prostrorového vztahu (autokorelace) mezi naměřenými body vzdálenost a směr kovariogram m(x) je střední hodnota veličiny u v blízkosti místa x korelogram = normovaná kovariační funkce variogram nejpoužívanější strukturální funkce experimentální variogram – vychází z měření teoretický variogram – teoretický model vyjadřuje, jak se měn proměnná mezi místem u a místem (u+h), mezi nimiž je vzdálenost h vypočítají se všechny dvojice bodů a jim odpovídající variogram cloud body jsou kategorizovány do tříd podle vzdálenosti (důležitá je velikost kroku) pro každou třídu je zjištěn průměr vizualizace závislosti semivariance na vzdálenosti = výsledkem analýzy je identifikovaný typ variogramu a jeho parametry osa x = kategorie vzdálenosti mezi body osa y = semivariance – variabilita 2.řádu; jak se mění v krocích hodnoty x nugget – zbytkový rozptyl = rozptyl v oblasi menší velikosti než je základní krok nebo nepřesnost základních hodnot sill (práh) = hodnota semivariance (osa y), kde semivariogram mění svůj průběh range (dosah) = vzdálenost, pro kterou jsou body vzájemně ovlivňovány; vzdálenost, kde variogram dosáhne prahu izotropie /anizotropie některé přírodní jevy mohou mít výrazně anizotropní charakter přirozená povaha nebo vliv predispozic okolí například uložení geologických vrstev a výskyt rud, zlomy a průběh pohoří, hluk podél silnic, apod…. anizotropii je tedy potřeba zohlednit i v případě tvorby experimentálního variogramu není-li definováno, je použit tzv. Omnidirectional variogram izotropní jevy, tvoří kružnice kolem bodů směrové variogramy zohledňují převládající trend definice směru a jeho tolerance čím více párů, tím spolehlivější je odhad semivariance pro danou velikost kroku
teoretické modely variogramu modely s přechodem malé vzdálenosti → vysoká shoda mezi zjištěnými hodnotami (nízká variabilita), snižuje se se vzdáleností za dosahem se úroveň neshody stabilizuje kolem hodnoty statistického rozptylu, není prostorová vazba a variabilita je plně určována statistickým rozptylem model bez přechodu extrémní případ přechodového modelu model oscilační důsledek pravidelného střídání pásů s vyššími a nižšími hodnotami nehomogenním charakterem zkoumaného pole, nestabilita modelů (pro krigging se nepoužívá) modely složené složené z výše zmíněných modelů každý zdroj variability má svůj model
CHARAKTERISTIKY VZTAHŮ MEZI PROMĚNNÝMI zjištění, popis a kvantifikace vztahu mezi dvěma (a více) proměnnými kovariance absolutní hodnota korelace relativní hodnota pearsonova, spearmanova lineární regrese y = ax + b
Boxplot krabicový graf Q-Q plot srovnání reálných hodnot s teoretickým odhadem hodnot vybraného rozdělení nejčastěji porovnání s normálním rozdělením Sccaterplot X-Y bodový graf
ZÁPISKY Z PŘEDNÁŠEK
Regresivní analýza regrese umí data proložit spojitou funkcí a predikovat následující data slouží k prokládání dat a predikci sledovaného jevu
Náhodná veličina 1 záznam je náhodný jev více záznamů je náhodná veličina = jsou hodnoty uskutečněného náhodného pokusu zopakovaného dostatečně četněkrát znázorňujeme tiskacími písmeny
Data – diskrétní (čítání po jedničkách) x spojitá (čas, výška)
Diskrétní náhodná veličina nabývá konečného nebo nekonečného množství hodnot, kdy každá z těch hodnot má určitou pravdivost, že může nastat, či nikoliv
míry polohy:
určují, kde se daná data soustřeďují (kde je těžiště celého rozdělení pravděpodobností)
i) průměr - jeho nevýhodou je citlivost na tvar rozdělení pravděpodobností ii) modus - používá se tam, kde je velká četnost stejných pozorování. Nemá smysl ho používat tam, kde celkový počet pozorování je v řádech desítek - je to nejčetnější hodnota v datovém souboru iii) medián - vezmu hodnoty a uspořádám je podle velikost - vyhledám prostřední hodnotu uspořádání - sudý, lichý!
Míry variability i) rozpětí ii) rozptyl
REGRESE - hledání vztahu mezi proměnnými - prokládá ověřená data nějakou předem definovanou funkcí a zjišťuje, jestli zvolená funkce odpovídá charakteru dat - druhou základní aplikací regrese je použití zvolené fce na predikci do budoucna - lineární regrese – když b stojí samostatně - nelineární – když b vkročí do funkce