User Tools

Site Tools

vyuziti_metod_linearni_algebry_pca_svd_nmf

PCA (primary component analysis)

  • analýza hlavních komponent
  • viz DPZ
  • pozitivní korelace - jde v diagonále a skoro k 1, negativní je naopak a třeba -9, žádná korelace má záznamy rozptýlené všude
  • cílem PCA je zjednodušit popis lineárné závislých (tj. korelovaných znaků), a to rozkladem matice dat do matice strukturní (využité hlavní komponenty) a matice šumové (nevyužité hlavní komponenty)
  • Využitím PCA je snížení dimenze úlohy čili redukce počtu znaků bez velké ztráty informace, užitím pouze prvních několika hlavních komponent.
  • Hlavní komponenty jsou nekorelované.
  • latentní proměnná / hlavní proměnná
  • určení počtu komponent:
    • musí být větší než 1
    • tolik komponent, které vysvětlují např, 90 % původní variability
    • použiju Scree graf
  • ostatní grafické hilfy
    • Graf komponentních vah, zátěží
      • zobrazuje komponentní váhy, zátěže, pro obvykle první dvě hlavní komponenty
      • každý bod v grafu odpovídá jednomu znaku
      • v grafu se porovnávají především vzdálenosti mezi shluky
      • krátká vzdálenost mezi znaky → silná korelace mezi nimi
      • když je to kolmé, mají nulovou korelaci, když je úhel malý nebo velký tak pozitivní nebo negativní korelace
      • čím delší linie → tím větší vliv na výslednou komponentu!
      • nalezneme i shluk podobných proměnných a hlavními komponentami
    • Rozptylový diagram (scatterplot)
      • zobrazuje komponentní skóre pro první dvě hlavní komponenty všech objektů
      • najdu shluk vzájemně podobných objektů a také objekty odlehlé a silně odlišné od ostatních objektů
      • identifikace odlehlých objektů, identifikace trendů, identifikace tříd, shluky objektů
      • objekty daleko od počátku jsou extrémy, blízko k centru jsou nejtypičtější objekty
      • umístěné zřetelně v jednom shluku jsou si podobné a nepodobné objektům v ostatních shlucích
    • Dvojný graf (Biplot)
      • Kombinuje dva grafy: graf komponentních zátěží a vykreslení objektů společně
      • Úhel mezi průvodiči je nepřímo úměrný velikosti korelace mezi proměnnými

SVD (singular value decomposition)

NMF (Non-negative matrix factorization)

Permalink vyuziti_metod_linearni_algebry_pca_svd_nmf.txt · Last modified: 2016/12/31 19:49 by efox

oeffentlich