Rozdział 2 Macierz danych

Definicja 2.1 Macierz danych jest tablicą o wymiarach \(n \times p\) \[ X = \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1p}\\ x_{21} & x_{22} & \cdots & x_{2p}\\ \vdots & \vdots & \ddots & \vdots\\ x_{n1} & x_{n2} & \cdots & x_{np} \end{bmatrix} = \begin{bmatrix} X^1 & X^2 & \cdots & X^p \end{bmatrix} = \begin{bmatrix} X_1^T \\ X_2^T \\ \vdots \\ X_n^T \end{bmatrix} \]

Macierz danych przedstawia zbiór \(n\) przypadków, każdy z nich opisany jest przez \(p\) zmiennych (cech). Kolumny \(X^{1},X^{2},\ldots,X^{p}\)\(n\) - wymiarowymi wektorami cech. Wiersze \(X_{1},X_{2},\ldots,X_{n}\)\(p\) - wymiarowymi wektorami przypadków. Zazwyczaj macierz danych (dla \(p=2\) ) jest przedstawiana jako 2-wymiarowy wykres \(n\) punktów (wykres rozrzutu)

Definicja 2.2 Macierzą klonów wektora \(A \in \mathbf{R}^p\) jest tablica o wymiarach \(n\)x\(p\) \[ A^n = \begin{bmatrix} A^T \\ A^T \\ \vdots \\ A^T \end{bmatrix} \]

Na przykład, jeżeli \(\mathbf{a}\) jest liczbą to \(\mathbf{a}^n\) jest \(n\) - wymiarowym wektorem \[ \begin{bmatrix} a \\ a \\ \vdots \\ a \end{bmatrix} \]

Wektory w macierzy \(X\) są zapisane w standardowym, kartezjańskim układzie współrzędnych o początku w punkcie \(\mathbf{0}\). Dla dowolnych wektorów \(A,B\), symbol \(AB\) oznacza wektor o początku w punkcie \(A\) i końcu w punkcie \(B\).

Definicja 2.3 Środkiem ciężkości macierzy danych \(X\) jest punkt G, spełniający równanie \[ \sum_{i=1}^n GX_i= \mathbf{0} \]
Twierdzenie 2.1 Każda macierz ma jedyny środek ciężkości. Oznaczymy go \(G=g(X)\). Co więcej, \[ g(X)=\frac{1}{n}X^T \mathbf{1}^n \]

Dla macierzy danych \(X\) naturalny jest układ współrzędnych o centrum w środku ciężkości \(g(X)\). Taka operacja nazywa się centrowaniem \(X\) i oznacza symbolem \(X^0\). Mamy więc: \[ X^0=X-g(X)^n \]

Definicja 2.4 Macierz wariancji/kowariancji.
Niech \(X\) i \(Y\) będą macierzami o wymiarach odpowiednio \(n \times p\) i \(n \times q\).
Macierzą kowariancji między \(X\) i \(Y\) jest macierz o wymiarach \(p\)x\(q\) \[ V(X,Y)=\frac{1}{n}\left(X^0\right)^TY^0 \] Macierzą wariancji dla \(X\) nazywamy macierz kwadratową o wymiarach \(p\)x\(p\): \(V(X)\stackrel{def}{=}V(X,X)\)
Definicja 2.5 Standaryzacja macierzy danych
Niech \[ X^0=\begin{bmatrix} Z^1 & Z^2 & \cdots & Z^p \end{bmatrix} \] Standaryzacją macierzy \(X\) jest tablica: \[ S(X)=\begin{bmatrix} \frac{Z^1}{||Z^1||} & \frac{Z^2}{||Z^2||} & \cdots & \frac{Z^p}{||Z^p||} \end{bmatrix} \]
Symbol \(||A||\) oznacza długość wektora \(A\)
Definicja 2.6 Macierzą korelacji macierzy \(X\) i \(Y\) o wymiarach odpowiednio \(n \times p\) i \(n \times q\) jest macierz \(R(X,Y)\stackrel{def}{=}V(S(X),S(Y))\)
\(R(X)\stackrel{def}{=}R(X,X)\).
Definicja 2.7 Odległość Frobeniusa macierzy \(X\) i \(Y\) o tych samych wymiarach \(n \times p\) jest liczba \[ d^2(X,Y) = \frac{1}{n} \sum_{i=1}^n \sum_{j=1}^p (x_{ij}-y_{ij})^2 =\\ \frac{1}{n} \sum_{i=1}^n ||X_i - Y_i||^2 =\\ \frac{1}{n} \sum_{j=1}^p ||X^j - Y^j||^2 \]
Definicja 2.8 Bezwładność macierzy \(X\) o wymiarach \(n \times p\) jest liczba \[ J(X) = d^2(X,g(X)^n) \]
Propozycja 2.1 \[ J(X)=Tr(V(X)) \]