Rozdział 5 Dyskryminacja (klasyfikacja z nauczycielem)
Zakładamy, że zadany jest podział \(\mathcal{P}\) macierzy danych \(X\) rozmiaru \(n \times p\). Podział ten odzwierciedla stan naszej wiedzy o zebranych (historycznych) danych i ich podziale na klasy. Przykładem takiej sytuacji jest medycyna, gdzie \(X\) jest macierzą \(p\) objawów zgromadzonych wśród \(n\) pacjentów, zaś podział odzwierciedla klasyfikację na \(k\) jednostek chorobowych. Zadaniem dyskryminacji jest opracowanie prostych reguł zakwalifikowania do jednej z klas obiektu \(x \in \mathbf{R}^p\) nie odwołujących się do macierzy \(X\).4 W tym rozdziale zajmiemy się dyskryminacją liniową, w której reguły dyskryminacji oparte są na operatorach liniowych w \(\mathbf{R}^p\).
Twierdzenie 5.1 Twierdzenie Pitagorasa o macierzach wariancji podziału
Dla każdego podziału \(\mathcal{P}\) zachodzi \[ V(X)=V_W(X,\mathcal{P})+V_M(X,\mathcal{P}) \]5.1 Zmienne dyskryminacyjne
Podobnie jak w przypadku wyboru najlepszego modelu liniowego, szukamy macierzy przekształcenia liniowego wymiaru \(d \times p\) (\(d \leq p\)): \[ U= \begin{bmatrix} U_1^T\\U_2^T\\ \vdots\\ U_d^T \end{bmatrix} \] której wiersze stanowią zmienne dyskryminacyjne.
Po przekształceniu \(U\) obrazem macierzy \(X\) będzie macierz \(Y=XU^T\) o wymiarze \(n \times d\). Z twierdzenia 5.1 wiemy, że \[ V(Y)=V_W(Y,\mathcal{P})+V_M(Y,\mathcal{P})\\ \]
Należy wybrać takie przekształcenie \(U\), aby zdolność rozróżnienia klas była jak największa czyli bezwładność międzyklasowa \[ J_M(Y,\mathcal{P})=Tr\left(V_M(Y,\mathcal{P})\right) \] była jak największa.
Ponieważ zarówno macierz \(X\) jak i podział \(\mathcal{P}\) są ustalone, przyjmiemy oznaczenia: \[ V\stackrel{def}{=}V(X), \, V_M\stackrel{def}{=}V_M(X,\mathcal{P}) \]
Korzystając z z metody mnożników Lagrange’a zadanie to mozna sprowadzić do maksymalizacji funkcji zmiennej macierzowej \(U\): \[ Tr\left(UV_MU^T\right)-Tr\left(\Lambda UVU^T\right) \] Macierz \(\Lambda\) jest przekątniową macierzą rozmiaru \(d \times d\) współczynników Lagrange’a tak dobranych by \(||Y_i||=1,\;i=1,2,\dots,d\).
5.2 Podział dychotomiczny
Często w praktyce występuje podział na dwie klasy. Jest on o tyle interesujący, że jak wynika z twierdzenia 5.3, jest tylko jedna zmienna dyskryminacyjna, a więc kryterium dyskryminacyjne jest oparte na iloczynie skalarnym tej zmiennej z wektorem \(x\) mającym być obiektem klasyfikacji
Propozycja 5.5 Kryterium przynależności do klasy 1 dla uniwersalnego progu.
Niech \(\alpha=\frac{c^*}{c}\), \(u_*=\alpha u_0\) \[ \begin{cases} u_*^Tx \geq c^* &\quad \text{gdy}\; \alpha>0\\ u_*^Tx \leq c^* &\quad \text{gdy}\; \alpha<0 \end{cases} \]5.2.1 Przykład
Badano zmiany zawartej w plazmie krwi stężenia glukozy [%] (zmienna 1) i wolnego kwasu tłuszczowego [mEq/l] u 12 schizofreników (grupa 1) i 13 zdrowych ochotników (grupa 2) po domięśniowym wstrzyknięciu insuliny.
Dane
Środki ciężkości
## G1 G2
## glukoza [%] -25.60 -31.10
## tluszcz [mEq/l] -0.06 -0.15
Macierze kowariancji
## [,1] [,2]
## [1,] 278.0830 0.8291
## [2,] 0.8291 0.0092
## [,1] [,2]
## [1,] 269.9230 -0.2493
## [2,] -0.2493 0.0067
Obliczenia
p1 <- 12/25
p2 <- 13/25
g <- p1*g1+p2*g2
g## [1] -28.4600 -0.1068
VW <- p1*V1+p2*V2
VW## [,1] [,2]
## [1,] 273.839800 0.268332
## [2,] 0.268332 0.007900
VM <- p1*p2*(g1-g2)%*%t(g1-g2)
VM## [,1] [,2]
## [1,] 7.550400 0.12355200
## [2,] 0.123552 0.00202176
V <- VW+VM
V## [,1] [,2]
## [1,] 281.390200 0.39188400
## [2,] 0.391884 0.00992176
Vinv <- solve(V)
Vinv## [,1] [,2]
## [1,] 0.003760646 -0.1485358
## [2,] -0.148535828 106.6553529
u0 <- Vinv %*% (g1-g2)
u0## [,1]
## [1,] 0.007315326
## [2,] 8.782034709
Punkt podziału
c <- 0.5 * sum(t(u0) * (g1+g2))
c## [1] -1.129503
Reguła 100
ug <- 100*u0/c
ug## [,1]
## [1,] -0.6476588
## [2,] -777.5130830
Dyskryminacja
x <- c(-30,-0.1)
x## [1] -30.0 -0.1
sum(t(ug) * x)## [1] 97.18107
Chory
x <- c(-20,-0.2)
x## [1] -20.0 -0.2
sum(t(ug) * x)## [1] 168.4558
Zdrowy