Rozdział 5 Dyskryminacja (klasyfikacja z nauczycielem)

Zakładamy, że zadany jest podział \(\mathcal{P}\) macierzy danych \(X\) rozmiaru \(n \times p\). Podział ten odzwierciedla stan naszej wiedzy o zebranych (historycznych) danych i ich podziale na klasy. Przykładem takiej sytuacji jest medycyna, gdzie \(X\) jest macierzą \(p\) objawów zgromadzonych wśród \(n\) pacjentów, zaś podział odzwierciedla klasyfikację na \(k\) jednostek chorobowych. Zadaniem dyskryminacji jest opracowanie prostych reguł zakwalifikowania do jednej z klas obiektu \(x \in \mathbf{R}^p\) nie odwołujących się do macierzy \(X\).4 W tym rozdziale zajmiemy się dyskryminacją liniową, w której reguły dyskryminacji oparte są na operatorach liniowych w \(\mathbf{R}^p\).

Definicja 5.1 Niech podmacierzami podziału \(\mathcal{P}\) będą \(X_{[1]},X_{[2]},\dots,X_{[k]}\), \(G_1,G_2,\dots,G_k\) - centroidami podziału, \(G_{\mathcal{P}}\) - macierzą centroidów. Macierzą wariancji wewnątrzklasowej (odp. międzyklasowej) nazywamy macierz \[ V_W\stackrel{def}{=}V_W(X,\mathcal{P}) = \sum_{j=1}^k p_j V\left(X_{[j]} \right)\\ V_M\stackrel{def}{=}V_M(X,\mathcal{P})=V\left(G_{\mathcal{P}} \right) \]

Twierdzenie 5.1 Twierdzenie Pitagorasa o macierzach wariancji podziału

Dla każdego podziału \(\mathcal{P}\) zachodzi \[ V(X)=V_W(X,\mathcal{P})+V_M(X,\mathcal{P}) \]
Propozycja 5.1 \[ V_M=\sum_{j=1}^k p_j (G_j-G)(G_j-G)^T\\ rz\left( V_M \right) \leq k-1 \]

5.1 Zmienne dyskryminacyjne

Podobnie jak w przypadku wyboru najlepszego modelu liniowego, szukamy macierzy przekształcenia liniowego wymiaru \(d \times p\) (\(d \leq p\)): \[ U= \begin{bmatrix} U_1^T\\U_2^T\\ \vdots\\ U_d^T \end{bmatrix} \] której wiersze stanowią zmienne dyskryminacyjne.

Po przekształceniu \(U\) obrazem macierzy \(X\) będzie macierz \(Y=XU^T\) o wymiarze \(n \times d\). Z twierdzenia 5.1 wiemy, że \[ V(Y)=V_W(Y,\mathcal{P})+V_M(Y,\mathcal{P})\\ \]

Należy wybrać takie przekształcenie \(U\), aby zdolność rozróżnienia klas była jak największa czyli bezwładność międzyklasowa \[ J_M(Y,\mathcal{P})=Tr\left(V_M(Y,\mathcal{P})\right) \] była jak największa.

Propozycja 5.2 \[ V_M(Y,\mathcal{P})=UV_M(X,\mathcal{P})U^T \]

Ponieważ zarówno macierz \(X\) jak i podział \(\mathcal{P}\) są ustalone, przyjmiemy oznaczenia: \[ V\stackrel{def}{=}V(X), \, V_M\stackrel{def}{=}V_M(X,\mathcal{P}) \]

Twierdzenie 5.2 Optymalna macierz zmiennych dyskryminacyjnych spełnia warunek \[ U^*=argmax(Tr(UV_MU^T)) \] z warunkiem ubocznym \[ ||Y_i||=1,\;i=1,2,\dots,d \]

Korzystając z z metody mnożników Lagrange’a zadanie to mozna sprowadzić do maksymalizacji funkcji zmiennej macierzowej \(U\): \[ Tr\left(UV_MU^T\right)-Tr\left(\Lambda UVU^T\right) \] Macierz \(\Lambda\) jest przekątniową macierzą rozmiaru \(d \times d\) współczynników Lagrange’a tak dobranych by \(||Y_i||=1,\;i=1,2,\dots,d\).

Twierdzenie 5.3 Wiersze optymalnej macierzy zmiennych dyskryminacyjnych \(U^*\) są wektorami własnymi macierzy \(V^{-1}V_M\) odpowiadającymi \(min(d,k-1)\) największym wartościom własnym.5 Wektory \(U_i\) mają długości spełniajace warunki \(U_i^TVU_i=1\)

5.2 Podział dychotomiczny

Często w praktyce występuje podział na dwie klasy. Jest on o tyle interesujący, że jak wynika z twierdzenia 5.3, jest tylko jedna zmienna dyskryminacyjna, a więc kryterium dyskryminacyjne jest oparte na iloczynie skalarnym tej zmiennej z wektorem \(x\) mającym być obiektem klasyfikacji

Propozycja 5.3 W przypadku podziału dychotomicznego, w którym frakcja przypadków próby uczacej, należących do klasy 1 jest równa \(p_1\) a należących do klasy 2 \(p_2=1-p_1\), \(G_j,\; j=1,2\) są centroidami klas \[ V_M=p_1p_2(G_1-G_2)(G_1-G_2)^T\\ u_0=V^{-1}(G_1-G_2) \] \(u_0\) jest równoległy do wektora dyskryminacyjnego
Propozycja 5.4 Kryterium przynależności do klasy 1 \[ u_0^Tx \geq c \stackrel{def}{=}\frac{u_0^T(G_1+G_2)}{2} \]
Jeżeli próg \(c\) jest różny od 0, to wygodnie jest przyjąć ustaloną z góry (niezależnie od zadania dyskryminacji) wartość progu, równą \(c^*\).6

Propozycja 5.5 Kryterium przynależności do klasy 1 dla uniwersalnego progu.

Niech \(\alpha=\frac{c^*}{c}\), \(u_*=\alpha u_0\) \[ \begin{cases} u_*^Tx \geq c^* &\quad \text{gdy}\; \alpha>0\\ u_*^Tx \leq c^* &\quad \text{gdy}\; \alpha<0 \end{cases} \]

5.2.1 Przykład

Badano zmiany zawartej w plazmie krwi stężenia glukozy [%] (zmienna 1) i wolnego kwasu tłuszczowego [mEq/l] u 12 schizofreników (grupa 1) i 13 zdrowych ochotników (grupa 2) po domięśniowym wstrzyknięciu insuliny.

Dane

Środki ciężkości

##                     G1     G2
## glukoza [%]     -25.60 -31.10
## tluszcz [mEq/l]  -0.06  -0.15

Macierze kowariancji

##          [,1]   [,2]
## [1,] 278.0830 0.8291
## [2,]   0.8291 0.0092
##          [,1]    [,2]
## [1,] 269.9230 -0.2493
## [2,]  -0.2493  0.0067

Obliczenia

p1 <- 12/25
p2 <- 13/25
g <- p1*g1+p2*g2
g
## [1] -28.4600  -0.1068
VW <- p1*V1+p2*V2
VW
##            [,1]     [,2]
## [1,] 273.839800 0.268332
## [2,]   0.268332 0.007900
VM <- p1*p2*(g1-g2)%*%t(g1-g2)
VM
##          [,1]       [,2]
## [1,] 7.550400 0.12355200
## [2,] 0.123552 0.00202176
V <- VW+VM
V
##            [,1]       [,2]
## [1,] 281.390200 0.39188400
## [2,]   0.391884 0.00992176
Vinv <- solve(V)
Vinv
##              [,1]        [,2]
## [1,]  0.003760646  -0.1485358
## [2,] -0.148535828 106.6553529
u0 <- Vinv %*% (g1-g2)
u0
##             [,1]
## [1,] 0.007315326
## [2,] 8.782034709

Punkt podziału

c <- 0.5 * sum(t(u0) * (g1+g2))
c
## [1] -1.129503

Reguła 100

ug <- 100*u0/c
ug
##              [,1]
## [1,]   -0.6476588
## [2,] -777.5130830

Dyskryminacja

x <- c(-30,-0.1)
x
## [1] -30.0  -0.1
sum(t(ug) * x)
## [1] 97.18107

Chory

x <- c(-20,-0.2)
x
## [1] -20.0  -0.2
sum(t(ug) * x)
## [1] 168.4558

Zdrowy


  1. Może to być macierz gigantycznych rozmiarów

  2. a więc wektorów dyskryminacyjnych jest na ogół mało

  3. Ja (AD) przyjmuję wartość 100