Appendix A: Principalkomponentanalys

Populär genomgång utan matematik

I många situationer har man data som har extremt många dimensioner. En sammanställning av bilmarknaden skulle ange modeller, antal cylindrar, tillverkningsår, acceleration, bränsleförbrukning och en mängd andra prestandamått. Olika länder har olika BNP, area, befolkning, demokratiindex, arbetslöshet, pensionsålder och andra egenskaper. Personer kan mätas i termer av längd, vikt, skostorlek, midjemått, hattmått, armlängd m.m. Varje sådan faktor är en extra dimension. I många fall är det intressant att få reda på om det finns grupper som är lika varandra, kluster, eller om vissa av faktorerna hänger samman.

Om det bara finns en, två eller tre egenskaper är det relativt enkelt: rita ett diagram där varje bil, land, person eller vad det nu är som jämförs ritas som en punkt på den plats som motsvarar dess egenskaper. Om det finns kluster kommer de att synas som "moln" av punkter som ligger nära varandra. Egenskaper som är starkt kopplade kommer att bilda linjer eller plan.

Problemet är att oftast finns det många dimensioner, och det går inte att rita eller förstå 20-dimensionella diagram. Då kan man använda principalkomponentanalys för att se de två eller tre viktigaste dimensionerna.

Om man har en datamängd finns det en riktning där den har maximal spridning. Om man vrider diagrammet så att den riktningen motsvarar en axel blir situationen ofta klarare. Axeln motsvarar någon sorts kombination av alla datas egenskaper. Denna axel är den första principalkomponenten. Nu kan man vrida och tänja diagrammet så att den riktning som har näst störst spridning blir nästa axel, och så vidare. För att visualisera data nöjer man sig oftast med att hitta de två eller tre kombinationer av egenskaper som förklarar det mesta av spridningen av data.

Metoden är naturligtvis svår att föreställa sig när den verkar på högdimensionella rum, men matematiskt är den enkel och lätt att programmera. Effekten blir att de viktigaste egenskaperna hos data nu blir synliga. Kluster framträder ofta tydligt, även om deras egentliga likheter är mycket mångdimensionella.

Som ett exempel, låt oss ta mått på människor: längd, armlängd, fotstorlek, omkrets av huvudet, näsans längd osv. (data hämtade från William Harkness, Pennsylvania State University som mätte upp 55 studenter) Diagram visar att de samvarierar mycket, men ger ingen tydlig struktur. Finns det en grupp långnästa studenter, eller är det bara en slump av hur de blev utritade?

En beräkning av de första två principalkomponenterna ger följande 2D bild:

Vid första anblicken verkar vi inte ha vunnit något. Men om vi färglägger studenterna efter kön (kvinnor röda, män gröna) framträder ett mönster:

Komponent 1 verkar beskriver skillnaden mellan könen, eller i varje fall vem som har störst kropp. En granskning av dess delar visar att den räknar samman framför allt längd och fotstorlek, med visst inflytande av armlängd men mycket lite påverkan av näsa eller handstorlek; en formel som förmodligen rätt väl karaktäriserar en manlig fysik. Komponenten förklarar också den mesta av variationen i data: om man vet hur maskulin fysik någon har kan man förutsäga dennes mått med ganska god precision. Komponent 2 betonar framför allt huvudstorlek och kortare armar, kanske ett mått på en stadigare kroppsform. Eftersom den gjorts oberoende av komponent 1 spelar det ingen roll att män oftare är större än kvinnor, deras värde för komponent 2 visar om de är mer eller mindre stadiga i jämförelse med sin övriga fysik.

Lättare Matematisk genomgång

Principalkomponentanalys finns beskrivet på otaliga ställen. Se t.ex. http://en.wikipedia.org/wiki/Principal_components_analysis och http://csnet.otago.ac.nz/cosc453/student_tutorials/principal_components.pdf för en genomgång av matematiken. http://www.statsoft.com/textbook/stfacan.html beskriver lite av hur den används i praktiken.

Data finns beskrivna som en matris X av värden xij (i vårt fall är varje rad en viss ledamots omröstningsresultat, +1 för Ja, -1 för Nej och 0 för avstår eller frånvarande - vi har provat olika sätt att ta med skillnaden mellan frånvarande och avstående, men resultaten blir snarlika). Målet att hitta dess kovariansmatris egenvärden och egenvektorer. Dessa representerar dess varianser i ett nytt koordinatsystem där de är maximalt oberoende.

Först beräknar vi Xs medelvärde <xj> i varje kolumn och subtraherar bort dessa: xij := xij-<xj>. Sedan multiplicerar vi den nya matrisen X med sin transponat XT för att få kovariansmatrisen C= XXT. Dess egenvektorer Vij och egenvärden Ej beräknas med standardmetoder.

Varje egenvärde motsvarar en komponent, och dess storlek anger hur mycket av variansen som förklaras: styrkaj = Ej2 / ΣkEk2. Det finns lika många komponenter som ursprungliga dimensioner (dvs omröstningar), men enbart ett fåtal brukar innehålla huvuddelen av variansen. Genom att enbart använda dessa kan man till stor del rekonstruera all information i data, och få ett hanterbart antal dimensioner. För att beräkna ledamot i's koordinater längs komponent j används formeln yi = ΣkVjkxik, en enkel matrisprodukt.

Att göra varsin principalkomponentuppdelning av två olika års omröstningar skulle inte ge gämförbara data, eftersom komponenterna mycket väl kan ha flyttat sig. Därför gjordes en sammanvägning av flera års data för att få en uppdelning med mer jämförbara komponenter. Tidsserien konstruerades genom att ta 200 slumpmässigt valda voteringar från varje riksmöte och konkatenera ihop dem horisontellt till en stor matris X (där responserna från ledamöter som inte var närvarande vid ett riksmöte sattes till noll). De första 200 kolumnerna relaterade till senaste mötet, nästa 200 till näst senaste osv. Dess principalkomponenter beräknades, och de för att få projektioner för ett givet år användes enbart kolumner i X och V motsvarande omröstningar det året.

 

 

Navigation

Den Svenska Politikens Geometri

  1. Omröstningarna: politikens "K"
  2. Hur många dimensioner har svensk politik?
  3. Höger-Vänster skalan
  4. Hur stabil är politiken?
  5. Utskotten
  6. Motionernas nätverk
  7. Diskussion
  8. Referenser och vidare läsning
  9. Appendix: principalkomponentanalys