26 maj 2010

Valår och statistiska felmarginaler....

....here I go again. Min förra post om statistisk säkerställning (där gällde exemplet KD-partiet) blir så pass ofta besökt nuförtiden, enligt  besöksmätaren (sidan ligger väl högt på Googles träfflista eftersom det eftertraktade mystiska begreppet "statistiskt säkerställd" står i rubriken redan), att jag behöver lufta saken igen, lägga upp den på bordet: Pga era ymniga besök så har jag sett till att justera inlägget ifråga, rätta felaktig a formuleringar, lägga till relevant information jag hade glömt, etc.

Kanske bäst att även ta upp ett aktuellt exempel: ur DN:
"Sverigedemokraterna sjunker klart under riksdagsspärren i Skops senaste väljarbarometer. Från 5,0 till 2,9 procent, ett ras som är statistiskt säkerställt."

Detta betyder alltså att den aktuella mätningens (B)  felmarginal och den förra mätningens (A) felmarginal inte överlappar varandra. Vi kan om detta stämmer förkasta möjligheten att ingen förändring egentligen skett.

Felmarginal beräknas ofta enligt följande approximation (men förmodligen är det inte exakt denna formel som använts av Skop; den duger dock för att vi ska kunna få oss en uppfattning om läget):

 1,96 x roten-ur(p(100 - p)/n

där 1,96 står för det "kritiska talet" vid 95% konfidensgrad
(95% konfidensintervall innebär att (Nationalencyklopedins formulering): Om hundra institut gör var sin studie, blir ungefär fem intervall felaktiga, dvs. innehåller inte den korrekta väljarandelen. Vid högre konfidensgrad görs intervallen bredare och fler blir riktiga.). p står för procentsatsen (andelen svarande som angav SD som parti, 2,9%), ,  som man fick fram i enkäten ifråga, och totala antalet som svarade i opinionsmätningen var 1 133 personer = talet n.

Förra mätningen av Skop (april 2010)  hade tydligen 1058 svarande, och 5% av dessa uppgav SD.

Felmarginalen för procenttalen, p1 och p2, i de båda undersökningarna (5% resp. 2,9%) räknas ut ungefär så här:
(en formel som endast kan användas då man har samma typ av standardavvikelse på de båda stickproven)

1,96 x roten-ur(p1(100-p1)/n1 + p2(100-p2)(n2) =
1.96 x roten-ur((5x95/1058)+((2,9x97,1)/1133)) = ca 1,64

Skillnaden mellan de båda undersökningarna behöver ha varit minst 1,64 procentenheter för att förändringen ska räknas som statistiskt säkerställd.
5% - 2,9% = 2,1% Skillnaden var alltså 2,1 procentenheter, vilket är mer än 1,64 procentenheter, således kan man säga att förändringen är statistiskt säkerställd.

Bild: enligt gamla temat "en statistisk säkerställning och en kanelbulle, tack" 
SvD, Sydsvenskan, HD ______________________________________________________________________________________________
Ovanstående inlägg är direkt inspirerat av Skogsmannen: "Träffar hos mig", där han nämner vad folk googlar på för sökfras när de hittar till hans blogg, bl a "mannen som grubblade", samt "överleva en natt i skogen", och av Sentioergosum-Daniel, där han funderar över alla som söker på "Jennifer Aniston" när de hamnar hos honom. 
Här på Z- enkla bloggen, är det, förutom ett gammalt inlägg med bilder på tigerungar (från början avsett för att locka besökare!),  främst "statistiskt säkerställd", "hur många sekunder på ett dygn" (detta inlägg)  (följt av "katolsk biskop", tror jag) som gäller som ingång.

8 kommentarer:

Worgh sa...

Jag förstår inte riktigt hur du kommer till beräkningen av skillnaden mellan felmarginalerna. Jag tror att man skulle förstå ännu lättare om du inte gick direkt på skillnaden mellan felmarginalerna utan först skrev ut hur stora felmarginaler de två enskilda mätningarna har.

När man räknar på att 95% av undersokningars resultat skallulle haft den korrekta väljarandelen inom sitt felintervall, räknar man väljarandelen i den faktiska undersökningen som "den rätta"

Z sa...

Välkommen hit, Worgh
Lite ont om tid just nu men återkommer imorgon med grundligare genomgång.

Z sa...

Hej igen, Worgh
Jag har tvekat kring hur mycket jag ska ta upp i förklaringarna kring dessa stickprovs-opinionsundersökningar, inte minst för att jag inte ville vilseleda. Ville mest att "mannen på gatan", i dessa valtider, skulle få reda på hur man snabbt genom en approximerad formel, kan uppskatta om skillnaden i procentenheter mellan två opinionsundersökningar är statistiskt signifikant (säkerställd)

När man räknar på att 95% av undersökningars resultat skulle haft den korrekta väljarandelen inom sitt felintervall, räknar man väljarandelen i den faktiska undersökningen som "den rätta"

Bra fråga. Man räknar hela väljarkåren som "den rätta" (som om det vore val idag) och villkoret på n, dvs på deltagarna i undersökningen, är att det är litet i förhållande till hela väljarkåren. T ex 1000-2000 personer.

Formeln som jag angav för att avgöra säkerställningen för en skillnad/differens mellan två undersökningar, där roten-ur(p(100-p)/n) = standardavvikelsen,
gäller alltså endast vid den speciella omständigheten: OSU, oberoende slumpmässigt urval. T ex får samma individ inte delta i båda undersökningarna, etc. Wikipedia har en kort definition:
Oberoende slumpmässigt urval

roten-ur(p(100-p)/n) är alltså en skattning av standardavvikelsen för denna typ av undersökningar och dess härledning är aningen krånglig, den härrör från en binomialfördelnings-koefficient för ett givet procenttal.

z-kritiska talet 1,96 gäller speciellt för konfidensgraden 95 % (har med normalfördelning att göra)

Visst, jag hade kunnat ange felmarginalerna för båda undersökningarna (det är bara att stoppa in i formeln), men det är nog inte riktigt så Skop gör för att beräkna överlappningar, utan de använder troligen den formel som jag angav, med felmarginal för differensen i procent, mellan två undersökningar. men genom överslagsräkning kan man säker räkna direkt på två felmarginaler och ifall de överlappar, men då får man färre statistiskt fastställda resultat.

Sedan är det också viktigt att komma ihåg att dessa felmarginaler gäller vid "perfekt slumpmässigt urval" vilket det finns många fler felkällor för. Det krävs en hel del planering för att plocka ut ett slumpmässigt urval av väljarna. Dessutom ställer de olika opinionsmätar-leverantörerna olika lydande frågor i sina enkäter, vilket också spelar roll.

mvh
/z

Z sa...

Här är förresten en intressant artikel om opinion, på Nationalencyklopedin: Bandwagon-effekt

Lennart W sa...

Cecilia, vad du skriver här borde verkligen vara lättillgänglig information för alla.

En sån här feluppskattning tar bara hänsyn till ett parti i taget. Det stör mig lite (även om man förstås kan göra detta för varje parti för sig, och även för den sammanlagda %-en för grupper av partier).

Iaf teoretiskt undrar jag om man kan få en mer komplett bild med en variansmatris, dvs en som även tar med korrelationer mellan felen för olika partier. Vet du om SIFO m fl gör något liknande? Vore det ens meningsfullt? Iofs kan jag tänka mig att korrelationsuppskattningar varierar för mycket för att vara meningsfulla. Så är det ju iaf inom finans (vilket ändå inte verkar hindra att de ändå glatt inför begreppen inom portföljteori etc..).

Z sa...

Lennart, tack för input. Just i dagarna läser jag långartiklar om centrala gränsvärdessatsen, grunden för hypotesprövning och signifikans.
Känner mig lite villrådig då jag insett vad många forskare insett (förm. du också): Att vi inte alls vet när normalfördelning är tillämpligt.

Ska försöka ta reda på din fråga om variansmatriser. Det blir kul :-)

Z sa...

Iaf teoretiskt undrar jag om man kan få en mer komplett bild med en variansmatris, dvs en som även tar med korrelationer mellan felen för olika partier. Vet du om SIFO m fl gör något liknande?

Har försökt söka igenom google på det som du kanske syftar på: kovariansmatriser (samvariationsmatriser) inom partisympatimätning/väljaropinion, men hittar endast kovariansmatriser inom andra områden: aktieindex, etc. Synovate verkar pyssla med sådant. Ska även fråga en polare som jobbat på SCB.

Meningsfullt kan det bli ("Vid vilka tillfällen är partisympatier för småpartier/stora partier, beroende av varandra?" etc).

Jag är bara orolig för att en sådan extra analys ytterligare skulle öka på bandwagon-effekten. "Jag vill satsa på vinnaren!"-tänkandet. Istället för: "Vem anser jag, borde vinna valet?"


/C

Lennart W sa...

Kovariansmatrisen handlar det om ja. Knepigt med terminologin ibland. :-)

Jo, lite medveten om N-fördelningens begränsade tillämpbarhet är jag nog allt, inte minst efter att ha läst böcker av Mandelbrot ("The (Mis)behavior of Markets") och Taleb ("Fooled by randomness" och "The black swan"). Inom finans kallas problemet ofta för "fat tails" - risken för stora kursförändringar (t.ex. 5 standardavvikelser) är enl. erfarenheten (det är bara att ladda ned kursdata på i stort vad som helst, aktier, index, oljekurs, etc och kolla med Excel) är mycket större än vad som förutsägs av N-fördelningen. Likafullt är det den fördelningen man räknar med i iaf grundläggande teoretiska modeller... Är kanske därför det går åt pipsvängen ibland? De nämnda herrarna är inne på just ett sådant spår (bl.a.).

En annan iaf teoretiskt intressant fördelning är Cauchyfördelningen. Plottar man den är den också klockformad, och summan av två sådana slumptal blir ett annat Cauchyslumptal, MEN standardvavvikelsen är oändlig (det är därför som inte centrala gränsvärdessatsen funkar).

Både Cauchy och Normal är specialfall av Stable distribution..

Sånt där känner jag till teoretiskt och har även kollat upp lite m.a.p. tillämpningar i finansdata, men det jag undrar över nu är alltså när det gäller valprognoser.

OM (inte ett litet "om") kovarianser vore meningsfulla (man kan förstås allt beräkna en sådan, men t.ex. hur stabila är de över tid?) för valprognoser skulle det kunna tillämpas av de som SPELAR på valresultat via Unibet osv.

Skicka en kommentar

Sjung ut