24 decembrie 2009

Ce ştim despre cele 4 exit-poll-uri (IV)

Cele trei postări anterioare fac trimitere la datele existente în spaţiul public.

Iată şi câteva gânduri personale bazate şi pe alte informaţii despre cele 4 exit-poll-uri:

1. CSOP/IRES a dat în mod cert lovitura. Vasile Dâncu face referire la un „statistician” ce ar fi în spatele reuşitei. Opinia cu pricina mi se pare a fi o impoliteţe: faptul că majoritatea sociologilor români nu au competenţele de mânuire a datelor pe acre le are cel din spatele reuşitei CSOP/IRES, nu îndreptăţeşte pe nimeni să îl catalogheze drept „statistician”. Aici e vorba despre a ştii să faci, nu despre a te face că ştii.

2. Omul cu pricina are o experienţă destul de lungă în cercetări academice internaţionale, cele despre acre spuneam că au condiţii de asigurare a calităţii mult mai dure decât sondajele cu care agenţiile româneşti de sondare sunt obişnuite.

3. În plus, CSOP este parte a TNS, şi derulează de mulţi ani Eurobarometrul şi sondajele asociate. Condiţiile acolo sunt mai puţin dure ca în mediul academic, dar sunt ceva mai puternice decât cele pe care am observat că le utilizează îndeobşte casele de sondare (nu doar cele de la noi). Ca utilizator, pot spune că am avut de a face cu eşantioane româneşti de la cercetări asociate EB și de la EB care erau destul de mult distorsionate. Acest lucru se petrecea mai ales cu cele de acum 4-5 ani.

4. CURS, cei al căror exit-poll a fost în apropierea predicţiei corecte au şi ei experienţă de participare la colectare de date în cadrul unor cercetări academice internaţionale. Chiar dacă au eşuat în a propune încă un produs care să fie integrat în baza de date agregată a European Social Survey din valul 3, cel din 2006-2007, este probabil ca experienţa de acolo să le fi folosit, iar acest lucru se vede în rezultatul relativ bun (în comparaţie cu INSOMAR și CCSB) de la exit-poll.

5. Nu ştiu despre INSOMAR şi CCSB să fi fost implicaţi în cercetări care să le fi impus standarde de colectare a datelor mai puternice decât cele utilizate în mod obişnuit de casele de sondaj. Asta mă face să mă întreb dacă nu cumva experienţa internaţională de a lucra cu o rigoare mai mare nu cumva este cea care a avut un cuvânt important în diferenţele de predicţie la exit-poll. Evident, în lipsa informaţiei complete despre cele de mai sus, e greu de răspuns unei astfel de ipoteze.

6. În fine, nu cred că experienţa de a face exit-poll-uri în anii trecuţi este atât de importantă. Din câte ştiu, este bine ca să nu păstrezi un operator de interviu activ mai mult de un an. Riscul este ca acesta să se uzeze, să aibă o tentaţie mare de a frauda, să pună întrebările incomplete etc. Bănuiesc că agenţiile de sondare rotesc operatorii şi caută mereu oameni noi care să realizeze interviurile. Prin urmare ceea ce contează este probabil experienţa și capacitatea coordonatorilor locali de a selecta reţele de operatori de calitate. Cum însă nici una din casele de sondare implicate în exit-poll-uri nu au făcut oficial descrieri ale reţelelor de operatori, şi această bănuială a mea rămâne doar o ipoteză ce ar putea fi testată atunci când informaţia va deveni disponibilă.

11 comentarii:

Radu spunea...

Revin cu cateva "ganduri" personale:

- usor intrigant modul de devoalare in presa al succesului CSOP-IRES. Mi s-a parut ca se cauta cu insistenta sa se faca "diferenta" fata de ceilalti, "looserii". In plus, lipsa unui caiet de sondaj, prezent pentru exit-ul de la primul tur, m-a facut sa fiu usor circumspect. Am mai scris pe tema asta, in opinia mea decizia corecta, profesionista, in cazul CSOP-IRES, era un "too close to call". Ar fi interesant de discutat cu "statisticianul" pe tema modului in care s-a luat decizia de a da acele date de final... ;)
- ar trebui analizate si datele exit-poll-urilor din primul tur. O analiza similara a facut Turambar. Sunt informatii suplimentare care pot schimba perceptia unei anumite ierarhii a (in)succesului institutelor de sondaj.

PS. Stiu si eu si stii si tu ca nu toti sociologii "se stiu de-a statistica". Iar d-nul Dancu e foarte sigur de asta! Ca atare cred ca expresia "statistician" ascunde mai degraba o unda de invidie si de respect...:)

Bogdan spunea...

Aşa e, o analiză completă include şi turul I, şi europarlamentarele...

Am preferat să mă concentrez doar pe turul II, acolo fiind punctul în care imaginea breslei a avut probabil masiv de suferit şi unde a fost lăsată impresia că sondajele pot fi manipulate lejer de cei care plătesc.

(Opinia mea este că nu a fost vorba de vreo manipulare.)

Din păcate cred că e vorba de invidie şi de desconsiderare. Nu e din fericire cazulparticular al domnului Dâncu, dar la modul general, e comun deopotrivă pentru pricipalilor decidenţi în facultăţile de sociologie, establishmentului din unele agenţii de sondare, variilor consultanţi, proaspeţilor absolvenţi: "ăla ştie să învârtească trei date", "e un sociolog cretin sclav al SPSS", "datele astea oricum nu spun nimic", "nu se pot compara oricum două obiecte", "noi ştim cu adevărat cum e cu chestia asta, nu pricăjitul ăla cu datele lui".

În contextul acesta, cuvintele domnului Dâncu cred că sunt o impoliteţe involuntară.

Bogdan spunea...

Uitam: şi eu cred că, din păcate, lipsa publică de informaţie despre sondajul la urne al CSOP/IRES nu face altceva decât să întreţină suspiciuni legate de fraudare, corectitudinea alegerilor...

Altfel, e firesc să vezi diferenţele. E ca la fotbal, sau ca în politică: unii promovează, alţii nu o fac. Dacă te uiţi la diferenţe, ai multe de învăţat...

Radu spunea...

D-nul Sandu, parca, definea perioada asta ca apartinand "sociologilor informaticieni"...:)

Da, ai dreptate, cei care au o "problema" cu datele vor desconsidera valoarea lor si a celor care le analizeaza. Din nefericire, acestia inca ne mai conduc. Din fericire, sunt din ce in ce mai putini... Si, daca reusesti sa ii faci cateodata sa se simta prost ca pentru ei SPSS se reduce la frecvente si cross-tab-uri, e o mica victorie! Eu asa o privesc...

Turambar spunea...

Faina treaba. Dupa Sarbatori fericite Merry Christmas ho ho ho voi face un material de prezentare in lumina indicatiilor ESOMAR :).

Chestia aia cu "marja de eroare 0.5%" publicata de Gandul este o intelegere nefericita din partea reporterului a declaratiilor mele telefonice. Eu i-am declarat ca am fost la o diferenta de 0.5% fata de rezultatele oficiale (declaratie bazata pe un calcul nefericit, m-a luat capul si am uitat sa impart la doi; am fost de fapt la 0.9% de rezultatul oficial), iar el a intzeles marja de eroare. De-aia am si zis ca e decent...

Esti constient de faptul ca unei marje de eroare de 0.5% (teoretica, statistica, spuneti-i cum vreti; sunt de acord cu punctul de vedere al lui Radu care spune ca pe langa marja de eroare statistica, unu pe radical din n, se mai adauga o marja de eroare suplimentara datorata lucrului cu omul),

deci unei marje de eroare teoretico-matematice de 0.5% ii corespunde un volum de esantion de 40 mii cazuri, ceea ce este prea mult chiar si pentru stralucitorii cu Exit Poll-uri (cu exceptia stralucitorilor de la INSOMAR, care au bani de tocat degeaba pe jde sute de mii de sectii, ca de-aia le da Vantu bani, nu?).

Noi am avut 325 de sectii de votare (275 normale + 50 speciale), la care am avut un volum de esantion de 21384 persoane la turul II si 18,506 cazuri la turul I.

La un volum de 21,384 cazuri marja de eroare teoretica (repet: teoretica: doar aia din unu pe radical din n) este de +/- 0.7% (da, da, la un nivel de probabilitate de 95%).

Scuze ca am vazut de-abia acum posturile tale. Sunt la Telega, unde Internetul merge cu viteza galetzii gaurite.

Sarbatori fericite, Bogdane! Sarbatori fericite, Radule! Sarbatori fericite, metodologilor. Ne auzim la anul.

:)

Bogdan spunea...

@Turambar:

Pai ai 0,7 la simplu aleator. Tinand cont de stratificare coboara la macar 0,6 :)

Chetiile alea cu eroare umana etc. sunt exact lucrurile pentru a caror prevenire luati bani. Altfel, faceti si voi ca o confederatie sindicala ce a realizat anul acesta un esantion de 100.000 si ceva de respondenti (nu, nu am gresit la zerouri!).

Anyhow, am senzatia ca doar la voi a fost o eroare cat de cat onest declarata...



Altfel, nu pricep ce cauti pe langa computer, pe langa internet, in loc sa te bucuri de pace si liniste, de vacanta, de Telega.

Un Craciun minunat si un An Nou fericit tuturor!

Adrian Hatos spunea...

Cu ce te-a suparat Vasile?
Fact is, lor le-a iesit iar paranoia nu prea isi are locul aici.
Este posibil sa fie si oarecare nimereala combinata cu whisful thinking in rezultate, nu numai la IRES, la toti. Ajustarea lor folosind tehnica fler+salt in gol pare a fi solutie mai buna ptr prezentare publica decat raportarea seaca a datelor de pe teren. Design effectul produs de selectia clusterizata (si nu stratificarea, aia duce la scaderea erorilor standard), erorile umane - inclusiv fraudele, plus erorile de selectie (lipsa sectiilor din strainatate, de pilda) ne atentioneaza cat sunt de riscante estimarile simple pe baza de sondaj.
In cazul de fata eroarea fundamentala a constituit-o absenta sectiilor din strainatate din cercetare. La INSOMAR cred ca a fost mai mult - baietii aia cu sondajele lor nu prea inspira incredere. E un risc etic sa ii bagi in aceeasi oala cu CURS sau IRES.


Craciun fericit si un an nou, 2010, nemaipomenit!

Bogdan spunea...

Hm, mă îndoiesc să fi fost altceva decât stratificat (rareori am auzit pe cineva să opteze pentru cluster sampling în sudii care nu sunt de marketing). E adevărat însă că aceasta e o altă informație pe care niciuna dintre cele 5 companii nu a făcut-o publică.

Ipoteza măsluirii sondajelor am exclus-o din start: mă îndoiesc să fie cineva atât de prost încât să își riște reputația la un exit-poll (care are mare vizibilitate ... și afectează implicit prețulpe care potențialii clienți l-ar putea plăti...)

În cazul CURS și CCSB am comparat estimările cu rezultatele fără diasporă. Pentru INSOMAR și CSOP/IRES, cei care spun că au ajustat rezultatele în funcție de diaspora (fără a oferi informații despre cum o fac) am comparat cu reyultatul final, pentru toți cei ce au votat. Vezi postul precedent dacă ai dubii. Nu prea văd unde e problema de etică?????

Nu am nimic cu CSOP/IRES, dimpotrivă am spus-o clar, în fiecare din cele 4 postări că ei sunt singurii pentru care rezultatele de la BEC le confirmă predicția.

So, înțeleg că sărbătorești din plin, domnule „statistician”? ;)

Adrian Hatos spunea...

Depinde cum folosim taxonomia tehnicilor de esantionare. Cluster sampling este atunci cand unitatile de analiza sunt grupate natural (sectii de votare de ex) si la un prim nivel faci o selectie de sectii iar apoi de aici selectezi votantii. O astfel de metoda de selectie are potential efecte dramatice asupra erorilor standard, chestie care se masoara prin formule de design effect (care implica si ICC-ul - stii tu bine, ca doar tii cursul de multilevel). Asta am zis-o ca sa clarific ce inteleg prin esantionare clusterizata. Ori nenii astia de la firmele de sondaje raporteaza, am impresia, marja de eroare masurata pentru esantionare strict aleatoare. Sau nu? E posibil sa fiu in mare eroare, necunoscand bucataria lor interna - rapoartele lor nu precizeaza modul in care este calculata marja de eroare.

Iar despre relatia dintre sociologie si statistica am propria mea perspectiva simplificatoare in care „sociologii statisticieni” constituie una dintre taberele care pot duce inainte disciplina. Daca opinia lui Dancu e citita in cheia asta nu este nici o insulta. Este jignitor din punctul de vedere al celor care cred ca ignoranta in statistica este semn de creativitate, viziune sau/si puritate disciplinara.

Altfel sarbatorim tihnit in stil nici-urban-nici-rural. Adica trandaveala ardeleneasca cu multe calorii, minim de activitate fizica.

:-)

Bogdan spunea...

Adi, cluster sampling e un pic ... altceva, chiar dacă seamănă mult. Ceea ce descrii acolo este eşantionare stratificată bistadială . Diferenţa faţă de cluster e dată de asumpţiile asupra omogenitîţii/heterogenităţii unităţilor selectate.

Stratificarea duce la scăderea erorilor de eşantionare (creşte precizia "fotografiei" realizate prin selecţie, prin faptul că impune "camerei foto" să aleagă punctele proporţional cu dispunerea lor în fiecare zonă a "peisajului" fotografia).

Cluster face contrariul şi este folosit aproape exclusiv în studii de marketing. Mă îndoiesc ca vreuna din casele de sondaj să fi lucrat cu eşantionare cluster la exit-poll-uri. Ce e drept, niciuna dintre ele nu a considerat necesar să precizeze ce fel de eşantion a utilizat... Asumpţia mea este însă că au lucrat cu stratificate multistadiale (regiune istorică*tip localitate, apoi SV, apoi indivizi, aşa cum se lucrează în România de 20 de ani). Rămâne de văzut dacă au procedat în mod diferit la selecţia votanţilor din secţiile speciale. (aici ar putea fi altă cheie a estimărilor eronate)



Ceea ce au raportat CURS şi INSOMAR nu au cum să fie marje de eroare calculate pentru selecţie aleatorie simplă, din simplul motiv că sunt mult prea mari pentru aşa ceva, la volumul dat al eşantioanelor.

Turambar spunea...

Adi, Bogdan are dreptate: esantionul de Exit Poll a fost stratificat bistadial. In cazul esantioanelor la sondajele electorale / pre-Exit Poll putem discuta si de o componenta de clusterizare, data de nivelul intermediar de selectie al localitatilor (chiorchinii "naturali" de agregare spatiala a populatiei).

In cazul sectiilor speciale, pe langa stratificarea de la sectiile normale (reg istorica vs marime localitate), am mai introdus in criteriu de stratificare suplimentar: tipul de sectie speciala. In rural au fost doar un singur tip, cele speciale "obisnuite". In schimb, in urban am facut categorii separate cele din zonele de tranzit transport (gari, autogari, aeroporturi, statii fluviale), camine studentesti, spitale. A reiesit o combinatie mai complicata de casutze elementare, care de la turul I la turul II a suferit o mica ajustare, tinand cont de faptul ca am avut la dispozitie distributia voturilor in sectii la turul I.

Marjele de eroare comunicate de noi sunt cele specifice selectiei aleatorii simple. Calculul care sa iti spuna cat se reduce eroarea prin stratificare este, pe de o parte, destul de complicat si, pe de alta parte - si ce e in fond si mai important - posibil sa fie facut doar post-factum, doar in situatiile privilegiate in care stii variatiile interstrat / intrastat (cum ar fi, de ex, cazul la alegeri, unde avem sansa sa stim rezultatele pana la nivel de sectie de votare).

Pe de alta parte, ce castigi ca precizie prin stratificare eu personal ca pierzi prin efectele umane (operatori, refuzuri de raspuns care nu sunt distribuite aleator, raspunsuri false / spirala tacerii, care ne-a afectat la turul I la subestimarea lui Vadim, posibilele fraude electorale care cred ca ne-au afectat tot la turul I la Crin - prea ne-a iesit la tot in jur de 22 si el a obtinut de fapt 20).

Marjele de eroare de la CURS si INSOMAR, mult peste cele teoretice, sunt pur si simplu expresia unui conservatorism de comunicare. Oamenii si-au pus tabla la fund si au dat din pana tastaturii niste plus minusuri suficient de largi ca sa fie acoperitoare, bazandu-se pe faptul ca orisicum nu prea stie nimeni sa calculeze exact nici cresterea de exactitate datorata stratificarii, dar mai ales nici erorile extra-statistice (alea umane). Si atunci, ca sa nu si-o mai ia in freza de la o presa degraba doritoare sa verse sange nevinovat de marja de eroare mica, au spus si ei iaca acolo niste cifre, plus minus ceva, la nivelul de ochiometrie de sigurantza a lui Dorel, respectiv Gelu.

Convorbire telefonică cu ... un hoț??

Sună telefonul, de pe un număr necunoscut, vizibil (adică nu este ascuns), iar o voce de bărbat mă angajează în următoarea convorbire: -  ...