Massa convergents i massa pocs abstencionistes (o els biaixos del CEO)

Biaix

Després de publicar els nostres titulars alternatius del Baròmetre del CEO hi va haver cert rebombori als comentaris, ja que tothom que hi va intervenir (concretament, tres persones) mencionava una paraula que ni tan sols apareixia en el text original: el biaix. Sense adjectivar, sense més, com un arcà: el biaix. Com podíem haver-lo passat per alt si, realment, era tan important?

Què és el biaix? Per què apareix? Es pot evitar? Es pot provocar? Com afecta les enquestes i les conclusions que se’n treuen? I el més important de tot: es referirien els nostres comentaristes al biaix mostral? Amb la voluntat pedagògica i de servei públic que ens caracteritza quan cal parlar d’enquestes, intentarem donar resposta a aquestes i altres preguntes amb la vista posada a l’últim Baròmetre. Ha estat una excepció o és la norma?

Conceptes bàsics

Anem a pams: de què parlem quan parlem de biaix (volem-creure-que-mostral)? Ras i curt, que la mostra de l’enquesta no és representativa (fins i tot, fora dels marges d’error).

Ah!, que de què parlem quan parlem de mostra? Doncs d’un subgrup extret de la població que es vol estudiar, seleccionat perquè contesti una enquesta amb l’esperança de que sigui representatiu del conjunt de la població i, per tant, ens serveixi per poder inferir-ne característiques, malgrat tenir dades només d’uns quants dels seus membres.

I com és una mostra no representativa? Atès que els individus som prou complexes, aquest biaix pot ser-ho en molts sentits: tan esbiaixada estarà una mostra d’una enquesta pel conjunt de Catalunya si hi ha, per exemple, un 73% de dones, un 3% d’habitants de la ciutat de Barcelona, un 42% de majors de 80 anys o, i ara arribem a la mare dels ous quan parlem d’enquestes obertament polítiques, un 37% de votants de la CUP. En el ben entès que aquestes variables condicionen les opinions dels enquestats; també podria haver-hi sobrerepresentats ciutadans d’ulls clars, però sospitem que això no afectaria els resultats de l’enquesta.

Qualsevol d’aquests biaixos seria igualment inacceptable i anul·laria qualsevol conclusió que volguéssim extreure de l’enquesta, ja que sabem d’avançada que aquestes magnituds no es corresponen, ni tan sols aproximadament, amb la composició real del conjunt de la població catalana avui.

Eines per evitar els biaixos en la selecció de la mostra

Per a evitar-los, a Espanya i a Catalunya sovint se’ls imposa a les mostres, a més de la irrenunciable selecció aleatòria dels individus, unes quotes per fer que s’assemblin el màxim possible a la població en un seguit de característiques que es consideren rellevants per assegurar-ne la representativitat. Normalment, gènere, edat i/o mida del municipi. Així ho fan tant el CEO com el CIS (per sexe i edat).

Altres tradicions demoscòpiques, com l’anglosaxona, deploren les quotes, ja que si bé en teoria haurien de contribuir a controlar la representativitat de la mostra (i, en conseqüència, a millorar-ne la qualitat), a la pràctica, en poden limitar l’aleatorietat i provocar un subproducte no desitjat en augmentar el nombre de no respostes. L’excés de zel en el compliment de les quotes o altres estratègies de control similars, defensen alguns autors, pot provocar biaixos menys visibles però més profunds en criteris no controlats (com les opinions i les creences) i el seu estatisme pot passar per alt determinats canvis en la representativitat i, amb ells, no percebre els canvis en les tendències socials que s’hi associïn.

Sabem que pot sonar una mica contraintuïtiu, però si fem cas de la ciència, la millor manera d’aproximar-se a una mostra representativa és que sigui una mostra totalment aleatòria, és a dir, assegurant-nos que tots els membres del conjunt de la població a estudiar tinguin les mateixes probabilitats de ser escollits. O dit d’una altra manera: les opcions de tenir una mostra esbiaixada no poden ser més baixes que si utilitzem un mètode de sorteig per seleccionar-la.

Tot i això, per motius pràctics, sovint les cases d’enquestes introdueixen petites modificacions al sistema de mostreig que no tenen perquè afectar la qualitat de la mostra, dividint la població estudiada en subgrups (generalment territorials) i seleccionant-hi aleatòriament als individus enlloc de fer-ho sobre el conjunt de la població. És el que coneixem per estratificació i sí, tant el CIS com el CEO en fan ús.

Això pot deure’s tant a un interès especial en conèixer millor un subgrup determinat (a Catalunya, per exemple, les províncies, per la seva rellevància a l’hora de repartir escons, de les quals, per tant, cal seleccionar-ne més individus) com a un interès més espuri de reduir els costos del treball de camp (portant a terme una estratificació en dos passos que garanteixi una major concentració territorial dels enquestats, facilitant la tasca dels enquestadors). En el primer cas, si la ponderació posterior es fa de manera adequada, la mostra manté la seva representativitat (a costa d’ampliar una mica el seu marge d’error). En el segon cas, els riscos és multipliquen en augmentar el nombre de passos necessaris (la selecció aleatòria d’unitats, primer, i la d’individus, després) per construir la mostra, però si el nombre d’unitats és suficientment alt i tècnicament es resol amb correcció, la mostra resultant no se n’hauria de ressentir. Una mala estratificació, en canvi, pot explicar, per si sola, molts dels biaixos de la mostra.

Un cas pràctic: el Baròmetre del CEO 2013

A la llum d’aquestes revelacions eminentment teòriques (però bastant de sentit comú per a algú mínimament familiaritzat amb l’estadística), som capaços de detectar algun biaix rellevant en l’última enquesta del CEO? Us evitarem que li hagueu de dedicar ni mig minut a la pregunta: la resposta és sí. Però tothom tranquil: això passa fins i tot a les millors famílies.

Recorddevot

En color sòlid, els resultats reals. Difuminats, els records de vot de les enquestes postelectorals. Clica per ampliar.

Ni les quotes ni els estrats han aconseguit evitar les incongruències entre el record de vot manifestat pels enquestats i els autèntics resultats electorals, que són suficientment cridaneres com per fer saltar les alarmes de qualsevol analista que pretengui ser digne d’aquest nom.

Com que treure conclusions amb una enquesta aïllada no entra dins del que nosaltres considerem acceptable, l’hem acompanyada de tota la sèrie disponible del CEO (des de 2006) i el CIS (des de 2006, a excepció de les últimes eleccions), i ara ja tenim cinc enquestes sobre les quals pontificar, cosa que ens deu deixar a l’alçada de NC Report.

*Abans de seguir lliscant per aquest pendent tan perillós, potser voldràs consultar la nota metodològica al final d’aquest article.

Els perjudicats

DesviacioRecord

Clica per ampliar

Superada la temptació d’una primera interpretació abrandada, la desviació sistemàtica més evident és la mala selecció d’enquestats abstencionistes. La distància entre l’abstencionisme real i els que, després, reconeixen haver-ho estat és abismal i deixa el biaix de les opcions partidistes en un problema gairebé de matís. Això no converteix el cas català en excepcional, sinó que és un biaix comú i conegut en totes les enquestes polítiques d’arreu del món. Una de dues: o els abstencionistes menteixen (per vergonya, per mala memòria…), o els abstencionistes no responen a les enquestes. O les dues a la vegada. I això explica que sigui tan difícil estimar amb precisió els escenaris de participació de les diferents conteses electorals.

Hi ha una part de l’abstenció que és estructural, sistèmica, i està lligada a fenòmens d’exclusió social. De la mateixa manera que no vota, i pels mateixos motius, aquesta gent no contestarà mai una enquesta i, per tant, el gruix de “no vaig votar” sempre estarà per sota de l’abstenció real.

Però l’abstenció real acull perfils tan diversos –no tots necessàriament social i políticament exclosos- que també podria explicar, en part, la constant sobrerepresentació del vot en blanc. No és descabellat especular que actuï de “refugi” dels votants abstencionistes o d’aquells que, havent votat a un partit, ja se n’han desdit només setmanes després.

Diversos ordres de magnitud per sota, hi ha un partit sistemàticament infrarepresentat en les mostres tant del CEO com del CIS i, el fet de que ho sigui, s’ha convertit ja en un lloc comú de la política catalana: el PP. És el famós vot ocult i respon a molts factors, una bona explicació dels quals és la no menys famosa espiral del silenci de Noëlle-Neumann, malgrat que assumir-la acríticament comporta algunes implicacions no massa agradables sobre la societat de la qual formem part.

El que explica el biaix en un cas (els abstencionistes) i en l’altre (els votants populars) se suposa que té una zona de superposició: la no resposta. El problema de la no resposta ha estat abastament estudiat perquè la seva recurrència podria arribar a qüestionar la utilitat de l’eina, un fet que no seria preocupant si tinguéssim dotzenes d’eines fiables a la nostra disposició. Però no és el cas.

Quan es fa una enquesta sempre hi ha persones que no volen contestar-la o amb les que no es pot arribar a contactar mai. En principi, això no hauria de suposar un problema si la gent que contesta i la que no contesta no es diferenciés en res més que en el fet d’haver estat contactats (la substitució per un altre individu està prevista). A la practica, però, acostuma a passar que aquelles persones que no responen enquestes són significativament diferents de les que sí que ho fan: menys interès per la política, menys educació (hola, abstencionistes) i, en el cas de Catalunya, pel que sembla, votant dels sectors més espanyolistes de l’espectre polític (hola, populars). Per tant, la no resposta és una font de biaixos de la mostra molt important, ja que provoca que es substitueixi un individu per un altre que té característiques sensiblement diferents i, en conseqüència, estem invisibilitzant les actituds de certs sectors de la població.

El problema de fons és que dels ciutadans que han penjat el telèfon, han tancat la porta o, simplement, no s’han pogut trobar a casa no disposem de cap dada per identificar ni qui són ni quines característiques tenen i, en últim terme, no podem ni tant sols saber amb seguretat fins a quin punt la mostra de l’enquesta no és representativa.

Els beneficiats

BiaixCEOCIS

Diferència entre record de vot i vot real. En groc, els valors que superen els marges d’error de les enquestes. Clica per ampliar.

Però el biaix, és cert, està generalitzat i afecta també aquells segments políticament més integrats. Canvia en funció de cada partit: en alguns casos, com ja hem vist, els infrarepresenta, però en altres, els sobrerepresenta.

En aquesta sèrie curta es pot detectar una certa proporcionalitat entre el record de vot i els resultats electorals reals en cadascuna de les opcions. És a dir: el sentit del biaix i la intensitat, en general, roman en el temps, malgrat algunes fluctuacions conjunturals.

En les opcions convencionals, els anomenats “grans partits” o “partits centrals” del sistema, el biaix semblava força immune als resultats reals, en el sentit que sembla estable independentment del rendiment de la formació en les eleccions. El cas de CiU és paradigmàtic: la seva prima és recurrent tant si van acabar com si no al Palau de la Generalitat. El cas del PSC, en canvi, ha deixat de ser paradigmàtic recentment.

De fet, CiU i ERC són els partits que sistemàticament són més beneficiats pels biaixos de les mostres del CEO (no així a les del CIS, en què la infrarepresentació d’ERC va qüestionar la validesa de la mostra de l’enquesta del CIS de 2006). ICV-EUiA també ha gaudit d’una certa benevolència pel que fa al record de vot dels enquestats, però la intensitat de la desviació ha estat lleugerament menor.

Insistim que la sèrie és massa curta per ser massa taxatiu amb les conclusions, però l’únic partit que qüestiona els indicis anteriors és el PSC: durant aquest període de sis anys el sentit del biaix ha canviat de manera significativa, passant de ser beneficiat amb aquesta hipotètica prima per als partits grans, a ser perjudicat en l’últim Baròmetre. Sembla més senzill acceptar que ha canviat el PSC que no pas la manera de fer mostres al CEO però, de totes les explicacions plausibles, cap és massa afalagadora ni per a uns ni per a altres.

La irrupció durant aquest període de tres formacions noves al Parlament ens ha permès assistir a una mena de bandwagon effect diferit: el record de vot a C’s, SI o la CUP és lleugerament més alt que el vot real que van obtenir aquestes formacions (tot i que dins dels respectius marges d’error). No és agosarat pensar que, amb la capacitat que tenim els humans per fabricar records que ens apropin a la imatge idealitzada que tenim de nosaltres mateixos, vulguem fer-nos partícips d’un èxit que ens és aliè. I puntual, perquè tant en el cas de C’s com de SI, en les convocatòries posteriors ja no van gaudir d’aquesta prima, sinó més aviat el contrari; haurem de veure què li passa a la CUP.

Aquestes disfuncions de la nostra memòria (tant l’oblit com la recreació), s’intensifiquen com més lluny està la pregunta del record que s’evoca, fet que fa més desitjables les enquestes postelectorals com més properes estan a la convocatòria de les eleccions.

En resum

El biaix té dues components: una de sistèmica (problemes en la selecció de la mostra, la no resposta i l’autoexclusió) i una de conjuntural (la imprecisió de la memòria -per no parlar obertament de la capacitat per enganyar- i els efectes de l’exposició al context).

Tant l’una com l’altra fan que pràcticament haguem d’acceptar el biaix com a consubstancial a la pròpia existència de les enquestes. És una de les limitacions de l’eina i més val tenir-ho present abans de fer-la servir. Ara bé, el que sí que es pot intentar, un cop assumit que difícilment ens deslliurarem d’ell, és minimitzar-lo. I, per últim, saber detectar-lo i interpretar-lo en conseqüència.

Tornant al motiu original de la controvèrsia: el biaix de l’últim Baròmetre del CEO no és excepcional en absolut, com queda palès revisant les sèries històriques o ampliant el focus. És veritat que existeixen alguns canvis respecte les últimes eleccions però tots fàcilment explicables pel context polític. No és una disculpa: és una constatació. Com que no se’ns acudiria qüestionar la professionalitat de les diferents empreses que han portat a terme el treball de camp (i, al cap i a la fi, la selecció de la mostra és infinitament més transparent que els algoritmes d’intenció de vot), som més propensos a atribuir qualsevol particularitat que s’hi vulgui detectar (com l’enfonsament del PSC que, per contrast, el distancia encara més de les opcions històricament beneficiades) al context en què s’ha fet el Baròmetre. El mateix context que fa que el biaix sigui especialment rellevant per interpretar correctament la majoria de titulars que el Baròmetre ha generat a tot arreu (excepte aquí).

D’aquest article se’n responsabilitzen, a mitges, el Carles A. Foguet i la Berta Barbet. L’Oriol Bartomeus no té cap responsabilitat sobre el que s’hi diu, malgrat l’ajuda que els ha prestat per poder-lo escriure.

Nota metodològica: Per a l’elaboració de les taules i gràfics, hem agafat les dades que tant el CEO com el CIS posen a disposició pública. Un i altre no formulen les preguntes de la mateixa manera, no ofereixen les mateixes respostes possibles (de manera que les hem agrupat quan ho hem considerat necessari) i ni tan sols estan elaborades a la mateixa distància de les eleccions. Els resultats reals de les eleccions són de fonts oficials, malgrat que s’han detectat algunes incoherències entre elles. En qualsevol cas, la intenció de l’article és merament descriptiva; cap de les incongruències descrites anteriorment en qüestiona la tesi ni en varia significativament les magnituds.

Fotografia: NJ.COM

35 comentaris

  1. Jordi escrigué:

    Trobo que el biaix estadístic pròpiament dit, el biaix sistèmic que en dieu, no és en una opinió o en el record de vot on s’hauria de buscar. En la resposta a aquesta mena de qüestions s’hi agrega la dificultat intrínseca de mesurar aquests aspectes amb les hipotètiques deficiències o biaixos en la selecció de la mostra.

    Enlloc d’això trobaria pertinent preguntar-se si les variables de classificació que no formaven part de les quotes tenen la distribució esperada en la població.

    En el cas del CEO (però no només del CEO) la qüestió més aviat seria veure si com a resultat d’un determinat procés tècnic, millorable, les mostres acaben incloent de forma sistemàtica més nascuts a Catalunya, més fills de nascuts a Catalunya i més catalanoparlants del compte. O més del que sigui, qualsevol altre aspecte demogràfic, avaluable analitzant la matriu de dades, no comparant enquestes amb resultats electorals.

    Perquè quan veus una enquesta de GESOP amb més d’un 65% de catalanoparlants, d’entrada et surt un ‘perdoni? vol dir que està bé?’

    • Berta Barbet escrigué:

      Gràcies pel comentari Jordi.

      Hem utilitzat el record de vot perquè ens ha semblat la variable més fàcil de comparar amb la realitat (les dades sobre nombre de nascuts fora de Catalunya o nombre de catalanoparlants segurament no estan tan actualitzades com el record de vot de les uútimes eleccions), i a més, hem cregut que era la dada més directament correlacionada amb les actituds polítiques en general (el partit que es vota és segurament un determinant més important del que es pensa que el lloc de naixament, almenys segons el nosrtre criteri).

      De totes formes ens sembla evident que existeix cert biaix també en aquests criteris més demogràfics, no només en els polítics. El que no tenim tant clar, perquè és molt difícil de saber amb l’informació actual, és si es deu a un problema tècnic del mostreig com tu apuntes o a un problema de que aquests sectors són menys proclius a contestar una enquesta sobre política feta per la Generalitat.

      Ens inclinem a pensar que és el segon, més que res perquè no tenim cap motiu per pensar que les cases d’enquestes no haurien canviat el sistema si fós el primer, són les primeres interessades en trobar una mostra representativa. Però amb la informació acutal, no ho podem saber del cert (ens caldria tenir més informació sobre els municipis mostrejats, i sobretot, dels percentatges de no-resposta de l’enquesta).

      Això no treu que, com molt bé dius, el biaix existeix, i cal tenir-lo en compte a l’hora d’analitzar els resultats.

    • Carles A. Foguet escrigué:

      En un article d’Alberto Penadés que ja hem compartit en un altre comentari (“¿Quién responde a las encuestas en Cataluña?” http://www.eldiario.es/piedrasdepapel/encuestas-Cataluna_6_75652435.html) es posava el focus sobre alguns dels biaixos que esmentes i es discutien abastament als comentaris. Espero que allà puguis trobar-hi algunes de les respostes que aquí no hem sabut o pogut donar.

      En qualsevol cas, aquest article neix com a “reacció” als comentaris de l’article del Baròmetre. Vam interpretar que el biaix que es mencionava era en la intenció de vot (bé, ho vam interpretar així perquè, per altres canals, vam saber que aquest era el biaix al qual es feia referència) i aquest va ser el fil que vam estibar.

      Però, en realitat, no era res més que una excusa per poder parlar dels biaixos, en abstracte, i posar en alerta els lectors quan s’hagin d’enfrontar a enquestes en el futur.

      Moltes gràcies per l’interès!

  2. elsomatent escrigué:

    Excel·lent, chapeau.

    Li he passat a un amic meu i em diu que us pregunti això:

    Podríeu explicar què fa que les mostres del CEO i del CIS siguin probabilístiques estratificades i no “no probabilístiques per quotes”?

    • Berta Barbet escrigué:

      No estic molt segura d’entendre la pregunta, però, fins on nosaltres sabem, les mostres tant del CIS com del CEO es fan aleatòriament. És a dir, tot i que la aletòrietat estigui minvada per les estratificacions i les quotes, la mostra es segueix intentant agafar de forma aleatòria i no per conveniència ni per selecció de certs individus. Per tant, són mostres probabilístiques, entrar o no entrar en la selecció depèn de la sort, no de que qui fa l’enquesta cregui que ets adequat per contestar-la.

      De totes formes són mostres probabilístiques amb sistema de quotes, no només estratificades. Que no és més que diferents formes de imposar limitacions a la mostra que en surti. Però mentre a la primera, les imposicions es posen abans de seleccionar als participants (i per tant no hauria de tenir efecte sobre el grau de representativitat), en la segona es posen durant el procés (quan s’arriba el nombre de dones necessaris es deixen t’entrevistar dones), amb la cual cosa, pot provocar biaixos (per exemple, és probable que acabis entrevistant més dones que són a casa tot el dia que a dones que treballen i no hi són, perquè amb les primeres ja cumpliràs la quota).

      Respon això la pregunta?

  3. elsomatent escrigué:

    De debò que tinc seriosos dubtes sobre això: no és conya.

    És a dir, que el CEO té els telèfons on truca (prèviament) estratificats per sexe i edat, p.ex.?

    O truca, pregunta sexe i edat, i, quan omple la quota, para de trucar?

    El meu amic creu que aquesta és la clau.

    • Berta Barbet escrigué:

      Jo diria que és el segon cas. I de fet, té raó el teu amic que aquests tipus de mostreig no es considera probabilístic. Perdona per la confusió.
      De totes formes a la fitxa tècnica hi diuen selecció aleatòria de individus. Suposo que el seu concepte d’aleatòri es limita a trucar a números de forma aleatòria sense que això vulgui dir que la mostra ho sigui, però sincerament és una cosa que s’hauria de preguntar. En el cas que fos així la mostra seria no probabilística per quotes i estratificada per província i mida del municipi (el convenç?!)

  4. elsomatent escrigué:

    El meu amic diu que la última frase és perfecta. La quota és com un estrat, però aplicat a posteriori.

    Ara bé (després de la migdiada penso millor), si el CIS fa les enquestes presencials a les llars, potser sí que són probabilístiques (si no fan la selecció per quotes de qui respon a posteriori, que no ho sé).

    Si fos així, ambdues mostres serien substantivament diferents, i seria un tema molt important, ja que els CEOs no serien probabilístics i els biaixos s’explicarien molt més fàcilment.

    Seria molt fort, no?

    • Berta Barbet escrigué:

      El sistema de mostreig del CIS es d’allò més sofisticat. Et copio la descripció per l’enquesta de 2006: “Polietápico, estratificado por conglomerados, con selección de las unidades primarias de muestreo (municipios) y de las unidades secundarias (secciones) de forma aleatoria proporcional, y de las unidades últimas (individuos) por rutas aleatorias y cuotas de sexo y edad.”

      És a dir, que també fan quotes (molt més sofisticades, i si vols amb l’avantatge que almenys fins al carrer la selecció és força probabilística, però quotes). O sigui que no té perquè ser més representatiu. De fet les dades dels gràfics demostren que s’equivoca en la mateixa mesura que el CEO.

      El que sí que té, creiem, implicacions és el fet de fer enquestes en persona enlloc de per telèfon, i que l’enquesta es faci la setmana després de les eleccions (CIS) enlloc que quan sigui que toca el següent baròmetre (CEO). Però en termes de tècnica de mostreig no hi ha masses motius per suposar que el CEO és més adecuat!

  5. Xanflins escrigué:

    Felicitats per l’article. M’ha agradat molt. Tanmateix, a mi m’han quedat dos preguntes fonamentals sense respostes:

    1) Fins quin punt es aquest biaix gran?
    2) En la pregunta sobre el referendum de la independencia, fins a quin punt seria d’important aquest biaix?

    • Berta Barbet escrigué:

      Em temo que cap de les dues preguntes té una resposta clara.

      Primer perquè no podem saber exactament quin és el tamany del biaix de l’enquesta i per tant no podem valorar-ne ni el tamany ni l’impacte. En general tant els nostres resultats com aquests http://www.eldiario.es/piedrasdepapel/encuestas-Cataluna_6_75652435.html donen a entendre que, en algunes coses almenys, les mostres estan força allunyades de les dades sobre la població que tenim. És a dir, molts dels números podrien estar força allunyats dels marges d’error. Que sigui gran o no, depèn de quin grau de precisió busquem.

      A més, la mida del biaix també depèn de que ens interessa: Si el que ens interessa és el comportament del comú dels ciutadans, el biaix és enorme. Si només ens interessa el dels ciutadans políticament actius (és a dir, obivant els abstencionistes sistèmics), llavors ja no és tant gran. Igualment, també depèn de si la pregunta que ens interessa és una pregunta en que els resultats són igualats i per tant, petits moviments canvien els resultats; o si és una pregunta on la majoria és aclaparadora.

      En quan a la segona pregunta, sense saber perquè la mostra s’ha desviat és molt difícil de respondre. Si el que passa és que els electors que falten, no han contestat l’enquesta l’impacte és un. Si el que passa és que ho han fet però han mentit quan se’ls ha preguntat per quin partit van votar, l’impacte és un altre. Com que segurament hi ha una mica de tot és impossible de calcular quin és l’efecte. Més, si tenim en compte que no sabem massa coses de les característiques dels que no hi són.

      De totes formes, així a grans trets i sense massa científicitat, sembla evident que hi ha d’haver un efecte.
      A mi, aplicant coeficients que corretgeixen per intenció de vot em surten uns 10 punts menys de suport pel si i 5 punts més de suport pel no. Però és molt probable que els electors que no han contestat no pensin igual que els que ho han fet, i per tant els meus coeficients poden estar igual o més desviats que els resultats reals.

      Sento la vaguetat, però és tot el que dóna de si el meu coneixement.

      • xanflins escrigué:

        Merci tant a tu com a en Carles per la resposta. Crec Berta que ho has explicat molt bé. Tanmateix, no deixa de ser una llàstima que no puguem tenir una imatge més clara sobre “el” tema estrella del pròxims anys. No es pot obtenir informació territorial de les respostes a les enquestes (ja que s’estratifiquen) per tal de fer estudis ecològics de la variació al suport en un altre territori/estrat? Serviria d’alguna cosa fer-ho?

        • Carles A. Foguet escrigué:

          No sé què tens al cap quan parles de “territori”, però has de tenir present que com major és el nivell de detall, major és també (per norma general) el marge d’error. A no ser que ampliïs la mostra de manera significativa (el que expliquem en parlar de l’estratificació). Però les enquestes convencionals obeeixen a altres objectius, així que seria difícil exprimir-les fins aquest extrem i que el rendiment que se’n tragués fos útil i valuós.

    • Carles A. Foguet escrigué:

      Per intentar respondre la teva segona pregunta, això és el que ens ha dit un “ocellet”:

      SENSE PONDERAR PONDERAT
      % cens % vot % cens % vot
      A favor 54,7 72,6 43,6 59,7
      En contra 20,7 27,4 29,5 40,3
      No votaria 17,0 19,2
      altres 1,1 0,8
      ns 5,4 5,6
      nc 1,0 1,3

      • aubachs escrigué:

        la ponderació de l’enquesta cal recordar que és per corregir el sobremostreig provincial, no hi ha massa misteri aleshores per entendre la variació entre la mostra ‘real’ i la ‘ponderada’. A banda, reiterar que les quotes s’estableixen per variables sociodemogràfiques, diguem-ne que el màxim d’objectives o contrastables possible, per això és rcomanable no emprar variables com record de vot en el disseny mostral, i igualment es fa difícil argumentar un biaix de l’enquesta en elseu conjunt a partir d’ella.

        • Berta Barbet escrigué:

          Gràcies pel comentari Ivan. Només dos petits apunts.

          Primer, tot i que tens raó i el CEO només pondera per corretgir el pes de les províncies. Les dades que presentava el Carles estan ponderades per record de vot. Coses del seu ocellet que disfruta molt jugant a fer càlculs.

          Segon, no crec que es pugui dir que el record de vot no és objectiu. Una altre cosa és si la gent menteix més quan se li pregunta per l’edat o el sexe que quan se li pregunta per qui va votar. O si la gent recorda més la seva edat que el seu vot, però objectiu, el record de vot ho hauria de ser. ;-)
          Tot i que tens raó, que presenta un problema greu pel que fa a distingir desviació de la mostra de les respostes mal donades pels enquestats. També ho és, que controlar per gènere i edat tampoc acaba de ser garantia de massa res. La gràcia del record de vot és que mostra el perfil polític dels que van respondre l’enquesta, que és el que volem saber al final, si es representatiu dels diferents perfils polítics de Catalunya i no només si és representatiu de la demografia catalana.

  6. Leuthen escrigué:

    Yo fui uno de los que comentó sobre el sesgo en el anterior artículo, y la verdad es que no pensaba tanto en la intención de voto como en preguntas como la de la independencia. Y ello porque, como puede verse en vuestra tabla, todos los sesgos positivos son para los partidos del bloque independentista, y todos los negativos para los del bloque unionista. De hecho, como simple ocurrencia diría que en el paso del PSC desde un sesgo positivo a uno negativo podría ser un factor relevante la pérdida de su voto más catalanista, hasta acercarse a su nucleo más españolista del área metropolitana. Ya se ha citado en comentarios anteriores el porcentaje de los que contestan que el catalán es su lengua habitual, que está bastante lejos de los resultados de la encuesta del Idescat. En conclusión, los porcentajes ponderados que ha puesto Carles, me parecen más “razonables”.

  7. Jordiet escrigué:

    Convenceu-me de per què seria una mala solució aplicar quotes per record de vot fins que s’assimilessin als resultats reals. O del contrari vaja.

    • Berta Barbet escrigué:

      3 raons:

      1- I principal, no pots començar una enquesta preguntant a qui vas votar en les últimes eleccions perquè és molt probable que no et responguin. Per tant, no es podria aplicar la qupta fins molt avançada l’enquesta i per tant, una de dos, o perds molt de temps en aquestes que després no utilitzes (caríssim), o simplement no pots fer quotes.

      2- la gent, a vegades menteix en el record de vot, es fa molt difícil de controlar que la mostra sigui representativa. O que ho sigui més.

      3-Si comencem així no acabaríem mai de anar posant més i més quotes i no és el camí. Perquè, com diu l’article, les mostres quotes limiten la aleatòrietat de la mostra. El que fa que, 1 es perdi representativitat en temes no controlats per quotes. I 2, es perdi la cspacitat de poder calcular estadísticament les probabilitats d’estar equivocat.

      T’he convençut? Diguem que sí!

      • Jordiet escrigué:

        Prou.

        Veig que feu crides a twitter, per compbatre els pro-quotes. Hehehe. De fet ja li vaig incidir en el tema al Jordi Múñoz fa uns dies, però entenc que preferiu els comentaris al post…

        Dit això, i donant-me per vençut, quina és la rellevància que s’hi dóna a l’hora de fer la cuina posterior? I com que la resposta pot ser complexa, per què no us animeu a escriure sobre la cuina posterior? Els biaixos en la mostra són un problema i té matisos, però com dieu és molt difícil suprimir-los. Si els assumim queda veure què passa amb la cuina posterior, que en bona mesura intenta corregir-los per fer unes hipòtesis més ajustades a la realitat. Com es fa aquest procés? Quins criteris s’apliquen? Com de discrecional és?

        Gràcies i felicitats infinites pel post en concret i pel blog en general.

  8. Jordiet escrigué:

    Els vostres fans ens deleitem amb la vostra limitada capacitat de síntesi, així que ànims, sé que ho podeu fer millor. Restarem a l’espera. ;-)

    • Berta Barbet escrigué:

      No, de debò, no podem!!! Per desenvolupar el fantàstic comentari del Carles, diré que la cuina de les enquestes és un secret més ben guardat que el de la Coca-Cola. No sabem com la fan mai.

  9. Leuthen escrigué:

    No soy profesional del tema, con lo que os pido comprensión si digo una burrada. Veo claro que establecer cuotas por recuerdo de voto es complejo, y muy probablemente ineficiente; en eso estoy de acuerdo con el comentario de Berta. Pero me pregunto si, teniendo en cuenta la dirección del sesgo que parece haber, no sería útil establecer cuotas por una variable en principio más sencilla de controlar como la lengua habitual del encuestado.

    Me adhiero a la enhorabuena por el post, y por el blog.

    • Berta Barbet escrigué:

      Se podrían hacer cuotas por la lengua que se escoge para hacer la encuesta, que no es lo mismo que su lengua habitual (una vez más, empezar preguntándole a la gente preguntas muy personales no es buena idea). Supongo que esto se podría hacer, y teniendo en cuenta que el sistema ya tiene cuotas quizá no seria muy dramático.

      El único problema que le veo yo a esta técnica es la noticia en El Mundo o El Punt diciendo: “El CEO se negó a encuestarme porque pedía la encuesta en castellano/catalán”. Pero más allá de este pequeño detalle, es una opción más viable que la del recuerdo de voto.

      De todos modos voy a repetirlo hasta aburrirme, las cuotas no son la mejor solución.

  10. elsomatent escrigué:

    1) La lengua habitual es un concepto que, en Cataluña, no existe. Muy resumidamente, sería eso.

    2) Corregir un sesgo a partir de una variable intrínsecamente sesgada, como es el recuerdo de voto, no cabe. Dos errores no son un acierto.

    3) A altres països, la cuina tampoc és pública?

    4) A quant està el Record de comentaris a una entrada de GM?

  11. Oriol escrigué:

    Ens estem anant de mare. Una cosa són els biaixos de la mostra i una altra és la “cuina”. Els primers són intrínsecs a les enquestes (totes) i no les invaliden, simplement obliguen a tenir-los en compte a l’hora d’extreure conclusions massa facilment (com es dedueix de la ponderació de les respostes sobre el referèndum). La “cuina” serveix únicament i exclusiva per calcular l’estimació de vot a partir de la intenció directa (que òbviament està esbiaixada). No barregem conceptes que ens perdrem i acabarem dient coses que no són.

  12. Oriol escrigué:

    ah! i una altra raó a afegir a les que ha dit la Berta. És millor no fer quotes de record de vot perquè, si es fa, no es capta la mutació del record al llarg de la legislatura. si es fixa el record de vot el que s’està és fent una foto del moment en què es van produir les eleccions. Ara pot ser interessant, però i d’aquí un any? o d’aquí dos? (el que guanyes per uan banda, ho perds per l’altra)

    • Berta Barbet escrigué:

      Gràcies per TOTS els comentaris. De totes formes no acabo d’entendre aquest últim. El record de vot, en principi, no hauria de variar al llarg de la legislatura, no? L’únic que es capta d’aquesta manera és quins partits la gent “oblida” més fàcilment que va votar. El que ha de canviar és la intenció de vot, però el que vas fer a les últimes eleccions no.

  13. Jordiet escrigué:

    Insisteixo en la cuina. Un cop reconeguts els biaixos l’important em sembla que és saber com es fa per mirar de donar estimacions on quedin corregits. I aquesta discrecionalitat/opacitat és el que, per mi, desprestigia o aixeca sospotes sobre les enquestes, especialment després de l’experiència del 25N.

    A mi em venen moltes preguntes al cap. Com es pot estimar el vot del PP amb una intenció directa de vot tant ridícula? Pur voluntarisme. O per què en el darrer CEO, amb una “sobrerrepresentació” de votants de CiU segons record de vot, se li otorga una estimació de vot sensiblement més alta que la intenció directa. Per mi s’atenua la caiguda real en escons. No serà per allò de no mossegar la mà de l’amo, no?

    I sobre el tema lingüístic dos apunts:

    1) Un “ocellet” m’ha dit el criteri lingüístic dels enquestadors en el baròmetre del CEO. Es fa l’enquesta en català independentment de l’idioma que empri l’enquestat/da. Només se li fa en castellà si ho demana explícitament. Per tant, les penjades de telèfon, males paraules, etc. sovintejen entre aquells que veuen el català en l’àmbit institucional com una imposició.

    2) Malgrat tot, el PP també té un alt i permanent biaix en el CIS i no crec que es pugui utilitzar l’argument anterior únicament. El vot ocult unionista s’oculta per més coses.

    Dit això, em poso a buscar algun curs de cuina. De la gastronòmica es clar, es veu que de l’altra ningú en parla ni n’ensenya…

    • Berta Barbet escrigué:

      No sabia lo de la llengua. Em sembla una dada interessant a tenir en compte.

      En quan a la cuina, estic d’acord que s’hauria de fer públic el sistema que s’utilitza, però has d’entendre que la gent que fa enquestes es guanya la reputació a base de tenir un bon algoritme d’estimació per això es tant reservada amb publicar-lo. Es podria demanar que almenys el CEO el publiqués, però no sé si la campanya tindria molt èxit a change.es!

      • Leuthen escrigué:

        De acuerdo a lo que indica Jordiet, el propio procedimiento de realización de la encuesta (el idioma con el que se realiza) estaría introduciendo un sesgo. Con lo cual el objetivo de la aleatoriedad, por mucho que teóricamente sea más idoneo, es inalcanzable de partida. Diría que eso merecería una cuota, porque si no, ¿cómo se soluciona a nivel de muestra?.

        Bien es cierto, que siempre queda la cocina. Pero claro, la cocina en el mejor de los casos se aplica para la estimación de voto. Para el resto de las cuestiones, en la mayoría de los casos no. Que haya visto, en preguntas sobre la independencia la única encuesta que aplica cocina es el Racómetre.

        Pd. Berta, te agradezco la cortesía de emplear el castellano en la respuesta anterior, pero no te preocupes, que no es necesario. Leo perfectamente en catalán; es al escribir donde tengo problema (llegué mayor a la enseñanza del catalán en Alicante).

        • Berta Barbet escrigué:

          A veure no m’he explicat bé,el que fa inassolible l’objectiu d’aleatorietat són les quotes no la falta de resposta. És a dir, una mostra aleatòria podria estar molt desviada i tot i això ser aleatòria, i una mostra de quotes pot ser molt representativa tot i no respectar el principi d’aleatòrietat. És complicat, ho entnec.

          Amb una mostra aleatòria, tu tindries un nom de una persona a la que has d’entrevistar i en principi només podries entrevistar a aquesta persona. Si el nom d’aquesta persona ha sortit sense cap tipus de biaix, llavors, la mostra hauria de ser representativa, però no té perquè. Existeix, evidentment, encara el problema de que potser temes com el del català, farien que hi hagués gent que es negués a contestar, i per tant, la mostra es deviés, fet que s’hauria de solucionar d’alguna forma (és el que s’anomena biaix per no-resposta). Generalment, quan això passa el que es fa és ponderar enquestes donant més pes als entrevistats del grup infrarepresentats, en aquest cas són castellanoparlants.

          En el sistema de quotes, en canvi, el que es fa és buscar gent a la que entrevistar que sigui castellanoparlant que vulgui contestar l’enquesta fins que n’hi hagi tant com els pertoca. El problema és que aquesta gent pot no ser representativa dels altres castellanoparlants en molts sentits.

          Una vegada dit això, crec que veient cap on es desvien les enquestes i tenint en compte això, provaria per preguntar al principi de l’entrevista en quina llengua volen que se’ls faci l’enquesta. Un canvi així de petit podria ajudar a solucionar una bona part del problema. No totes les solucions passen per tenir una bona mostra, també cal tenir un bon qüestionari.

          • Leuthen escrigué:

            No, Berta, tú te explicas con total claridad. Yo no estaba seguro (por desconocimiento) de que lo de ponderar por este tipo de variables fuera ortodoxo. Y por otro lado, ahora veo el problema de la cuota, y la potencial falta de representatividad que genera.

            Me has convencido. :)

            Lo del cuestionario es muy razonable. También de acuerdo.

Fes un comentari