viernes, 4 de enero de 2013

Análisis de correspondencias: un ejemplo electoral

El análisis de correspondencias (correspondence analysis, CA) es una técnica de representación de datos multivariantes en dimensión reducida.

Cuando los objetos o individuos se describen mediante un conjunto de variables, existen varios métodos para representar los datos en dimensión reducida, normalmente en dos o tres dimensiones. Los métodos varían en función del tipo de variables consideradas: numéricas, categóricas o ambas.

El análisis de correspondencias es apropiado para describir los datos de dos variables categóricas con las que se obtiene una tabla de contingencia o tabla de frecuencias. El objetivo es representar las filas (o las columnas) como puntos de un espacio cartesiano de dimensión reducida (normalmente 2) y cuya distancia entre ellos se ajuste a la proximidad de sus perfiles. Dos objetos (filas de la tabla) con perfiles o porcentajes muy similares deben representarse con puntos muy cercanos y al revés, dos objetos con perfiles muy distintos se representan con puntos muy distantes. Al mismo tiempo, también se pueden representar las variables (columnas de la tabla) como puntos del mismo espacio y la proximidad de los puntos que representan los objetos a un punto que representa una variable indica la importancia relativa de esa variable en el perfil del objeto.

Un ejemplo de tabla de contingencia son los resultados electorales (número absoluto de votos) de las candidaturas que han obtenido representación en las últimas elecciones del 2012 al Parlament de Catalunya. Para reducir el número de puntos vamos a considerar los resultados para los 73 barrios de Barcelona y las 7 candidaturas con representación. Estos datos se pueden ver en el apartado 1.4 del documento ele31.pdf en www.bcn.cat. En esta situación los objetos son los barrios y las variables las candidaturas.

En este caso el CA no depende de ninguna encuesta, ya que los datos son reales. Además no precisa de ningún cocinado y su interpretación es simple: la proximidad de los puntos muestra la similitud de perfiles.

Una vez cargados los datos, el código R para obtener el gráfico que se ve al principio de esta entrada es muy simple.

load("ele31.RData")
library(FactoMineR)
myca <- CA(ele31[ ,5:12], ncp=2)

El resultado es muy bueno ya que el primer eje explica un 65,54% de la variabilidad total (inercia total), mientras que el segundo explica un 29,98%. En total un 95,52%. La representación tiene una calidad excelente.

Con el paquete ca se puede hacer un análisis más profundo con un CA asimétrico y otros gráficos.

Análisis electoral

Sin ser exhaustivo, el mapa de puntos tiene una interpretación muy clara.

En primer lugar, el eje principal u horizontal viene marcado por la contraposición de dos partidos CiU i PSC que son como polos opuestos (no es un análisis político). El segundo eje viene definido por la contraposición de PP i Cs a los partidos más de izquierdas y catalanistas como ICV-EUiA, ERC y CUP. A destacar también la proximidad de ERC y CUP y la situación intermedia de la propuesta ecosocialista y a favor del derecho a decidir de ICV-EUiA que la sitúa entre el PSC y esos dos grupos. También es evidente la proximidad de Cs al PP.

En cuanto a los barrios, con 73 nombres es un poco difícil analizarlos todos, pero los que se sitúan en los extremos son los más visibles.

Sarrià, los dos Sant Gervasi, les Tres Torres y Pedralbes son el paraíso de la derecha.

Algunos barrios son territorio PSC como Baró de Viver, Vallbona, Torre Baró,…

A ICV-EUiA le gustaría que en la Clota hubiera más electores, pero sólo hay 296.

La Vila de Gràcia es muy especial, pero también el Poblenou y el Barri Gòtic donde triunfan los partidos de izquierda.

Sin embargo, para ser más tradicional en el análisis creo que se puede hacer una rotación de los ejes. Que quede claro que una rotación no modifica las distancias entre los puntos. En concreto he hecho una rotación de 120 grados en dirección contraria a las agujas del reloj. Con esta rotación el eje horizontal se identifica con el clásico eje derecha-izquierda, mientras que el segundo eje se puede interpretar como el eje que contrapone las propuestas nacionalistas o independentistas de Catalunya a los unionistas (federalistas o no).

Los barrios más destacados son:

  • el Raval (1, muy rojo)
  • el Barri Gòtic (2, otro rojo)
  • Pedralbes (21, en el mapa está muy, pero que muy a la derecha)
  • Vallvidrera, el Tibidabo i les Planes (22, el más nacionalista)
  • les Tres Torres (24, el segundo por la derecha)
  • la Vila de Gràcia (31, el más indepe)
  • la Clota (42, el más rojo)
  • Roquetas (50)
  • Torre Baró (54)
  • Ciutat Meridiana (55, el más unionista)
  • la Trinitat Vella (57)
  • el Poblenou (68, el barrio de Joan Herrera)

Para que nos entendamos, en el Poblenou hay mucho voto de ICV-EUiA, ERC y CUP. También hay muchos votos a CiU, pero se equilibran con los votos de PSC, PP y Cs. Esta es la mejor forma de leer el mapa.

Si además se considera la abstención como un partido más, entonces éste queda situado entre los partidos de izquierda, justo entre PSC e ICV-EUiA. Otro dato para la reflexión de los que no votan.

Bibliografía

Greenacre MJ (2007). Correspondence Analysis in Practice. Chapman & Hall/CRC, Boca Raton, second edition.