sábado, 26 de abril de 2014

Estadisticas con truco...

El cambio de las estimaciones de la EPA

José Ignacio Pérez Infante, economista, miembro de la Asociación Española de Economía del Trabajo y de Economistas Frente a la Crisis
La Encuesta de Población Activa (EPA) es una encuesta trimestral a personas residentes  (establecidas  en España por un período de, al menos, un año) en viviendas familiares (excluyendo a los hogares colectivos, como hoteles y pensiones e instituciones como residencias, hospitales, conventos y prisiones). La muestra es de alrededor de 65.000 hogares y el tipo de muestreo es bietápico, seleccionándose en la primera fase las secciones censales, con un doble criterio de estratificación y, por lo tanto, de representatividad, por un lado geográfico, de acuerdo con el tamaño de cada municipio, y, por otro lado, socioeconómico, según características de ese tipo dentro de cada estrato geográfico, y en la segunda etapa se seleccionan aleatoriamente dentro de cada sección censal ya seleccionada un número de hogares familiares que depende del tamaño del municipio.
La EPA es la única estadística que tiene como finalidad principal conocer la situación de las personas en edad legal de trabajar en relación con el mercado de trabajo y la única que cuantifica  esas distintas situaciones, actividad, inactividad, ocupación y paro y, por lo tanto, la única capaz de estimar la tasa de paro. Además, tiene un tamaño muestral adecuado para estimar las principales variables que tiene como objetivo, con errores de muestreo, que se publican cada trimestre, relativamente bajos, sobre todo para los valores más agregados, y utiliza estrictamente los criterios  de definición del empleo y el paro de la OIT y las recomendaciones de EUROSTAT para las encuestas europeas de fuerza de trabajo, lo que la hace totalmente comparable con las encuestas de la UE y de la OCDE.
Sin embargo, la encuesta tiene también algún problema. Uno se ellos, no resuelto, se deriva de que es una única persona de la vivienda la que contesta a todos los cuestionarios de los distintos miembros del hogar, lo que puede provocar errores en el contenido de las respuestas por falta de información, sobre todo cuando las preguntas se refieren a cuestiones muy concretas o de detalle, como los métodos de búsqueda de empleo o la jornada trabajada en la semana de referencia (que es la anterior a la de la entrevista). Pero la EPA tiene otros dos problemas principales que son los que trata de resolver ahora el INE con el cambio de la base poblacional de la encuesta y con las nuevas estimaciones de la población activa, inactiva, ocupada y parada que acaba de publicar (el día 24 de abril) el Instituto Nacional de Estadística (INE).
El primero de estos dos problemas es el del posible envejecimiento de las estimaciones de la muestra al no recoger la variación de la población de residentes en hogares familiares a medida que transcurren los años si no se adapta la población de referencia o base poblacional de la EPA a la población real, tanto por el distinto números de habitantes como por los posibles cambios en la distribución de la población por municipios y por secciones censales dentro de estos, lo que suele detectarse con la publicación de un nuevo censo de población, en este caso del Censo de 2011.
Y el segundo de los problemas sería el efecto de la falta de respuesta de la encuesta en los resultados de la misma. Esta falta de respuesta puede ser por negativa a contestar, por ausencia reiterada de todos los miembros del hogar cuando se realiza la entrevista o por inaccesibilidad del hogar a los agentes entrevistadores del INE. Pues bien, el tratamiento de la falta de respuesta no es siempre el mismo: solo cuando es por negativa a contestar en la primera entrevista se sustituye el hogar aleatoriamente por otro de la misma sección censal, pero en el resto de las situaciones el hogar no se sustituye y se produce una pérdida paulatina de hogares de la muestra con el posible menoscabo de la representatividad que ello puede significar, sobre todo si la distribución de las faltas de respuestas, en particular por la ausencia de la miembros del hogar, no es aleatoria entre todos los tipos de hogares, sino que, como ocurre en la realidad, se concentra en determinados tipos de hogares, como, por ejemplo, los unipersonales o los compuestos por matrimonios jóvenes que trabajan los dos y que es más difícil encontrarles en el hogar en el momento de la entrevista, lo que supone, normalmente, una infrarrepresentación de esa población y, en concreto, de la población ocupada.
Y, como se ha señalado, estos dos son los problemas que se intenta resolver con las nuevas estimaciones de la EPA que se acaban de publicar por el INE. El primer paso es adaptar la base poblacional de la EPA al último censo de Población, el de 2011, ya que hasta ahora la base de referencia era la del Censo de 2001. En efecto, el INE hizo algo parecido a lo que hace ahora en 2002, adaptando la población de referencia de la encuesta al Censo de 2001. Pero al detectarse que esa adaptación de la población había sido insuficiente porque había sido sobrepasada por el intensísimo aumento de la población inmigrante modificó otra vez la base poblacional en  el cuarto trimestre de 2004, siendo esta última a la que hasta ahora se referían las proyecciones de la población de residentes en hogares familiares de la EPA de los distintos trimestres. Y esta es la base poblacional que se acaba de modificar, ya que el Censo de 2011 constata un aumento de la población residente en hogares familiares de 16 y más años en relación con la base poblacional del Censo de 2001 para el cuarto trimestre de 2011 (la fecha de referencia de ese censo es el 15 de noviembre) de 373.700 habitantes. Además, este crecimiento no se distribuye homogéneamente entre nativos y extranjeros, puestos que los primeros aumentan en 585.700 y los segundos disminuyen en 212.100.
Y para esta adaptación de la población se modifican los factores de elevación de la muestra al total de la población. Expliquemos esto. Como los resultados que se obtienen directamente de las respuestas de las entrevistas se refieren a una muestra de la población, las cifras obtenidas de la muestra hay que elevarlas a la población total o población de referencia de la encuesta, la de residentes en hogares familiares de 16 y más años par realizar las estimaciones correspondientes de la población activa, inactiva, ocupada y parada. Esta operación se realiza ponderando (multiplicando) a cada persona entrevistada por un factor de elevación, que es el número de personas de la población a las que representa cada persona entrevistada (población de referencia/población de la muestra) dentro de cada estrato geográfico y que depende tanto del sexo como de la edad y la nacionalidad. De esa forma, los resultados obtenidos directamente de la muestra se elevan (estimaciones) a la población total de residentes en hogares familiares de 16 y más años. Como ha aumentado la población para el cuarto trimestre de 2011 respecto de la base anterior en 373.700 habitantes y el tamaño muestral es el mismo que antes el factor de elevación tiene que incrementarse para recoger ese avance de la población y eso es lo que se hace con la nueva base poblacional del INE.
Pero, de esa forma, solo se resuelve uno de los dos problemas enunciados, el de la variación de la población, el otro, el de la falta de respuesta y, por consiguiente, la supresión no aleatoria de unidades muestrlales, de hogares de la muestra, no se soluciona si no se hace algo más.  Y eso es la segunda cosa que hace el INE, reponderando (lo que el INE llama calibrado) la estructura de la muestra por distintas categorías, para corregir el efecto de esa falta de respuestas en los resultados de la muestra. Esta reponderación ya se hizo en los cambios de 2002 y 2005. En concreto, en el último se utilizaron los criterios de la población por sexo y grupos quinquenales de edad en cada Comunidad Autónoma, la población total en cada provincia y la población por nacionalidad (española y extranjera) en cada Comunidad Autónoma. Ahora a esos criterios se añaden otros dos, la población por sexo y edad (16-29, 30-49 y 50 y más años) en cada provincia y el número de hogares según tamaño (unipersonales, dos, tres, cuatro y cinco o más personas) en cada Comunidad Autónoma.
Este último criterio, el de los hogares, hasta ahora no considerado, tiene una gran relevancia, puesto que intenta ser coherente no sólo con el aumento en el número de hogares que se ha producido desde 2001 sino también con su muy diferente distribución desde entonces, ya que en la EPA estaban infrarrepresentados en relación con los resultados del Censo de 2011 los hogares unipersonales y de dos miembros y sobrerrepresentados los restantes hogares y, en particular, los de mayor tamaño. Y la consideración de ese criterio en la nueva reponderación de la EPA es aun más importante si se tiene en cuenta que la falta de respuesta de la muestra afecta más, como ya se ha señalado, a los hogares de menor tamaño, que son más difíciles de entrevistar si la totalidad de sus miembros están ocupados.
Y con estos dos cambios, adaptación de la población de referencia de la EPA al nuevo Censo de Población de 2011 y la nueva reponderación (calibrado) de los resultados de la muestra, que implica modificar los factores de elevación calculados inicialmente por la nueva población por sexo y por edades, pero no para el total de la población, el INE ha obtenido unas nuevas estimaciones de la EPA para el período que transcurre entre el primer trimestre de 2002 y el cuarto trimestre de 2013. Con estas nuevas estimaciones la población activa para el cuarto trimestre de 2013, el último período de la nueva serie retroactiva, que modifica la anterior, ha aumentado en 416.400 personas, aumento que se distribuye en 377.00 personas ocupadas más y 39.300 personas paradas más, lo que significa una cifra de personas paradas en ese trimestre de 5.935.600 personas con las nuevas estimaciones, en vez de la cifra se 5.896.300 personas estimadas anteriormente para el mismo trimestre. Todo ello implica una tasa de actividad en el cuarto trimestre del 59,9%, cuatro décimas más que la estimación anterior, y una tasa de paro del 25,7%, tres décimas menos que la tasa estimada con la base poblacional anterior. Este ligero descenso de la tasa de paro se corresponde con la diferente composición de la evolución de la población entre los dos últimos censos, en concreto entre la población nacional y la extranjera, con una tasa de paro muy superior de la segunda, que disminuye, en relación con la primera, que aumenta.
Por último, y aparte de considerar muy positivamente los cambios realizados por suponer acercar más los resultados de la EPA a la realidad poblacional, conviene hacer dos observaciones. La primera, que la adapatación de la población de la EPA es, como ya se ha indicado, al Censo de Población de 2011, por lo que esa adaptación no tiene en cuenta los cambios que se han producido en la población desde entonces, cambios que se reflejan en los resultados provisionales del Padrón Continuo de Población recientemente publicados y referidos al uno de enero de 2014 y que han supuesto, a diferencia de lo ocurrido entre los dos últimos censos, un descenso de la población en un año de 404.619 personas (141.361 españoles más y 545.980 extranjeros menos). Y la segunda observación que conviene hacer que las series de resultados de la EPA publicadas por el INE se inician en el primer trimestre de 2002, desapareciendo, por ahora, los datos de los períodos anteriores, algo que no se entiende ya que las nuevas estimaciones no afectan a esos períodos anteriores, y que, además, en el caso de las distribuciones de los resultados por sectores o ramas de actividad esa limitación es aun mayor, puesto que se inician en el primer trimestre de 2008, debido al cambio que se produjo en 2009 en la Clasificación Nacional de Actividades Económicas en 2009, sin que el INE hay realizado, también por ahora, un enlace entre la serie antigua y la nueva.

No hay comentarios: