Explotación del Censo de 2011 con R


Reproduzco a continuación un post publicado el 21/01/2015 en envejecimientoenred con el encabezado «Explotación de los datos del Censo de 2011 con R». Estoy convencido de que interesará a todos los que manejáis microdatos, y más aún si sois usuarios de R.

Autores: Ana Belén Castillo Belmonte, Diego Ramiro Fariñas
Departamento de Población, CSIC

El Departamento de Población del CSIC tiene entre sus estrategias la de facilitar la tarea a todos aquellos que trabajan en el análisis y explotación de datos sociodemográficos. Para ello pone a disposición de usuarios potenciales, bien directamente, o a través de enlaces, la información sobre las herramientas o servicios apropiados para su tratamiento.

Para los que utilizan R como herramienta de trabajo, el paquete MicroDatosEs facilita la automatización de la explotación y el análisis de datos, por ejemplo, para todos aquellos que trabajan habitualmente con ficheros procedentes del Instituto Nacional de Estadística (INE).

La librería MicroDatosES ha sido desarrollada por Carlos Gil Bellosta (presidente de la Comunidad R-Hispano) y cuenta con la colaboración de Carlos Neira y José Luis Cañadas Reche. Desde el Blog del autor se puede descargar el paquete y ver un ejemplo de uso con datos de la Encuesta de Población Activa (EPA); post llamado “El paquete MicroDatosEs para microdatos públicos”. También se puede acceder a la librería y al manual de uso desde CRAN en esta dirección.

Un buen ejemplo de uso de esta librería, que ha sido desarrollada por Daniel Peña Pascual, se encuentra en el repositorio de github (repositorio colaborativo en internet). El autor pone a disposición de aquellos que deseen utilizarlo el código para analizar la proporción de divorcios por tramo de edad y provincia a partir de los datos del Censo de Población y Viviendas de 2011 y la rutina para la representación gráfica de estos datos. Un ejemplo lo proporciona la siguiente figura.

Proporción de divorcios por tramo de edad (20-70 años) y provincia. España, 2011

Fuente: Elaborado por Daniel Peña Pascual a partir del Censo de Población y Viviendas 2011 (INE).

Cambiando las variables a aquellas que interese analizar, se puede adaptar el código para realizar cualquier otro tipo de estudio.

En este ejemplo, además de la explotación de datos con el paquete MicroDatosEs, se realiza un examen de las librerías plyr, dplyr y data.table para que se pueda conocer el rendimiento que tiene cada una de ellas a la hora de procesar esta información.

Desde la carpeta principal en el repositorio también podemos acceder a otros ejemplos de uso de R en la explotación de diversos tipos de datos como XML , JSON o shapefiles (utilizados para realizar mapas).

Por último, conviene recordar que el fichero de microdatos del Censo de Población y Vivienda 2011 se puede descargar desde el INE. El Departamento de Población del CSIC elaboró en enero de 2014 unos ficheros de sintaxis (SPSS) para facilitar la lectura de los microdatos de los Censos de Población y Vivienda 2011 (INE). El fichero de sintaxis de personas residentes en viviendas principales se ofrece gratuitamente a los profesionales interesados desde el Portal Envejecimiento En-Red.

Anuncio publicitario

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s