
Cómo calcular el juste lineal entre dos variables (mortalidad y fecundidad), usando Excel
Este es un ejercicio guiado, consistente en calcular y graficar la relación lineal entre dos variables demográficas utilizando una hoja de cálculo. El método no es exclusivo de la demografía y puede servir en muy diversos ámbitos. Cada cual puede adaptarlo al suyo, o a las mismas variables pero en su país o región si las publicaciones estadísticas requeridas están accesibles.
Enunciado: Vamos a
- Buscar los datos de fecundidad y esperanza de vida de las diversas provincias españolas para el último año disponible (ahora los de 2018)
- Representar sus valores en un gráfico de dispersión (una nube de puntos)
- Dibujar la recta de ajuste lineal o de regresión sobre el mismo gráfico
- Obtener la función correspondiente a esa línea y los valores de dispersión.
- Comentar el resultado
Parte 1. Buscar los datos de fecundidad y esperanza de vida de las diversas provincias españolas para el año 2018, descargarlos en tu ordenador y unirlos en una única tabla con ambas variables en columnas contíguas.
- Busca la página web del Instituto Nacional de Estadística, donde se hacen públicas las diferentes fuentes de datos del Sistema Estadístico Nacional. Este tipo de instituciones es generalizado en todo el mundo, así que podrías hacer algo similar para casi cualquier otro país (ver aquí Fuentes de datos). Intenta encontrar los «Indicadores de Fecundidad» y los de «Esperanza de vida» por tu cuenta, para conseguir práctica en este tipo de búsquedas en la web. Pero si no lo consigues o quieres abreviar, al final del ejercicio te guiaré pantalla a pantalla para que llegues a los datos que interesan.
- Una vez encuentres las dos tablas, la de fecundidad y la de esperanza de vida, únelas en dos columnas de un archivo de excel, para obtener una sola con este aspecto:
Recuerda conservar los títulos de las dos tablas que has descargado y las notas con la identificación y aclaraciones sobre la fuente, luego nos harán falta. Cualquier tabla o gráfico, al presentarse, debe ir encabezada con un título breve describiendo el contenido, y acabar con un texto al pie en el que se haga explícita la Fuente de la que se han obtenido los datos.
Parte 2. Representar sus valores en un gráfico de dispersión (o nube de puntos)
El primer paso para representar un conjunto de datos es seleccionar el área completa donde se encuentran. Sitúa el cursor en una esquina del rectángulo que forman las celdas que quieres escoger, haz clic con el ratón y, sin soltar el botón, arrastra el puntero hasta la esquina opuesta del conjunto de celdas (si el área es muy grande, resulta muy práctico usar las teclas: haz clic en una esquina del área que quieras seleccionar, o selecciona las dos celdas superiores, y luego, con la tecla «Mayúsculas» apretada, clica sobre las flechas del teclado para que la selección se amplíe en la dirección que quieras. Si quieres ir directo hasta el final, a la vez que pulsas «Mayúsculas» presiona también «command» (en Mac, no se si es la misma tecla en PC, pero puedes explorar) y dale a la flecha, la selección irá de golpe hasta el final de la fila o columna de datos). En este caso selecciona sólo las dos columnas de números, sin nombres ni rótulos.
Ahora vamos al menú superior y clicamos en “Insertar” y “Gráfico”, eligiendo, entre todos los tipos posibles, el de “Dispersión”. Excel te dibuja esto:
Parte 3. Dibujar la recta de ajuste lineal sobre el mismo gráfico
Ahora añadimos la línea que mejor se ajusta a esta nube de puntos. Para eso, en la versión de Excel que manejo, selecciono el gráfico (clic encima), elijo el menú «Diseño de gráfico», la opción de la barra «Agregar elemento de gráfico», elijo «línea de tendencia» y, de todas las posibles, marco «lineal». El resultado es que sobre la imagen anterior ahora aparece una línea.
Parte 4. Obtener la función correspondiente a esa línea y el indicador de dispersión (nos dice si la nube de puntos se ajusta o se aleja mucho de la línea)
Empezamos por clicar sobre la línea de ajuste con el botón derecho del ratón o pulsando «ctrl» a la vez que la marcamos. En el menú «Formato de línea de tendencia» que se abre, debemos marcar las opciones «Presentar ecuación en el gráfico» y «Presentar el valor R-cuadrado en el gráfico», y ambas cosas aparecerán dentro del gráfico.
Si tienes que emplear este gráfico en un trabajo, un informe o simplemente enseñarlo en cualquier sitio, entonces hay que retocarlo para que cumpla patrones básicos. Te invito a practicar con Excel para conseguir las siguientes cosas:
- Añadir títulos a los ejes. Quien lo vea debe saber qué tenemos en las escalas vertical y horizontal.
- Eliminar decimales innecesarios en los números de ambos ejes
- Reducir la escala del eje horizontal, para evitar espacio en blanco en el gráfico y amplificar visualmente la zona que interesa, la de la nube y la línea de ajuste.
- Elimina el «Título del gráfico». Lo escribiremos fuera, en el documento donde lo peguemos. Esto es conveniente porque al insertar gráficos, tablas, fórmulas, etc. en un texto, sus títulos pueden numerarse automáticamente, y el procesador nos permitirá al final hacer un índice automático de esos elementos, anotando en qué página se encuentran. Además podremos modificarlos fácilmente desde el texto, sin tener que volver a Excel a editar el gráfico.
- Añade bajo el gráfico la Fuente de los datos.
- Personaliza las características que quieras (tipo de punto, color de la línea, negrita en los títulos de los ejes, etc.). Recuerda que, si piensas volver a hacer un gráfico con el mismo formato y personalizaciones en el futuro, puedes grabar este, una vez esté a tu gusto, como una plantilla con el nombre que quieras ponerle, y la próxima vez, cuando elijas qué tipo de gráfico quieres dibujar, sólo tendrás que elegir el tipo que tu creaste.
El resultado final debe ser algo así:
Fecundidad y Esperanza de vida por provincias. España 2018.
Fuente: Instituto Nacional de Estadística, España (INEbase, consultado el 11/05/2020).
Parte 5. Comentar el resultado
La herramienta que hemos utilizado tiene como finalidad informarnos sobre el tipo de relación existente entre las dos variables. Y la línea de ajuste nos dice que la relación es negativa o inversa; cuanto mayor es el valor de la esperanza de vida («x»), menor es la fecundidad («y»), y por eso la línea es descendente de izquierda a derecha. Si ambas variables aumentasen simultáneamente la línea ascendería. Esto queda reflejado en la función por su signo negativo (y=-x).
Los otros elementos de una función lineal (y=mx+b) también proporcionan información:
- «m» nos dice con qué inclinación se dibuja la línea (también se conoce como la «pendiente» de la línea), y su valor neutro sería 1, si la línea tuviese una inclinación de 45 grados. En nuestro caso a=-1,9542, así que el ángulo es más cerrado, se aplana hacia el eje horizontal, lo que nos dice que el número de hijos tiene un reflejo casi «doble» en la esperanza de vida.
- «b», como ves, no multiplica a «x», sólo lo aumenta o disminuye en una cantidad fija. Lo que nos indica es dónde cruza nuestra línea el eje vertical. Si su valor fuese cero, entonces la línea pasaría exactamente por la intersección de los dos ejes. Pero si es un valor positivo, el cruce es por encima del eje horizontal «b» unidades, y si es negativo el cruce es «b» unidades por debajo. En nuestro caso no interesa apenas, lo único que nos dice es que la esperanza de vida es bastantes unidades mayor que la fecundidad, cosa que ya sabíamos (una mujer puede vivir 80 años pero no tener 80 hijos).
Si no estás familiarizado con las funciones lineales, tienes una explicación más detallada, a la vez que sencilla, con ejemplos y con un video tutoríal en portafolio de Erik; Funciones lineales y sus elementos (felicitaciones al autor del sitio, es de muy buen nivel didáctico).
Pero más allá de los datos que nos proporciona la línea, lo que nos interesa es saber hasta qué punto la relación entre mortalidad y fecundidad es estrecha o, por el contrario, aleatoria. Y la primera conclusión, muy inmediata, es que la relación no es estrecha, y eso se aprecia a simple vista. Si lo fuera la nube de puntos no estaría tan esparcida, y éstos se concentrarían más alrededor de la línea. Dicho de otra manera, la función lineal nos serviría entonces como un buen predictor, y bastaría con conocer el valor de la esperanza de vida de una provincia para calcular su fecundidad sin apenas error.
Este margen de error es lo que cuantifica el parámetro R cuadrado que hemos obtenido junto a la función. Es el llamado «coeficiente de determinación», y nos dice cómo de bien se ajusta la función a la nube de puntos. Para interpretarlo basta con saber que oscila entre 0 y 1, de manera que un 0 significaría que la función no nos explica nada en realidad, y un 1 significaría que el ajuste es perfecto (todos los puntos coinciden en la línea).
Si quieres una explicación más amplia la tienes en Correlación lineal y regresión, de F. J. Sánchez San Román, Univ. Salamanca.
Nuestra R cuadrado =0,1715, muy bajo, mucho más cercano al 0 que al 1, de manera que la relación no puede considerarse buena.
Más aún: si no sólo nos fiamos de las fórmulas y de Excel, y tenemos el ojo y la cabeza un poco entrenados respecto a asuntos básicos acerca de las poblaciones, veremos enseguida que el gráfico sería una nube casi circular, sin ningún ajuste lineal, si no fuese por un par de provincias que se salen del conjunto por abajo a la derecha. Si vuelve a la tabla de Excel verás que son Ceuta y Melilla, dos ciudades autónomas ubicadas en la costa norteafricana y con una población mucho menor que la media del resto de provincias. Ello quiere decir que, si volvemos a hacer los cálculos pero omitiendo esta vez a estas dos poblaciones, nuestro ajuste aún sería más débil (si quieres ejercitarte en este tema, te invito a hacer el cálculo nuevamente y comprobarlo por tu cuenta).
De hecho, aunque sea una prácticas corriente, es muy poco riguroso desde el punto de vista analítico utilizar una tabla por provincias, por países o por cualquier otro criterio administrativo que mezcle unidades poblacionales de distinta magnitud. Las dinámicas demográficas en fecundidad, mortalidad y migraciones son muy distintas en una población superior a los mil millones de habitantes (como la de China o la de India) y otra de escasos miles como la de Mónaco o Lietchenstein, por mucho que la política y los organismos internacionales los incluyan juntos compartiendo presencia en las tablas de organismos oficiales como la ONU o el Banco Mundial.
En conclusión ¿no hay relación entre mortalidad y fecundidad? Esta es prácticamente la pregunta más importante de todas las que puede hacerse un demógrafo. Y la respuesta es un NO rotundo. No puede afirmarse esta conclusión porque siempre, en los humanos y en cualquier otra especie de vida, la reproducción está determinada ineludiblemente por la mortalidad. Lo que ocurre es que en un sistema reproductivo los cambios que experimentan las dos variables no se producen simultáneamente, existe un retardo entre los cambios de la mortalidad y su reflejo posterior sobre las exigencias reproductivas de fecundidad (ver aquí la Teoría de la Revolución Reproductiva). En el pasado se tenían muchos más hijos porque la esperanza de vida era mucho menor, pero a medida que ésta iba mejorando, las siguientes generaciones podían ya tener menos hijos, de modo que deberíamos buscar la relación entre la esperanza de vida de una generación y la fecundidad de la generación siguiente, con un lapso de tiempo aproximado de tres décadas (ese también es un ejercicio que puedes hacer por tu cuenta si te animas).
Guía pantalla a pantalla para que llegar a los datos y descargarlos
- Accedemos a INEBase, Lista completa de operaciones
- Entre las distintas opciones de los menús que iremos obteniendo, vamos a seguir esta serie de pantallas : Demografía y población – Fenómenos demográficos – Indicadores demográficos básicos – Resultados – Natalidad – Indicadores de fecundidad
En el cuadro al que llegamos ya podemos hacer una selección de las variables que nos interesan. Seleccionamos
- Provincias: Las seleccionamos todas
- Orden de nacimiento: Marcamos únicamente “Todos”
- Periodo: Elegimos el último año (cuando hago esto es el 2018)
Y clicamos abajo en “consultar la selección”
La tabla que obtenemos la podemos descargar (usa las herramientas que hay sobre la tabla, a la derecha). Al hacer click sobre el icono de “descargar” se abre un menú de formatos. Elige formato Excel: extensión XLS, y se descargará un archivo con esa tabla en la carpeta de descargas de tu ordenador. Si abres ese archivo verás la tabla en Excel.
Ahora haremos lo mismo con la esperanza de vida
Empezamos de nuevo en Demografía y población – Fenómenos demográficos – Indicadores demográficos básicos – Resultados – Mortalidad – Indicadores de Mortalidad/ Resultados por provincias – Esperanza de Vida al Nacimiento por provincia, según sexo
En el cuadro seleccionamos
- Provincias: Las seleccionamos todas
- Sexo: Marcamos únicamente “Ambos sexos”
- Periodo: Elegimos el mismo año que para la fecundidad
Esta vez, antes de clicar abajo en “consultar la selección”, en la forma de presentación de la tabla desplaza la casilla de “sexo”, que está en las filas, arrastrándola hasta las columnas, para que la tabla resultante tenga la misma forma que la tabla de fecundidades.
Y seguimos el mismo procedimiento para descargar la tabla en Excel a nuestro ordenador.
Música en ApdD: Future Corps 1993 05 Birdland