¿Por qué es importante la tabla de frecuencias en un estudio estadístico?

Tabla de contenidos

En el presente artículo se explicará la importancia de ordenar y presentar los casos y variables en una matriz de datos y en la tabla de frecuencias. La matriz de datos es la fuente de todos los análisis estadísticos, es la visión general de la data. Sin embargo, si queremos presentar nuestros hallazgos a otras personas es mejor presentar un resumen de la data y una buena forma es mediante una tabla de frecuencia.

Casos y variables para hallar la tabla de frecuencia
Imagen 1. Casos y variables

Recordemos que las personas, animal o el elemento de estudio son los casos y las variables son las características de interés de los casos. Una vez obtenido la data y distinguir los casos y variables para nuestra investigación se procede a ordenarla.

Suponga que está interesado en la liga privada de baloncesto NBA. Los casos en los que está interesado son los jugadores de la liga americana y las variables de interés son edad, peso corporal, canastas, membresía del equipo y color de cabello.

Casos y variables en estadistica descriptiva
Imagen 2. Universo de casos y variables

Matriz de información y sus componentes

La mejor manera de ordenar está información es por medio de la matriz de datos como la presentada en la imagen 3. La matriz de datos es el elemento central de cada estudio estadístico. Es una mirada general a todos los casos y variables. Los casos se encuentran en las filas y para nuestro escenario el rango va desde el jugador 1 al jugador 500. Los nombres no se visualizan, por lo que cada jugador es anónimo. Las variables se encuentran en las columnas y podemos visualizar 5 variables: edad, peso, canastas, membresía de equipo y color de cabello. Los valores en las celdas de esta tabla se les conocen como observaciones.

Matriz de datos
Imagen 3. Matriz de datos

La observación 18 resaltada en elipse rojo significa que el jugador 3 tiene 18 años. El valor 72.2 tambien resaltado en elipse rojo significa que el jugador 4 tiene un peso corporal de 72.2 kilos. Lo que vemos en la imagen no es la matriz de datos completa, es sólo un parte. La matriz completa no alcanza en la imagen dado que contiene 500 filas dado los 500 jugadores. Los tres puntos suspensivos significan que hay data que se ha excluido de la matriz.

Verifiquemos si nuestra matriz no contiene valores extraños. En la imagen 4 podemos ver que para el jugador 23 no hay dato para el peso corporal y para el jugador 24 no hay dato para la edad. Así, no sabemos el valor de cada combinación caso-variable. Por ahora, hemos incluido estos casos incompletos, pero, tendremos que removerlos si un análisis posterior requiere una matriz de datos completa.

Matriz de datos con data faltante
Imagen 4. Matriz de datos con datos incompletos

La matriz de datos es necesario para todos los análisis estadísticos. Sin embargo, no es usual presentar la matriz entera a otras personas. La razón de esto, es que la matriz casi siempre es muy grande, como en el presente escenario que tenemos 500 filas y no refleja una mirada general de la información estadística contenida en la matriz.

Tabla de frecuencia y sus elementos

Cuando presentemos la información de nuestra matriz a otros necesitamos utilizar resúmenes de la data en forma de tablas y gráficos. Imagine que quiere resumir la información acerca del color de cabello de los jugadores de la liga española. Una forma de realizar esto es mediante la tabla de frecuencia. Una tabla de frecuencia muestra cómo está distribuidos los valores de una variable de los casos.

Una tabla de frecuencia muestra los posibles valores de una variable junto al número de observaciones para cada valor. En la imagen 5 podemos ver un ejemplo basado en el color de cabello. Distinguimos 4 categorías: rubio, castaño, negro y otro. Podemos ver que hay 150 jugadores con cabello rubio, 85 con cabello castaño, 123 con cabello negro y 113 con otro color. Note que los valores suman 500, eso quiere decir que no hay data faltante para esta variable. También podemos expresar la frecuencia relativa por medio de porcentajes en la tercera columna. Podemos ver que 22.6% del total de jugadores tiene otro color de rubio, castaño o negro, 24.6% tiene el cabello negro, 22.8% castaño y 30% rubio, este 30% se obtiene dividiendo 150 entre 500 y multiplicándolo por 100.

Tabla de frecuencia
Imagen 5. Tabla de frecuencia

A veces los investigadores usan porcentajes acumulativos. Es fácil calcularlos. El porcentaje acumulativo es el porcentaje de cada categoría sumada a los anteriores. En la imagen 6 podemos ver que 30% sumado al 22.8% es igual a 52.8% de todos los jugadores que tienen cabello rubio y castaño.

Tabla de frecuencia con porcentaje acumulativo
Imagen 6. Tabla de frecuencia con porcentaje acumulativo

Recodificación de variables cuantitativas

En el ejemplo de la imagen 5 y 6 se analizó una variable categórica: color de cabello. Para analizar una variable cuantitativa, tomaremos la variable peso tal como se muestra en la imagen 7. Resulta ineficiente colocar en la tabla todos los porcentajes para cada peso específico ya que terminaríamos con muchas categorías. En la tabla se mostraría, por ejemplo, que 2 personas pesan 66.5  kilos, que 1 persona pesa 66.6 kilos, etc. Esta tabla no refleja una buena vista general ya que penas nos dice un poco más que la matriz de datos.  

Tabla de frecuencia con variable cuantitativa
Imagen 7. Tabla de frecuencia con variable cuantitativa

Para resolver este problema los investigadores crean nuevas categorías usando intervalos tal como se muestra en la imagen 8. La primera categoría contendría aquellos con un peso menor a 70 kilos, la siguiente categoría contendría a los jugadores con un peso entre 70 y 75.9 kilos, la siguiente categoría a los jugadores con un peso entre 76 y 79.9 kilos, la siguiente entre 80 y 85.9 kilos y la última categoría para aquellos con peso mayor a 86 kilos. De esta manera se pierde información pero se gana una vista general mucho mejor. A este proceso se le conoce como recodificar las variables. La variable peso corporal era una variable cuantitativa que se ha transformado en una variable ordinal con sólo 5 categorías.

Tabla de frecuencia con variable ordinal
Imagen 8. Tabla de frecuencia con variable cuantitativa transformada en ordinal
Tabla de frecuencia recodificación
Imagen 9. Recodificación de variable cuantitativa a variable ordinal

Es un procedimiento sencillo recodificar variables cuantitativas en ordinales, sin embargo transformar una variable ordinal a una cuantitativa es imposible. No es posible recodificar variables ordinales en cuantitativas.

Hemos demostrado que usamos la matriz de datos como la fuente de todos los análisis estadísticos, es la visión general de la data. Pero al presentar nuestros hallazgos a otra personas es mejor presentar un resumen mediante una tabla de frecuencia. Si es necesario se puede recodificar las variables cuantitativas en variables ordinales.

Deja un comentario