La tendencia central es una medida de los valores de una muestra que identifica los diferentes puntos centrales de los datos, a menudo denominados coloquialmente “promedios”. Las medidas de tendencia central más comunes son la media, la mediana y la moda. La identificación del valor central permite comparar otros valores con él, mostrando la dispersión o agrupación de la muestra, lo que se conoce como dispersión o distribución. Estas medidas de dispersión se clasifican en 2 grupos: medidas de dispersión basadas en los percentiles y medidas de dispersión basadas en la media (lo que se conoce comúnmente como desviaciones estándar). El análisis de la distribución de los datos determina si los datos tienen una tendencia central fuerte o débil en función de su dispersión. Cuando la distribución de los datos es simétrica y la media = la mediana = la moda, se dice que los datos tienen una distribución normal. También son posibles otros tipos de distribuciones, que se conocen como distribuciones no normales.
Las medidas de tendencia central son valores únicos que intentan describir un conjunto de datos identificando el valor central o “típico” de ese conjunto de datos.
Descrito coloquialmente como “promedios”
Las medidas más comunes:
Media
Mediana
Moda
Distribución de datos y medidas de dispersión
En cualquier conjunto de datos, los datos se distribuyen en un rango determinado.
A partir de esta distribución, se puede determinar lo cerca que están la mayoría de los datos de la media o lo dispersos que están los datos; esta dispersión se puede medir de varias maneras, entre ellas:
Percentiles
Desviaciones estándar
Normalmente, ciertos datos son más comunes en el conjunto de datos (los que están cerca de la media), mientras que otros son raros (i.e., los valores atípicos).
La distribución de estos datos puede clasificarse como:
Normal
No normal
Las distribuciones normales tienen ciertas características que pueden ayudar a los médicos a determinar el grado de “anormalidad” de un determinado resultado: por ejemplo, ¿un resultado de laboratorio concreto está dentro del rango de lo “normal” o el hallazgo sugiere un estado de enfermedad?
Media, Mediana y Moda
Media
Definición:
La media es la suma de todas las mediciones de un conjunto de datos dividida por el número de mediciones de ese conjunto.
La media aritmética de todos los valores observados
Puede incorporarse a análisis estadísticos más complejos
La más afectada por los valores atípicos
La media de una muestra aleatoria es un estimador sin sesgos de la población de la que procede.
La media es un resultado matemático y puede incluso no estar presente en una muestra (a diferencia de la moda o la mediana).
Encuentra la media del siguiente conjunto de datos: 1, 1, 1, 3, 5, 5, 7, 19.
Respuesta: hay 8 números en este conjunto de datos. Para calcular la media, sume todos los números y divídalos entre 8:
$$ Media = \frac{1+1+1+3+5+5+7+19}{8}=\frac{42}{8}=5.25 $$
Mediana
Definición:
Tras ordenar los datos de menor a mayor, la mediana es el valor medio, que separa la mitad inferior de la superior del conjunto de datos.
Sirve como punto central de división de los datos
No se presta a una inferencia estadística más compleja
Si el número de valores de la muestra es par, la mediana es la media de los 2 números del medio.
Más afectada por los valores atípicos que la moda, pero menos que la media
La mediana y la moda son las únicas medidas de tendencia central que pueden utilizarse para los datos ordinales.
Ecuación:
Para encontrar la mediana, ordene los valores de menor a mayor, y luego utiliza la siguiente ecuación para determinar qué “posición” en el orden representa la mediana:
$$ Median = \left \{ \frac{(n+1)}{2} \right \} $$
donde n = el número de valores del conjunto de datos.
Ejemplo:
Encuentra la mediana del siguiente conjunto de datos: 1, 5, 1, 19, 3, 1, 7, 5.
Respuesta: hay 8 números en este conjunto de datos. Para hallar la mediana, primero hay que ordenar los números: 1, 1, 1, 3, 5, 5, 7, 19. A continuación, determine qué “posición” representa la mediana. Para ello, utilice la fórmula (n + 1) / 2. Hay 8 números en este conjunto de datos, por lo que n = 8. Por lo tanto, la mediana será (8 + 1) / 2 = 4,5. La mediana está entre los números 4to y 5to, que son 3 y 5 (visualmente: 1, 1, 1, 3, 5, 5, 7, 19). Así que la mediana en este conjunto de datos es 4.
Moda
Definición:
La moda es el valor que aparece con mayor frecuencia en el conjunto de datos.
Para encontrar la moda, establezca una tabla de frecuencias para determinar qué valor ocurre con más frecuencia en el conjunto de datos (véase el ejemplo siguiente).
Más útil para el análisis cualitativo (no numérico) que para el análisis estadístico
Una distribución puede tener una moda en un valor > 1.
La única tendencia central que puede utilizarse con datos nominales
Menos afectada por los valores atípicos
No se puede obtener mediante ecuaciones matemáticas
Ejemplo:
Encuentra la moda del siguiente conjunto de datos: 1, 5, 1, 19, 3, 1, 7, 5.
Respuesta: identifique el número que aparece más veces. Para ello, se puede establecer una tabla de frecuencias:
Tabla: Tabla de frecuencias
Datos
Frecuencia (la frecuencia con la que se produce el punto de datos en la muestra)
1
3
3
1
5
2
7
1
19
1
El número 1 es el que se encuentra con más frecuencia en el conjunto de datos (3 veces): 1, 5, 1, 19, 3, 1, 7, 5. La moda de esta muestra es 1.
Resumen
Tabla: Resumen de la media, mediana y moda
Tipo
Descripción
Ejemplo
Resultado
Media
Suma total de los valores dividida por el número de valores
(8 + 4 + 10 + 4 + 4 + 5 + 4 + 5 + 6) / 9
5.5
Mediana
Valor medio que separa la mitad superior de la inferior
4, 4, 4, 4, 5, 5, 6, 8, 10
5
Moda
Número más frecuente
4, 4, 4, 4, 5, 5, 6, 8, 10
4
Medidas de Dispersión: Percentiles y Desviaciones Estándar
La dispersión es la amplitud de la distribución de los valores en un conjunto de datos. Varias medidas de dispersión incluyen un rango, cuantiles (e.g., cuartiles o percentiles) y desviaciones estándar.
Basado en los cuantiles
Un cuantil divide un conjunto de datos en proporciones iguales y representa la proporción de datos en ese punto o por debajo de él; los cuantiles especiales son:
Cuartiles: el conjunto de datos se divide en 4 cuartos.
Quintiles: el conjunto de datos se divide en 5 secciones.
Percentiles: el conjunto de datos se divide en 100 secciones.
Por ejemplo:
El percentil 50 es la mediana.
El percentil 75 es el punto por debajo del cual se encuentra el 75% de los valores del conjunto de datos.
El percentil 25 es el punto por debajo del cual se encuentra el 25% de los valores del conjunto de datos.
El conjunto de datos comprendido entre los percentiles 25 y 75 (los cuartiles 1 y 3) se conoce como rango intercuartil.
Los cuantiles pueden aplicarse a cualquier conjunto de datos continuos.
Los usos incluyen:
Clínica: curvas de crecimiento
Investigación: diagramas de caja (representaciones gráficas de datos que demuestran el rango de resultados numéricos observados en un estudio)
Representación gráfica de los cuartiles, los percentiles importantes y el rango intercuartílico
Definición: la desviación estándar es una medida de la distancia que hay entre cada valor observado y la media en un conjunto de datos.
La desviación estándar suele abreviarse como DE, o puede representarse con la letra griega minúscula sigma (σ).
Puede utilizarse cuando la distribución de los datos es aproximadamente normal, representando una curva de campana
Una DE baja significa que los datos están muy agrupados en torno a la media.
Una DE altasignifica que los datos están repartidos en un rango más amplio de valores.
Se utiliza para determinar si un dato concreto es “estándar/esperado” o “inusual/inesperado”:
Cuantas más desviaciones estándar haya entre un dato y la media, más “inusual” será este dato.
Puede ayudar a distinguir si un resultado está dentro de la “variación esperada” o es más bien un valor atípico
Las desviaciones estándarse pueden apreciar visualmente como el área bajo la curva:
1σ = aproximadamente el 34% del área bajo la curva = aproximadamente el 68% de los resultados están dentro de 1 DE de la media
2σ = aproximadamente el 48% del área bajo la curva = aproximadamente el 95% de los resultados están dentro de 2 DE de la media
3σ = aproximadamente el 49,8% del área bajo la curva = aproximadamente el 99,7% de los resultados se encuentran dentro de los 3 DE de la media
Demostración de los porcentajes asociados a cada desviación estándar de la media: Cuanto más “plana” sea la campana, más dispersos estarán los datos en el conjunto y, por tanto, mayores serán las desviaciones estándar calculadas.
Imagen: “Demonstration of the percentages associated with standard deviation” por M. W. Toews. Licencia: CC BY 2.5
Ecuación:
Matemáticamente, la DE puede calcularse mediante la siguiente ecuación:
La distribución de los datos describe cómo se agrupan (o no se agrupan) los datos. Los datos tienden a agruparse en determinados patrones, conocidos como patrones de distribución. Hay un patrón de distribución “normal” y hay múltiples patrones no normales. Se utilizan diferentes pruebas estadísticas para diferentes patrones de distribución.
Distribución de datos
Las distribuciones normales difieren según su media y varianza, pero comparten las siguientes características:
La clásica forma simétrica de “curva de campana”:
Todas las medidas de tendencia central son iguales (media = mediana = moda).
El 50% de los valores son menores que la media; el 50% de los valores son mayores que la media.
Sigue el teorema del límite central, que funciona como sigue:
Tome una muestra de la población y calcule la media; luego vuelva a poner esa muestra en la población, tome una nueva muestra y calcule la media; haga esto una y otra vez.
Algunas medias serán muy comunes, representando la verdadera media de la población. Otras medias serán muy poco comunes; estas están más alejadas de la verdadera media de la población.
Si se grafica la frecuencia de cada media que se obtiene, se generará la clásica forma de campana.
Todas las distribuciones normales tienen la misma forma porque tienen la misma distribución de datos:
Alrededor del 68% de los valores se encuentran dentro de 1 DE de la media.
El 95% de los datos se sitúan dentro de 2 DE de la media.
El 99,7% de los datos se sitúan dentro de un margen de 3 DE de la media.
El área bajo la curva representa la probabilidad de obtener un determinado valor, por lo que el área total bajo la curva = 1.
Datos que tienden a seguir distribuciones normales:
La altura, el peso y la presión arterial de las personas
Resultados de exámenes
Tamaños de los objetos producidos por las máquinas
Katz, D., et al. (2014). Describing variation in data. In Katz, D. et al. (Eds.), Jekel’s Epidemiology, Biostatistics, Preventive Medicine, and Public Health. Elsevier. Pp. 105–118.
Weisberg H. F. (1992) Central tendency and variability. Sage University Paper Series on Quantitative Applications in the Social Sciences. SAGE Publications, Inc; 1st ed., p. 2.
Johnson N. L., Rogers, C. A. (1951). The moment problem for unimodal distributions. Annals of Mathematical Statistics 22:433–439.
¡Crea tu cuenta gratis o inicia una sesión para seguir leyendo!
Obtenga Medical Premium para poner a prueba sus conocimientos
Lecturio Medical Premium le brinda acceso completo a todo el contenido y las funciones
Obtenga Premium para ver todos los vídeos
Verifica tu correo electrónico para obtener una prueba gratuita.
Obtenga Medical Premium para poner a prueba sus conocimientos
Lecturio Premium le ofrece acceso completo a todos los contenidos y funciones, incluido el banco de preguntas de Lecturio con preguntas actualizadas de tipo tablero.