tutoriales.com

Desentrañando el Poder de los Cuantiles: Percentiles, Cuartiles y Deciles en la Ciencia de Datos

Este tutorial explora a fondo los cuantiles, incluyendo percentiles, cuartiles y deciles. Aprenderás a calcularlos, interpretarlos y utilizarlos eficazmente para comprender la distribución de tus datos, identificar valores atípicos y tomar decisiones informadas en tus proyectos de ciencia de datos.

Intermedio15 min de lectura22 views
Reportar error

Los cuantiles son herramientas estadísticas fundamentales que nos permiten dividir un conjunto de datos ordenados en partes iguales, facilitando la comprensión de su distribución. Más allá de la media o la desviación estándar, los cuantiles ofrecen una visión detallada de dónde se concentran los datos, dónde están los extremos y cómo se distribuye la masa de valores.

En la ciencia de datos, comprender los cuantiles es crucial para el análisis exploratorio de datos (EDA), la detección de valores atípicos, la comparación de distribuciones y la toma de decisiones basada en el comportamiento real de los datos, no solo en sus promedios.

🎯 ¿Qué son los Cuantiles? Una Mirada General

En términos sencillos, un cuantil es un punto de corte que divide un conjunto de datos ordenados en q subconjuntos de tamaños aproximadamente iguales. Los tipos más comunes y útiles de cuantiles son los percentiles, los cuartiles y los deciles.

Imagina que tienes una lista de calificaciones de un examen, ordenadas de menor a mayor. Los cuantiles te permitirían decir, por ejemplo, que el 25% de los estudiantes obtuvo una calificación inferior a cierto valor (el primer cuartil), o que el 90% de los estudiantes obtuvo una calificación inferior a otro valor (el percentil 90).

🔥 Importante: Los cuantiles requieren que los datos estén **ordenados** de forma ascendente. Este es un paso fundamental antes de su cálculo.

💡 ¿Por qué son tan importantes los cuantiles?

  • Robustez: Son menos sensibles a los valores atípicos extremos que la media. La mediana (el segundo cuartil o percentil 50) es un claro ejemplo de una medida robusta de tendencia central.
  • Distribución: Proporcionan una imagen clara de la distribución de los datos, identificando dónde se concentran la mayoría de los valores.
  • Comparación: Facilitan la comparación de diferentes conjuntos de datos o grupos dentro de un mismo conjunto.
  • Detección de Atípicos: Permiten establecer umbrales para identificar valores inusualmente bajos o altos.

📊 Tipos de Cuantiles Principales

Aunque el concepto es general, nos centraremos en los cuantiles más utilizados en la práctica:

📉 Percentiles: La División en Cientos

Los percentiles dividen un conjunto de datos ordenados en 100 partes iguales. El k-ésimo percentil (P_k) es el valor por debajo del cual cae el k% de las observaciones. Por ejemplo:

  • Percentil 10 (P10): El valor por debajo del cual se encuentra el 10% de los datos.
  • Percentil 50 (P50): El valor por debajo del cual se encuentra el 50% de los datos. ¡Esta es la mediana!
  • Percentil 95 (P95): El valor por debajo del cual se encuentra el 95% de los datos.

Uso práctico:

  • Evaluación de rendimiento: Un estudiante en el percentil 80 de una prueba significa que superó al 80% de los examinados.
  • Salarios: Un salario en el percentil 90 indica que solo el 10% de las personas gana más.
  • Salud: Percentiles de crecimiento en niños para monitorear el desarrollo.

📦 Cuartiles: Las Cuatro Esquinas de tus Datos

Los cuartiles son un caso especial de percentiles que dividen los datos ordenados en cuatro partes iguales. Hay tres cuartiles principales que dividen los datos en cuatro segmentos del 25% cada uno:

  • Primer Cuartil (Q1): Es el percentil 25 (P25). El 25% de los datos está por debajo de Q1.
  • Segundo Cuartil (Q2): Es el percentil 50 (P50). ¡Es la mediana! El 50% de los datos está por debajo de Q2.
  • Tercer Cuartil (Q3): Es el percentil 75 (P75). El 75% de los datos está por debajo de Q3.

La distancia entre el primer y tercer cuartil se conoce como Rango Intercuartílico (RIQ), que es una medida de dispersión robusta. RIQ = Q3 - Q1.

Uso práctico:

  • Análisis de distribución: Permiten identificar rápidamente la concentración central del 50% de los datos (entre Q1 y Q3).
  • Detección de outliers (valores atípicos): Se suelen definir outliers como valores que caen por debajo de Q1 - 1.5 * RIQ o por encima de Q3 + 1.5 * RIQ.
  • Visualización: Son la base para la construcción de los diagramas de caja y bigotes (box plots).
Diagrama de Caja y Bigotes Atípico Mínimo Q1 (25%) Mediana (Q2) Q3 (75%) Máximo Atípico Rango Intercuartílico (RIQ)

🔟 Deciles: Diez Divisiones para Mayor Granularidad

Los deciles dividen un conjunto de datos ordenados en diez partes iguales. Hay nueve deciles principales (D1 a D9). El k-ésimo decil (Dk) es el valor por debajo del cual cae el kx10% de las observaciones.

  • Primer Decil (D1): Es el percentil 10 (P10).
  • Quinto Decil (D5): Es el percentil 50 (P50), la mediana.
  • Noveno Decil (D9): Es el percentil 90 (P90).

Uso práctico:

  • Análisis socioeconómico: Distribución de ingresos en deciles para entender la desigualdad.
  • Calificaciones: Agrupar estudiantes en 10 categorías de rendimiento.
  • Rendimiento de carteras: Analizar el rendimiento de inversiones por deciles.
💡 Consejo: Piensa en los percentiles como el concepto general, y los cuartiles y deciles como casos específicos y convenientes de percentiles. Por ejemplo, Q1 es P25, Q2 es P50, Q3 es P75. D1 es P10, D2 es P20, y así sucesivamente.

🛠️ Cálculo e Interpretación de Cuantiles

El cálculo de cuantiles puede tener ligeras variaciones dependiendo del software o la fórmula específica utilizada, pero el principio general es el mismo. Aquí presentamos un enfoque común.

Paso a Paso para Calcular un Cuantil (Percentil P_k)

  1. Ordena los datos: Organiza tu conjunto de datos de menor a mayor.
  2. Calcula la posición: Para encontrar el k-ésimo percentil (P_k), calcula la posición i = (k / 100) * (n + 1), donde n es el número total de datos.
  3. Interpreta la posición:
    • Si i es un número entero, el percentil es el valor en la posición i de tus datos ordenados.
    • Si i no es un número entero, digamos i = I + F (donde I es la parte entera y F es la parte fraccionaria), el percentil es una interpolación entre el valor en la posición I y el valor en la posición I+1. La fórmula común es: Valor_I + F * (Valor_{I+1} - Valor_I).
📌 Nota: Existen diferentes métodos de interpolación (y de cálculo de posición). Bibliotecas como NumPy o SciPy en Python implementan varios de ellos. Es bueno ser consciente de que los resultados pueden variar ligeramente si se usan métodos diferentes.

Ejemplo Práctico de Cálculo

Consideremos el siguiente conjunto de datos (ejemplo de edades de un grupo de personas):

Datos = [18, 20, 22, 25, 28, 30, 32, 35, 38, 40, 42, 45, 48, 50, 55]

Aquí n = 15.

  1. Datos ordenados: Ya están ordenados.

  2. Calcular Q1 (P25):

    • k = 25
    • i = (25 / 100) * (15 + 1) = 0.25 * 16 = 4
    • Como i es entero, Q1 es el 4º valor en los datos ordenados.
    • Q1 = 25
  3. Calcular Q2 (P50 - Mediana):

    • k = 50
    • i = (50 / 100) * (15 + 1) = 0.50 * 16 = 8
    • Como i es entero, Q2 es el 8º valor.
    • Q2 = 35
  4. Calcular Q3 (P75):

    • k = 75
    • i = (75 / 100) * (15 + 1) = 0.75 * 16 = 12
    • Como i es entero, Q3 es el 12º valor.
    • Q3 = 45

Ahora, calcularemos el Percentil 90 (P90) para el mismo conjunto de datos:

  • k = 90
  • i = (90 / 100) * (15 + 1) = 0.90 * 16 = 14.4
  • I = 14, F = 0.4
  • Valor_14 = 50, Valor_15 = 55
  • P90 = Valor_14 + 0.4 * (Valor_15 - Valor_14) = 50 + 0.4 * (55 - 50) = 50 + 0.4 * 5 = 50 + 2 = 52
  • P90 = 52

Interpretación de los Resultados

Para nuestro ejemplo de edades:

  • Q1 (P25) = 25 años: El 25% de las personas en este grupo tiene 25 años o menos.
  • Q2 (P50, Mediana) = 35 años: El 50% de las personas tiene 35 años o menos. Es el valor central de la distribución.
  • Q3 (P75) = 45 años: El 75% de las personas tiene 45 años o menos.
  • RIQ = Q3 - Q1 = 45 - 25 = 20 años: El 50% central de las edades se distribuye en un rango de 20 años.
  • P90 = 52 años: El 90% de las personas tiene 52 años o menos. Solo el 10% tiene más de 52 años.

Esta información es mucho más rica que solo decir que la edad promedio es (18+... +55)/15 = 35.33 años. Nos muestra la concentración y la dispersión de manera más granular.

📈 Visualizando Cuantiles con Box Plots

Los diagramas de caja y bigotes (box plots) son una excelente herramienta visual para representar los cuartiles y la distribución de los datos de un vistazo. Son especialmente útiles para comparar distribuciones entre diferentes grupos.

Un box plot muestra:

  • La caja: Representa el rango intercuartílico (RIQ), y sus límites son Q1 y Q3. La longitud de la caja indica la dispersión del 50% central de los datos.
  • La línea dentro de la caja: Es la mediana (Q2).
  • Los bigotes: Se extienden desde la caja hasta los valores mínimo y máximo dentro de un rango aceptable (generalmente Q1 - 1.5 * RIQ y Q3 + 1.5 * RIQ).
  • Puntos individuales: Representan los outliers o valores atípicos que caen fuera de los bigotes.
Diagrama de Caja y Bigotes Valor Atípico Superior Límite Superior (Q3 + 1.5*RIQ) Tercer Cuartil (Q3 - 75%) Mediana (Q2 - 50%) Primer Cuartil (Q1 - 25%) Límite Inferior (Q1 - 1.5*RIQ) Valor Atípico Inferior RIQ

Beneficios de los Box Plots:

  • Comparación rápida: Permiten comparar la dispersión, la tendencia central y la asimetría de múltiples distribuciones simultáneamente.
  • Detección de asimetría: Si la mediana no está en el centro de la caja, o los bigotes son de longitudes diferentes, sugiere asimetría en los datos.
  • Identificación de outliers: Los puntos fuera de los bigotes son candidatos a ser valores atípicos.

🔍 Aplicaciones Avanzadas y Consideraciones

Los cuantiles no solo sirven para el análisis descriptivo; tienen un papel crucial en áreas más avanzadas de la ciencia de datos.

Normalización por Cuantiles

En ciertos algoritmos de machine learning o análisis estadístico, es beneficioso transformar los datos para que sigan una distribución uniforme o normal. La normalización por cuantiles (también conocida como transformación de cuantiles) asigna a cada valor su correspondiente cuantil, lo que puede mejorar el rendimiento de los modelos al reducir el impacto de los outliers y la asimetría.

Cuantiles en la Detección de Anomalías

Como mencionamos, los cuantiles son la base para definir umbrales para la detección de anomalías. Valores que caen en percentiles muy bajos (ej. P1) o muy altos (ej. P99) pueden ser considerados anómalos o outliers. Esto es común en la detección de fraudes, monitoreo de sistemas o control de calidad.

⚠️ Advertencia: La definición de un *outlier* usando cuantiles (como `1.5 * RIQ`) es una regla heurística. Siempre debe combinarse con el conocimiento del dominio para determinar si un valor es realmente anómalo o simplemente una observación extrema pero válida.

Cuantiles Condicionales (Regresión Cuantílica)

Mientras que la regresión lineal tradicional modela la media de la variable dependiente, la regresión cuantílica permite modelar diferentes cuantiles (ej., la mediana, el P10, el P90) de la variable dependiente en función de una o más variables explicativas. Esto es extremadamente útil cuando la relación entre variables cambia a través de diferentes partes de la distribución, o cuando los outliers son una característica importante de los datos que no se deben ignorar.

Por ejemplo, podrías querer entender cómo el ingreso (variable dependiente) varía con la educación (variable explicativa) no solo para el ingreso promedio, sino también para el 10% de menores ingresos o el 10% de mayores ingresos. La regresión cuantílica ofrece una imagen más completa que la regresión de la media.

📚 Recursos Adicionales y Herramientas

Para profundizar y aplicar estos conceptos, te recomendamos explorar las siguientes herramientas y bibliotecas en Python, muy comunes en la ciencia de datos:

BibliotecaFunción Común para CuantilesDescripciónDificultad
------------
NumPynp.percentile()Cálculo de cualquier percentil. Versátil y eficiente para arrays numéricos.Intermedio
Pandasdf.quantile()Método directo para Series y DataFrames. Permite especificar el cuantil (0 a 1) o una lista de cuantiles.Fácil
------------
SciPyscipy.stats.scoreatpercentile()Función similar a np.percentile(), a menudo con más opciones.Intermedio
Matplotlib / Seabornplt.boxplot(), sns.boxplot()Creación de diagramas de caja y bigotes para visualización.Intermedio
Ejemplo de uso de NumPy y Pandas para cuantiles
import numpy as np
import pandas as pd

datos = [18, 20, 22, 25, 28, 30, 32, 35, 38, 40, 42, 45, 48, 50, 55]

# Usando NumPy
q1_np = np.percentile(datos, 25)
q2_np = np.percentile(datos, 50) # Mediana
q3_np = np.percentile(datos, 75)
p90_np = np.percentile(datos, 90)

print(f"NumPy - Q1: {q1_np}, Mediana: {q2_np}, Q3: {q3_np}, P90: {p90_np}")

# Usando Pandas
serie_datos = pd.Series(datos)
q1_pd = serie_datos.quantile(0.25)
q2_pd = serie_datos.quantile(0.50) # Mediana
q3_pd = serie_datos.quantile(0.75)
p90_pd = serie_datos.quantile(0.90)

print(f"Pandas - Q1: {q1_pd}, Mediana: {q2_pd}, Q3: {q3_pd}, P90: {p90_pd}")

# Rango Intercuartílico
riq = q3_pd - q1_pd
print(f"Rango Intercuartílico (RIQ): {riq}")

# Identificación de outliers (ejemplo simple)
umbral_inferior = q1_pd - 1.5 * riq
umbral_superior = q3_pd + 1.5 * riq

outliers = [x for x in datos if x < umbral_inferior or x > umbral_superior]
print(f"Outliers potenciales: {outliers}")

✅ Conclusión: El Valor Incalculable de los Cuantiles

Los cuantiles, en sus diversas formas (percentiles, cuartiles, deciles), son herramientas indispensables en el arsenal de cualquier científico de datos. Proporcionan una comprensión profunda de la distribución de los datos, van más allá de los promedios y permiten identificar patrones, asimetrías y valores atípicos que de otro modo pasarían desapercibidos.

Dominar su cálculo e interpretación te permitirá realizar un análisis exploratorio de datos más robusto, tomar decisiones mejor informadas y construir modelos más fiables. La próxima vez que analices un conjunto de datos, no te limites a la media; ¡sumérgete en el mundo de los cuantiles para desvelar la verdadera historia que tus datos tienen que contar!

Tutoriales relacionados

Comentarios (0)

Aún no hay comentarios. ¡Sé el primero!