PÍLDORA ESTADÍSTICA 2. DISTRIBUCIONES DE PROBABILIDADES Y DISTRIBUCIONES DE FRECUENCIAS

A través de esta serie de entradas, pretendemos explicar algunos de los conceptos fundamentales de las técnicas de análisis estadístico, que serán oportunamente ilustrados mediante el uso de IBM SPSS Statistics.

En el análisis estadístico las distribuciones de probabilidades son los instrumentos que nos permiten modelizar el comportamiento de fenómenos esencialmente variables. Resultan de particular interés las denominadas distribuciones paramétricas de probabilidades, que son aquellas mediante las que se puede caracterizar el comportamiento variable del fenómeno en consideración, a través de un conjunto reducido de entidades denominadas parámetros. Imaginemos que estamos interesados en caracterizar la altura media de una población de personas adultas compuesta por, digamos 300.000 individuos. A priori estamos ante un problema que tiene dimensión 300.000 (entidades). Lo primero que hacemos es trabajar con su DISTRIBUCIÓN DE FRECUENCIAS que sustituye los 300.000 casos individuales por el conjunto menor de entidades: los valores (o intervalos de valores) que toma la variable y sus correspondientes frecuencias absolutas o relativas que informan de las repeticiones de cada valor. Si trabajamos con 20 intervalos de alturas y 20 frecuencias reducimos la dimensión de nuestro problema a 40 entidades. En este paso se aplica el -frecuentemente ignorado- concepto de “marginalización”, que hace posible la Inferencia Estadística y que consiste en que todas las diferencias entre las unidades individuales, que se consideran no pertinentes para la cuestión objeto de estudio, son ignoradas. Es decir, para hacer posible la generalización, las unidades individuales deben considerarse representativas e intercambiables dentro de aquellos grupos que se van a distinguir.

Si en lugar de considerar la DISTRIBUCIÓN DE FRECUENCIAS damos un paso más y nos asistimos del modelo probabilístico normal -que depende exclusivamente de 2 parámetros, la media y la varianza que caracterizan, respectivamente, la posición y la dispersión de la distribución de probabilidades - resulta evidente que hemos reducido la complejidad y dimensión del mismo de forma considerable.

La elección de una determinada distribución de probabilidades para representar un fenómeno variable requiere considerar cuidadosamente varios aspectos: la adecuación conceptual, el ajuste empírico, la posibilidad de identificar los parámetros con entidades reales de nuestro interés, la relativa simplicidad para la manipulación algebraica, todo ello bajo el marco del modelo de relaciones que pretendamos usar como referencia. Recuerden que en la primera de estas entradas / píldoras empleamos una adivinanza para ilustrar que sin conocer la balanza era imposible identificar el lingote falso. Aquí es exactamente análogo. Es necesario profundizar en el conocimiento de los modelos para poder medir con ellos. Pero detengámonos brevemente en cada uno de los aspectos a considerar:

1) Idoneidad conceptual. Por seguir con el ejemplo de las alturas, el uso de la distribución normal sugerido para sintetizar el comportamiento de esta variable, se sustenta en que dicha variable siga una distribución que pueda concebirse como el resultado de la acción de múltiples causas independientes entre si, y donde ninguna de ellas tenga un papel dominante en el efecto agregado. Si creemos que la altura de los individuos encaja en este concepto, entonces la distribución normal será idónea.

2) Ajuste empírico. La cuestión aquí es comprobar si los datos observados (las alturas) siguen el comportamiento esperado bajo el modelo normal. Esta comprobación descansa en el llamado Teorema fundamental de la Estadística, o Teorema de Glivenko-Cantelli que garantiza que con un tamaño de muestra suficientemente grande, la distribución empírica de la variable (alturas) reproduce a la distribución teórica o, dicho de otro modo, que es posible comprobar cuánto se apartan el modelo teórico del empírico y tomar una decisión sobre la adecuación del modelo o no con incertidumbre cuantificada. En ocasiones, la variable directamente observada no se ajusta a la distribución normal de probabilidades, pero sí lo hace una transformación de esa variable (como su logaritmo, su raíz cuadrada, etc) existiendo amplia literatura sobre transformaciones a aplicar para conseguir la “normalidad” en los comportamientos.

3) En el ejemplo ilustrativo, los parámetros media y varianza del modelo probabilístico normal se identifican directamente con la media y la varianza de las alturas de la población cuya interpretación es inmediata. A veces, las transformaciones requeridas -explicadas en el punto anterior- dificultan la interpretación de los resultados.

4) En cuanto a la manipulación algebraica, esta tiene sentido dentro de un modelo de referencia. Vale la pena anticipar que la distribución normal de probabilidades es un caso particular de la Familia Exponencial de distribuciones de probabilidades que es conocida precisamente por su propiedad reproductiva (la acumulación de evidencia -más observaciones- sigue el mismo modelo probabilístico) y otras propiedades deseables que incluyen un buen manejo algebraico.

5) El modelo de referencia: nuestro ejemplo de alturas de una población es simplísimo, tenemos una única variable Y que sigue una distribución N(μ,σ2), pero podemos perfectamente ampliarlo para analizar cómo cambia la media de la distribución (suponemos que la varianza no se altera) cuando cambia, por ejemplo, el género -que representamos por X o la etnia que representamos por Z). En este caso, nuestro modelo se expresa μij= αXi + βYj queriendo decir que la media de la distribución resulta del efecto compuesto de género y etnia combinados como un predictor lineal en la parte derecha de la igualdad. Este modelo impone una serie de restricciones adicionales sobre todos los puntos anteriores que será necesario reconsiderar de los que apuntamos algunos a continuación:

  • Cabe o no asumir que los efectos de genero y etnia son independientes y aditivos, como implícitamente recoge la formulación anterior
  • Es o no normal el comportamiento de las alturas en las subpoblaciones (modificando la media según el modelo propuesto). La variación residual es constante entre las poblaciones una vez descontados los efectos etnia y género(?), etc.
  • En cuanto a la identificación de los parámetros en este modelo ampliado, no reviste cualquier dificultad.
  • Un modelo lineal es de los más sencillos y conocidos, no presentando la modificación introducida desafíos significativos.
  • Nuestro nuevo modelo tiene ahora 2 parámetros más, aquellos que cuantifican el efecto de la etnia y genero sobre la altura de la población. Debemos cuestionarnos si tales parámetros apuntan hacia efectos significativos o no.

Hay una amplia variedad de distribuciones de probabilidades, tanto de variables continuas como discretas, que se emplean frecuentemente en la literatura estadística. Referimos aquí las más comunes, además de la sobradamente conocida Normal en sus modalidades uni o multivariante:

Con la Distribución Binomial se modeliza el número de éxitos en n repeticiones independientes de un ensayo aleatorio con dos resultados posibles (por ejemplo, éxito y fracaso, presencia o ausencia de una característica) que tienen probabilidades respectivas de realizarse p y 1-p, constantes en cada repetición. Bajo este modelo encajan desde el número de caras en una secuencia finita de lanzamientos de una moneda, hasta el numero de veces que una unidad poblacional (o determinado valor de una variable) entra a forma parte de una muestra probabilística tomada con reposición. En el campo del Control Estadístico de Calidad su aplicación es inmediata en tanto representa el recuento de unidades producidas que, dentro de una muestra finita, satisfacen o no ciertos requerimientos.

Si repetimos indefinidamente un experimento dicotómico y contamos el número de fracasos hasta llegar al primer éxito (numero de caras hasta la primera cruz o viceversa en lanzamientos repetidos de una moneda), tenemos la distribución de probabilidades Geométrica. Si en lugar de contar fracasos hasta el primer éxito, contamos fracasos hasta el éxito “r” (finito) estamos ante el modelo Binomial Negativo, empleado entre otros casos tanto para la valoración de opciones financieras, como para la inspección secuencial de lotes.

Cuando la probabilidad de éxito es muy pequeña y el número de repeticiones es arbitrariamente elevado, la distribución Binomial converge a la distribución de Poisson, también llamada de sucesos raros y de aplicación para modelizar las colas en el campo de la Investigación Operativa.

Si en lugar de dos resultados dicótomos de un experimento aleatorio tenemos 3 o más, llegamos a la distribución de probabilidades Multinomial, empleada para el análisis de las relaciones entre atributos en tablas de contingencia, test de bondad de ajuste, muestreo en poblaciones finitas, etc.

Por último -sin carácter exhaustivo- las distribuciones Hipergeométrica e Hipergeométrica Multivariante están íntimamente relacionadas con el cálculo combinatorio, empleándose extensivamente en las operaciones de muestreo sobre poblaciones finitas. Son análogas a las distribuciones binomial y multinomial, pero ahora en extracciones de una muestra sin reposición, de forma que las probabilidades de los sucesos elementales (como por ejemplo éxito) no se mantienen constantes en las sucesivas extracciones.

En resumen, los modelos probabilísticos paramétricos nos sirven para representar y analizar fenómenos que tienen naturaleza variable, mediante un número relativamente pequeño de entidades que denominamos parámetros y que identificamos con características particulares del fenómeno objeto de estudio. Estimar estas entidades y analizar el tamaño de efecto que sobre ellas tiene la presencia de determinadas condiciones -recogidas en el propio diseño del experimento o en covariables presentes en el estudio- son parte fundamental de los modelos y métodos de investigación estadística.

 

Tags

Author

Jesus Bescos

 

img-theme

I have worked in the areas of Information, Decisioning Systems, Data Analysis, and Predictive Analytics for more than 20 years. I’ve a Master Degree in Public Economics, and a Ph.D. in Applied Economics.
Over the course of my professional activity I have had the privilege of Teaching and practicing Statistics, joining the Predictive Analytics software industry (SPSS, now part of IBM company), working for a Global Information Services player (Experian) and setting up my own practice.
My professional career has evolved around the connexion of data with effective actions, for various business environments demanding the combined use of analysis and technology in different roles and positions requiring the management of products, consultancy, and sales.