PÍLDORA ESTADÍSTICA 3. UN PRIMER MODELO PARA VARIABLE RESPUESTA BINOMIAL.

modelos_lineales_generalizados.png
A través de esta serie de entradas, pretendemos explicar algunos de los conceptos fundamentales de las técnicas de análisis estadístico, que serán oportunamente ilustrados mediante el uso de IBM SPSS Statistics.

Vamos a ejemplificar un modelo estadístico relativamente simple que tiene un ámbito de aplicación considerablemente amplio, pues sirve para medir cómo se modifica una respuesta binaria variable, ante el cambio de las condiciones de un factor único que también toma 2 valores. Por ejemplo, comparamos la respuesta (éxito o fracaso) de un determinado tratamiento entre dos grupos de individuos: aquellos a los que se les ha aplicado ese tratamiento vs aquellos a los que se no. En el campo de la medicina, es común analizar la respuesta de los pacientes a un determinado fármaco (o vacuna) para lo que se seleccionan 2 grupos de individuos. Los individuos de uno de los grupos reciben el tratamiento en estudio y los otros usualmente un placebo. Si los "pacientes" ignoran a qué grupo pertenecen se trata de una prueba ciega, si también lo ignoran aquellos que realizan el seguimiento, se denomina "doble ciega". Estos diseños de pruebas ciegas tienen por finalidad eliminar sesgos que puedan aparecer como consecuencia de sensaciones subjetivas de los pacientes (al saber si están siendo efectivamente tratados o no) o de los supervisores (por condicionar sus evaluaciones basándose en el conocimiento del grupo al que cada sujeto pertenece). En el campo de encuestas, es común analizar cómo la inclinación de voto hacia una determinada candidatura puede diferenciarse entre poblaciones urbanas y rurales, y así un largo etcétera.

La distribución de probabilidades aplicable al caso de una respuesta binaria es la denominada Binomial de parametros n,p, denotada B(n,p), donde "n" representa el número de repeticiones del experimento aleatorio binario (número de individuos aleatoriamente seleccionados en la encuesta) y "p" la probabilidad de éxito de cada repetición. Por las condiciones que hemos descrito anteriormente, lo que estamos suponiendo es que la probabilidad de éxito "p", que se identifica conceptualmente con la frecuencia relativa de éxito en la población, es constante, y que -no obstante- queremos ver si somos capaces de identificar un efecto sistemático sobre la misma derivado de condiciones cambiantes: en nuestro caso la pertenencia o no a un grupo determinado (tratamiento, el urbano).

En otras palabras, suponemos que "p" cambia debido al "efecto grupo" (en realidad a lo que determina la pertenencia al mismo). Además de la distribución de probabilidades necesitamos un modelo, es decir, un sistema que nos permita cuantificar ese efecto, y hacerlo de un modo "sencillo" y que se pueda interpretar.

Antes de proseguir vamos a crear un conjunto de datos simulados. En concreto 404 observaciones que asignaremos a dos grupos (representados respectivamente por 0 y 1: control y tratamiento) mediante la generación de 0s y 1s aleatoriamente con igual probabilidad (recurriendo a una función específica de SPSS ). Una vez asignado cada caso a uno de los grupos, creamos la variable ficticia "respuesta" que en el grupo de control obtenemos por un procedimiento análogo a la asignación de grupo, ahora con p=0.4 y en el grupo de tratamiento procedemos análogamente con p=0.6. Se trata de una diferencia de proporciones muy grande (0.4) entre ambos grupos, poco frecuente en estudios reales, pero buena a los efectos ilutrativos que se pretenden aquí.

La sintaxis para generar los datos se recoge a continuación. Por favor, recuerde que la primera línea de comando se requiere para garantizar que se obtengan los mismos resultados en diferentes ejecuciones del programa.

SET SEED=2000000.
INPUT PROGRAM.
LOOP id=1 to 404.
COMPUTE grupo=RV.BERNOULLI(0.5).
IF  (grupo = 0) respuesta=RV.BERNOULLI(0.4).
IF  (grupo = 1) respuesta=RV.BERNOULLI(0.6).
END CASE.
END LOOP.
END FILE.
END INPUT PROGRAM.
EXECUTE.

Además de la distribución de probabilidades binomial, necesitamos un modelo de referencia en el que encajar tanto esta distribución de probabilidades como la especificación de las condiciones cambiantes (el grupo de pertenencia) bajo las cuales vamos a analizar cómo se altera dicha distribución. No auxiliamos de los denominados Modelos Lineales Generalizados. Para el caso que nos ocupa, el modelo actúa como la balanza de platillos: no pesa directamente un objeto, sino que compara pesos entre ambos lados. Nuestra balanza estadística no va a medir de forma directa los efectos sobre el parámetro "p", pero sí sobre una transformación del mismo que se conoce como " función de enlace", en nuestro caso ln p/(1/p). Si la probabilidad de éxito es p, se sigue que 1-p es la probabilidad de fracaso. Al cociente p/(1-p) se le denomina "ventaja" y nos dice cuántas veces mas probable es el éxito que el fracaso ante un resultado binario. Por ejemplo, con p=0,75, la ventaja es 3.

Pues bien, nuestro modelo -denominado logit- permite expresar el logaritmo de la ventaja como una combinación lineal de covariables y factores de la forma:

ln p/(1-p) = bo + b1 X1 + b2 X2 + .....

queriendo esto decir que no tenemos que limitarnos al caso de un único factor con 2 niveles (el grupo de pertenencia), sino que podemos considerar tantas subpoblaciones o grupos como los que resulten de todas las combinaciones posibles de los valores que toman las covariables y factores. No obstante, aquí nos centramos en un único factor, el grupo de pertenencia -siendo que sólo hay 2 posibles-, de forma que representamos la relación anterior como:

ln p/(1-p) = b1 X1

Merece la pena señalar que debido a la codificación del grupo (0,1) por la que hemos optado, b1 mide cómo varia la ventaja al pertenecer al grupo 1 vs el grupo cero, conclusión que se alcanza al substituir X1 por 1 en la igualdad anterior.

Manos a la obra:

En el menú principal iremos a Analizar>Modelos Lineales Generalizados

En la pestaña "Tipo de modelo", escoger "respuesta logística binaria".

En la pestaña "Respuesta", elegir "respuesta" como variable dependiente y elegir el menor valor como "categoría de referencia".

En la pestaña "Predictores", trasladar "grupo" al recuadro de factores.

En la pestaña "Modelo", trasladar "grupo" al recuadro de Modelo y eliminar la selección "incluir intersección en el modelo"

En la pestaña"Estadísticas" seleccionar "Incluir Estimaciones de los parámetros exponenciales"

En la pestaña de "Medias Marginales Estimadas", trasladar grupo al recuadro "Mostrar medias para" y elegir el contraste "diferencia"

Pulsa "Aceptar" para llegar a los siguientes resultados:

rdos_glm_binomial.png

El modelo es claramente significativo, el efecto del grupo sobre el logaritmo de la ventaja -según la especificación logit- es b1=0.35 que, transformado convenientemente, informa que la ventaja se multiplica por el factor 1.425 en el grupo de tratamiento vs el de control. Las medias estimadas, el valor de "p" o frecuencia estimada de éxito (tratamiento efectivo o voto en una determinada dirección) es del 0.4 y 0.59 en los dos grupos respectivamente -muy próximos a los valores usados en la generación de los datos- y que, claramente, la diferencia de efecto entre ambos es significativa, lo que se aprecia igualmente al inspeccionar los Intervalos de Confianza estimados para p en ambos grupos, pues su intersección es nula.

La correcta interpretación de los resultados del modelo requiere siempre del concurso de un especialista en estadística y otro en la materia objeto de estudio. Un kilogramo de piedra y uno de silicio equilibran una balanza, pero su valor es diferente dependiendo de la tecnología disponible. Lo mismo sucede con los resultados de los modelos estadísticos: su valor depende de otros modelos alternativos y, desde luego, del conocimiento incorporado para su interpretación.

 

Author

Jesus Bescos

 

img-theme

I have worked in the areas of Information, Decisioning Systems, Data Analysis, and Predictive Analytics for more than 20 years. I’ve a Master Degree in Public Economics, and a Ph.D. in Applied Economics.
Over the course of my professional activity I have had the privilege of Teaching and practicing Statistics, joining the Predictive Analytics software industry (SPSS, now part of IBM company), working for a Global Information Services player (Experian) and setting up my own practice.
My professional career has evolved around the connexion of data with effective actions, for various business environments demanding the combined use of analysis and technology in different roles and positions requiring the management of products, consultancy, and sales.