WWW.GIGAVENTAS.COM
www.centinelas.mx







ESTADÍSTICA NO PARAMÉTRICA, LA PRUEBA DE X 2 PARA TABLAS DE CONTINGENCIA.

La prueba de X 2 se utiliza cuando se quieren analizar la correlación entre dos variables cuyos valores son nominales y parte, de la comparación de las frecuencias absolutas del cruce de los valores, con los valores de las frecuencias esperados de forma teórica.

En el siguiente ejemplo se tienen 212 estudiantes de las carreras de psicología, ingeniería y arquitectura, lo que se desea es encontrar si existe correlación entre la carrera estudiada y el género (masculino o femenino).

TABLA 1

GENERO

CARRERA

GENERO

CARRERA

GENERO

CARRERA

GENERO

CARRERA

GENERO

CARRERA

Masculino

ingeniería

Femenino

Psicología

femenino

Arquitectura

Femenino

ingeniería

femenino

psicología

Femenino

arquitectura

Masculino

Ingeniería

masculino

ingeniería

Femenino

psicología

masculino

arquitectura

Masculino

psicología

Masculino

Arquitectura

femenino

ingeniería

Femenino

psicología

masculino

ingeniería

Femenino

ingeniería

Masculino

Ingeniería

femenino

psicología

Femenino

arquitectura

masculino

psicología

Femenino

arquitectura

Femenino

Ingeniería

femenino

psicología

Masculino

ingeniería

femenino

ingeniería

Femenino

psicología

Masculino

Ingeniería

femenino

arquitectura

Femenino

psicología

femenino

arquitectura

Femenino

psicología

Femenino

Ingeniería

masculino

arquitectura

Femenino

arquitectura

femenino

psicología

Femenino

ingeniería

Femenino

Ingeniería

masculino

psicología

Masculino

arquitectura

femenino

arquitectura

Masculino

ingeniería

Femenino

Arquitectura

femenino

psicología

Femenino

psicología

femenino

psicología

Femenino

psicología

Masculino

Ingeniería

femenino

ingeniería

Femenino

ingeniería

femenino

psicología

Masculino

psicología

Femenino

Ingeniería

femenino

ingeniería

Femenino

arquitectura

masculino

ingeniería

Masculino

ingeniería

Femenino

Ingeniería

masculino

ingeniería

Masculino

psicología

femenino

arquitectura

Masculino

psicología

Masculino

Psicología

femenino

ingeniería

Masculino

psicología

femenino

ingeniería

Femenino

psicología

Femenino

Arquitectura

femenino

psicología

Masculino

arquitectura

masculino

arquitectura

Masculino

ingeniería

Masculino

Psicología

femenino

ingeniería

Masculino

ingeniería

masculino

arquitectura

Masculino

arquitectura

Masculino

Ingeniería

masculino

arquitectura

Femenino

arquitectura

femenino

psicología

Masculino

arquitectura

Femenino

Ingeniería

femenino

arquitectura

Femenino

arquitectura

femenino

ingeniería

Masculino

ingeniería

Masculino

Arquitectura

masculino

ingeniería

Femenino

psicología

masculino

ingeniería

Femenino

arquitectura

Femenino

Psicología

masculino

psicología

Femenino

psicología

femenino

psicología

Femenino

arquitectura

Masculino

Psicología

femenino

psicología

Femenino

psicología

femenino

psicología

Femenino

psicología

Masculino

Arquitectura

femenino

psicología

Masculino

arquitectura

masculino

ingeniería

Femenino

psicología

Masculino

Arquitectura

femenino

psicología

Femenino

psicología

masculino

arquitectura

Femenino

psicología

Femenino

Arquitectura

femenino

psicología

Masculino

ingeniería

masculino

arquitectura

Femenino

arquitectura

Femenino

Arquitectura

femenino

arquitectura

Masculino

ingeniería

masculino

arquitectura

Femenino

ingeniería

Femenino

Psicología

femenino

ingeniería

Masculino

arquitectura

femenino

psicología

Masculino

arquitectura

Masculino

Ingeniería

femenino

ingeniería

Femenino

psicología

masculino

ingeniería

Femenino

psicología

Femenino

Arquitectura

femenino

ingeniería

Femenino

ingeniería

masculino

ingeniería

Femenino

arquitectura

Masculino

Ingeniería

femenino

psicología

Femenino

arquitectura

masculino

psicología

Masculino

psicología

Femenino

Arquitectura

masculino

arquitectura

Masculino

arquitectura

masculino

arquitectura

Femenino

ingeniería

Masculino

Psicología

femenino

psicología

Masculino

arquitectura

femenino

arquitectura

Masculino

ingeniería

Masculino

Ingeniería

femenino

arquitectura

Masculino

psicología

femenino

psicología

Masculino

ingeniería

Masculino

Psicología

femenino

arquitectura

Femenino

arquitectura

femenino

psicología

Masculino

arquitectura

Femenino

Ingeniería

masculino

psicología

Femenino

arquitectura

femenino

arquitectura

Femenino

ingeniería

Femenino

Psicología

masculino

psicología

Masculino

psicología

masculino

psicología

Masculino

arquitectura

Femenino

Ingeniería

masculino

arquitectura

Femenino

ingeniería

masculino

ingeniería

Masculino

ingeniería

Masculino

Ingeniería

masculino

ingeniería

Femenino

arquitectura

femenino

psicología

Femenino

arquitectura

Femenino

Ingeniería

femenino

arquitectura

Masculino

ingeniería

femenino

psicología

Femenino

arquitectura

Masculino

Ingeniería

femenino

psicología

Masculino

ingeniería

masculino

ingeniería

Masculino

psicología

Femenino

Ingeniería

femenino

psicología

Femenino

arquitectura

masculino

psicología

Masculino

arquitectura

Masculino

Arquitectura

masculino

ingeniería

Masculino

ingeniería

masculino

ingeniería

Masculino

psicología

Femenino

Psicología

femenino

arquitectura

Masculino

psicología

Femenino

psicología

Femenino

Psicología

femenino

psicología

Femenino

arquitectura

Femenino

ingeniería

Masculino

Arquitectura

femenino

ingeniería

Masculino

arquitectura

 

 

Lo primero que hacemos es un conteo de las variables cruzadas como se muestra en la siguiente tabla.

TABLA 2

frecuencia observada

Psicología

Ingeniería

arquitectura

Masculino

24

39

30

Femenino

49

32

38

Después se procede a contar los valores de cada variable sumando los renglones sumando las columnas, por ejemplo el total de:

"masculino" es 24 + 39 + 30 = 93

"femenino" es 49 + 32 + 38 = 119

"psicología" es 24 + 49 = 73

"ingeniería" es 39 + 32 = 71

"arquitectura" es 30 + 38 = 68

Y la suma total es 212

TABLA 3

psicología

Ingeniería

arquitectura

Masculino

24

39

30

93

Femenino

49

32

38

119

73

71

68

212

Se calcula la tabla de las frecuencias esperadas multiplicando de la TABLA 3 la suma del renglón por la suma de la columna dividida entre la suma total, colocando el resultado en la TABLA 4.

Así para:

masculino - psicología 73 x 93 / 212 = 32.0235849

masculino ingeniería 71 x 93 / 212 =31.1462264

masculino arquitectura 68 x 93 / 212 =29.8301887

femenino - psicología 73 x 119 / 212 = 40.9764151

femenino ingeniería 71 x 119 / 212 =39.8537736

femenino arquitectura 68 x 119 / 212 =38.1698113

TABLA 4

frecuencia esperada

psicología

Ingeniería

arquitectura

Masculino

32.0235849

31.1462264

29.8301887

Femenino

40.9764151

39.8537736

38.1698113

Si comparamos los valores de las frecuencias esperadas con la de las frecuencias observadas tenemos que la frecuencia observada en masculino – psicología = 24 es menor que su frecuencia esperada = 32.0235849 esto puede implicar un correlación negativa, es decir el valor "masculino" de la variable género puede presentar valores inferiores a los esperados del valor psicología de la variable carrera. Una forma más simple de decirlo es que los estudiantes de genero masculino tienden a presentarse menos en la carrera de psicología en menor grado que los de genero femenino, el que exista una correlación negativa o positiva no implica términos excluyentes o determinantes pues en este ejemplo aunque la correlación parece ser negativa ( tal y como lo calcularemos mas adelante) ello no implica que estudiantes del genero masculino se excluyan de la carrera de psicología, simplemente significa que los valores observados son menores a los que esperaríamos estadísticamente si no hubiera correlación.

Para medir la correlación procedemos a calcular el valor de la X 2.

El valor de la X2 es igual a:

Esto es la suma de los cuadrados de la diferencia entre la frecuencia esperada menos la frecuencia observada entre la frecuencia esperada.

Esto lo veremos con mayor claridad en la siguiente tabla

Así para:

(GENERO-CARRERA) (fe - fo) 2 / fe

masculino - psicología ( 32.0235849 – 24 ) 2 / 32.0235849 = 2.01032817

masculino ingeniería ( 31.1462264 – 39 ) 2 / 31.1462264 = 1.9803927

masculino arquitectura ( 29.8301887 – 30 ) 2 / 29.8301887 = 0.0009666

femenino - psicología ( 40.9764151 – 49 ) 2 / 40.9764151 = 1.5710968

femenino ingeniería ( 39.8537736 – 32 ) 2 / 39.8537736 = 1.54770186

femenino arquitectura ( 38.1698113 – 38 ) 2 / 38.1698113 = 0.00075546

TABLA 5

X2

psicología

Ingeniería

arquitectura

Masculino

2.01032817

1.9803927

0.00096667

Femenino

1.5710968

1.54770186

0.00075546

X2 =

7.11124166

El valor de la X2 es la suma de todos los términos

2.01032817

+ 1.9803927

+ 0.00096667

+ 1.5710968

+ 1.54770186

+ 0.00075546

7.11124166

Así:

X2 = 7.11124166

 

 

 

 

Ahora calculamos los grados de libertad (g.l.) mediante la siguiente fórmula.

g.l. =(r – 1)(c –1)

g.l. = grados de libertad

r = número de renglones

c = número de columnas

Para el ejemplo que estamos manejando tenemos:

r = 2 (Los renglones para los dos valores masculino y femenino)

c = 3 (Las columnas para los tres valores de psicología, ingeniería y arquitectura)

Así:

g.l. = (r – 1)(c –1)

g.l. = (2 – 1)(3 –1)

g.l. = (1)(2)

g.l. = 2

Para el ejemplo tenemos que:

X2 = 7.11124166 y g.l. = 2

Teniendo el valor de la X2 y los grados de libertad procedemos a calcular a (alfa)

Siendo alfa:

Donde G es la función GAMMA

La función anterior no se puede integrar de manera explícita por lo que para resolverla es necesario usar métodos numéricos de integración.

Mediante las hojas de cálculo de Microsoft Excel es posible calcular el valor de a escribiendo para este ejemplo:

=DISTR.CHI(7.11124166, 2)

Ya que: X2 = 7.11124166 y g.l. = 2

Haciendo esto, obtenemos:

a = 0.0285636361919662

El significado de a (alfa) y su interpretación

El método de análisis de correlación no paramétrica para tablas de contingencia de la X2 parte del supuesto inicial de que no existe correlación entre las variables y que los resultados de la muestra son producto exclusivamente del azar.

A este supuesto inicial se le conoce como la hipótesis nula y se le designa con H0.

Dada esta suposición el valor de a es la probabilidad de que se obtenga una muestra como la que se obtuvo sin que exista una correlación de las variables, si el valor de a es muy pequeño, entonces tenemos dos opciones:

1.-) Se obtuvo una muestra muy extraña y con escasas probabilidades de ocurrir.

2.-)La hipótesis nula de que no existe correlación entre las variables es falsa siendo que los valores observados ocurrieron no por azar sino porque están correlacionadas, A esta opción se le conoce como la hipótesis alternativa y se le denomina Ha.

Si el valor de a es muy pequeño, se opta por la segunda opción pues es una explicación mas plausible que las variables estén correlacionadas a que haya ocurrido un hecho rarísimo.

Para nuestro ejemplo tenemos que:

a = 0.0285636361919662

Esto significa que la probabilidad sería menor del 3 % para que ocurra una muestra como la que se obtuvo.

Otra forma de percibir la probabilidad de alfa es obteniendo el reciproco de a esto es:

a -1 = 1 / a

a -1 = 1 / 0.0285636361919662

a -1 = 34.0095482689721

a -1 Significa que la probabilidad de ocurrencia es de uno en 34.

También tenemos lo que es el nivel de significancia o intervalo de confianza (I.C).

I.C. = 1 - a

I.C. = 1 - 0.0285636361919662

I.C. = 0.971436363808034

I.C. = 97.144 %

Tenemos entonces para nuestro ejemplo dos opciones.

1.-) Los resultados de esta muestra son producto exclusivamente del azar y ocurrió algo que ocurre una de cada 34 veces (hipótesis nula H0 ).

2.-) No ha ocurrido un hecho extraño con pocas posibilidades de ocurrencia sino que ha ocurrido un hecho común donde las variables se encuentran correlacionadas (hipótesis alternativa Ha ).

¿Cuál es la opción que tomaríamos para este caso?

Existe un criterio que es enteramente convencional pues no existe ninguna razón matemática para validarlo de que con valores de a menores o iguales a 0.05, se opta por la hipótesis alternativa Ha, esto es las variables están correlacionadas en tanto que para valores de a mayores de 0.05 se opta por la hipótesis nula H0, esto es las variables no están correlacionadas.

Una a = 0.05 implica un nivel de significancia de o intervalo de confianza (I.C.) de:

I.C. = 1 - a

I.C. = 1 – 0.05

I.C. = 0.95

I.C. = 95 %

A este criterio se le conoce como un nivel de significancia del 95 %

Si aplicamos este criterio a nuestro ejemplo, tenemos que:

a = 0.0285636361919662

0.0285636361919662 < 0.05

o

I.C. = 97.144 %

97.144 % > 95 %

Lo que implica la hipótesis alternativa Ha estos es que las variables GÉNERO Y CARRERA están correlacionadas.

Como podemos observar en la tabla de frecuencias esperadas ( TABLA 4 ), todas la frecuencias esperadas son mayores que 5, si el porcentaje de las frecuencias esperadas menores que 5 es mayor del 50 %, existe entonces una sobrestimación de la prueba de X2, en la siguiente tabla nos muestra los resultados obtenidos para las variables del ejemplo siendo c < 5 el porcentaje de frecuencias esperadas menores que 5, si este porcentaje es mayor del 50 %, debajo de la celda est (estimación) aparecerá la palabra s.e. (sobrestimada).

TABLA 6

var

var

Nombre

nombre

Alfa

I.C.

g.l.

c < 5

est

1

2

GENERO

CARRERA

0.028563636

0.971436364

2

0.00%

 

Si no existe correlación H0, el problema termina, pero si existe correlación Ha debemos determinar; el orden en que se correlacionan los diferentes valores y si esta correlación es fuerte o débil, positiva o negativa.

Para ello hacemos una tabla en la que ordenamos las combinaciones de los valores de las variables tomando como criterio empezando con el mas alto valor de la contribución a la suma de X2 y siguiendo en orden descendente de estos valores ( TABLA 5 ). Anotamos también el valor de la frecuencia observada ( TABLA 2 ) y el valor de la frecuencia esperada ( TABLA 4 ).

La siguienta tabla proviene del ejemplo que estamos trabajando.

TABLA 7

1

% de c < 5 =

0.00%

Xi 2 =

7.1112417

g.l. =

2

a =

0.0285636

I.C. =

0.9714364

prueba t para p

GENERO

CARRERA

Xi 2

SIGNO

Obser

Esper

Cond

%

%

masculino

Psicología

2.010328

menos

24

32.02

87.47%

170%

masculino

Ingeniería

1.980393

mas

39

31.15

87.09%

167%

femenino

Psicología

1.571097

mas

49

40.98

83.57%

133%

femenino

Ingeniería

1.547702

menos

32

39.85

83.11%

131%

masculino

Arquitectura

0.000967

mas

30

29.83

2.67%

0%

femenino

Arquitectura

0.000755

menos

38

38.17

2.42%

0%

Como podemos observar en la TABLA 5 el valor mas alto de la contribución a la suma de X2 es 2.010328 que le corresponde a masculino-psicología, de la TABLA 4. Vemos que su frecuencia esperada es de 32.0235849 en tanto que su frecuencia observada tomada de la TABLA 2 es de 24.

En la tabla observamos que en signo tiene la palabra menos esto es que el tipo de correlación es negativa pues el valor observado = 24 es menor que el valor esperado = 32.0235849; y que debido a que asumimos que existe correlación, la de mayor significancia sería esta de masculino-psicología de manera negativa, esto es los estudiantes de género masculino tienden a estudiar la carrera de psicología en una proporción menor a la esperada.

 

El segundo valor mas alto de la TABLA 5 de la contribución a la suma de X2 es 1.9803927 que le corresponde a masculino-ingeniería, de la TABLA 4 .Vemos que su frecuencia esperada es de 31.1462264 en tanto que su frecuencia observada tomada de la TABLA 2 es de 39.

En la tabla observamos que en signo tiene la palabra mas esto es que el tipo de correlación es positiva pues el valor observado = 39 es mayor que el valor esperado = 31.1462264; y que debido a que asumimos que existe correlación, la segunda de mayor significancia sería esta de masculino-ingeniería de manera positiva, esto es los estudiantes de género masculino tienden a estudiar la carrera de ingeniería en una proporción mayor a la esperada.

El tercer valor mas alto de la TABLA 5 de la contribución a la suma de X2 es 1.5710968 que le corresponde a femenino-psicología, de la TABLA 4 .Vemos que su frecuencia esperada es de 40.9764151 en tanto que su frecuencia observada tomada de la TABLA 2 es de 49.

En la tabla observamos que en signo tiene la palabra mas esto es que el tipo de correlación es positiva pues el valor observado = 49 es mayor que el valor esperado = 40.9764151; y que debido a que asumimos que existe correlación, la tercera de mayor significancia sería esta femenino-psicología de manera positiva, esto es los estudiantes de género femenino tienden a estudiar la carrera de psicología en una proporción mayor a la esperada.

El cuarto valor mas alto de la TABLA 5 de la contribución a la suma de X2 es 1.54770186 que le corresponde a femenino-ingeniería, de la TABLA 4 .Vemos que su frecuencia esperada es de 39.8537736 en tanto que su frecuencia observada tomada de la TABLA 2 es de 32.

En la tabla observamos que en signo tiene la palabra menos esto es que el tipo de correlación es negativa pues el valor observado = 32 es menor que el valor esperado = 39.8537736; y que debido a que asumimos que existe correlación, la cuarta de mayor significancia sería esta femenino-ingeniería de manera negativa, esto es los estudiantes de género femenino tienden a estudiar la carrera de ingeniería en una proporción menor a la esperada.

Por último vemos que la contribución a la contribución a la suma de X2 de parte de la carrera de arquitectura es pequeña 0.00096667 y 0.00075546 y que los valores observados son muy cercanos a los esperados

observado = 30 esperado = 29.83 genero masculino

observado = 38 esperado = 38.17 genero femenino

La cercanía de los valores esperados y observados nos indica que no podemos afirmar que existe coorrelación entre los valores masculino-arquitectura y femenino-arquitectura.

 

CONCLUSIONES

Con base al análisis hecho a este ejemplo se podrían llegar a las siguientes conclusiones:

Se encontró que existe una correlación entre el GÉNERO y LA CARRERA con un nivel de significancia del 97 % (I.C. = 0.971436363808034).

De los valores de las variables GÉNERO y CARRERA se encontró en el siguiente orden se significancia que:

El número de estudiantes de género masculino que estudian psicología es menor al esperado.

El número de estudiantes de género masculino que estudian ingeniería es mayor al esperado.

El número de estudiantes de género femenino que estudian psicología es mayor al esperado.

El número de estudiantes de género femenino que estudian ingeniería es menor al esperado.

No se encontró una correlación significativa entre el género y los estudiantes de arquitectura.

Obtener esta página en formato Word

Regresar a EJERCICIOS RESUELTOS DE MATEMÁTICAS


visitantes






















COMPARTE ESTA PÁGINA EN:
FACEBOOK, TWITTER O GOOGLE +