La prueba a realizar es de sí existe diferencia en los promedios para la los diferentes valores de las variables nominales; esta prueba se realiza para variables donde una tiene valores nominales y la otra tiene valores numéricos.
En el siguiente ejemplo, se tiene la calificación de una prueba a personas con diferentes grados de escolaridad, lo que se intenta es probar si existe o no diferencia entre el grado escolar (variable nominal ) y el promedio de la calificación ( variable numérica ).
Para analizar si existe diferencia en los promedios se procede a realizar una prueba F que se explica posteriormente.
TABLA 1
CALIFICACIÓN |
GRADO ESCOLAR |
CALIFICACIÓN |
GRADO ESCOLAR |
|
67.15204678 |
DOCTORADO |
39.5662768 |
ESTUDIANTE |
|
64.36842105 |
DOCTORADO |
39.07309942 |
ESTUDIANTE |
|
60.91130604 |
ESTUDIANTE |
38.71247563 |
DOCTORADO |
|
55.38986355 |
ESTUDIANTE |
34.95321637 |
ESTUDIANTE |
|
53.917154 |
ESTUDIANTE |
34.27777778 |
ESTUDIANTE |
|
53.3460039 |
MAESTRÍA |
34.27192982 |
ESTUDIANTE |
|
52.15984405 |
ESTUDIANTE |
67.63611386 |
DOCTORADO |
|
51.86842105 |
ESTUDIANTE |
62.77020467 |
DOCTORADO |
|
51.12768031 |
DOCTORADO |
60.88483775 |
ESTUDIANTE |
|
50.63060429 |
ESTUDIANTE |
56.50144025 |
ESTUDIANTE |
|
50.35477583 |
MAESTRÍA |
51.76861802 |
ESTUDIANTE |
|
48.38596491 |
MAESTRÍA |
53.63085832 |
MAESTRÍA |
|
47.07407407 |
DOCTORADO |
50.77179452 |
ESTUDIANTE |
|
44.09454191 |
MAESTRÍA |
50.89056506 |
ESTUDIANTE |
|
43.41520468 |
ESTUDIANTE |
48.66061841 |
DOCTORADO |
|
43.23781676 |
MAESTRÍA |
52.67230843 |
ESTUDIANTE |
|
41.82066277 |
ESTUDIANTE |
47.98778555 |
MAESTRÍA |
|
41.57212476 |
ESTUDIANTE |
48.23106247 |
MAESTRÍA |
|
41.21539961 |
MAESTRÍA |
46.83381069 |
DOCTORADO |
|
40.8245614 |
ESTUDIANTE |
45.52452004 |
MAESTRÍA |
|
40.79824561 |
ESTUDIANTE |
43.28708589 |
ESTUDIANTE |
|
33.09835159 |
ESTUDIANTE |
41.03983895 |
MAESTRÍA |
|
32.1839986 |
ESTUDIANTE |
41.53716416 |
ESTUDIANTE |
|
58.49961104 |
ESTUDIANTE |
43.38891669 |
ESTUDIANTE |
|
56.18983249 |
ESTUDIANTE |
39.98564149 |
MAESTRÍA |
|
51.46872891 |
ESTUDIANTE |
39.42669945 |
ESTUDIANTE |
|
53.4198814 |
MAESTRÍA |
38.45267793 |
ESTUDIANTE |
|
53.7674174 |
ESTUDIANTE |
39.80270585 |
ESTUDIANTE |
|
50.90286877 |
ESTUDIANTE |
37.09940719 |
ESTUDIANTE |
|
49.49529961 |
DOCTORADO |
41.13772888 |
DOCTORADO |
|
50.07639845 |
ESTUDIANTE |
34.4219837 |
ESTUDIANTE |
|
48.55589372 |
MAESTRÍA |
40.28758583 |
ESTUDIANTE |
LA PRUEBA F.
El primer paso es ordenar los datos de acuerdo al valor nominal que le corresponde para así obtener:
El número de datos, el promedio y la desviación estándar de cada uno de los valores nominales.
De la TABLA 1 obtenemos tres valores nominales que toma la variable GRADO ESCOLAR, estos tres valores son:
DOCTORADO, ESTUDIANTE Y MAESTRÍA.
La siguiente tabla nos muestra estos resultados.
TABLA 2
GRADO ESCOLAR |
|||||
CALIFICACIÓN |
TOTALES |
DOCTORADO |
ESTUDIANTE |
MAESTRÍA |
|
cuad med |
7133.522799 |
2828.000955 |
2089.735312 |
2215.78653 |
|
desviación |
8.477715089 |
10.44722904 |
8.383858417 |
4.69392914 |
|
media |
47.29390233 |
53.17895218 |
45.71362283 |
47.0721418 |
|
n |
64 |
11 |
39 |
14 |
|
SUMA CUADRADOS |
147677.5588 |
32199.45645 |
84170.66229 |
31307.4401 |
|
1 |
2 |
3 |
|||
67.15204678 |
60.91130604 |
53.3460039 |
|||
64.36842105 |
55.38986355 |
50.3547758 |
|||
51.12768031 |
53.917154 |
48.3859649 |
|||
47.07407407 |
52.15984405 |
44.0945419 |
|||
49.49529961 |
51.86842105 |
43.2378168 |
|||
38.71247563 |
50.63060429 |
41.2153996 |
|||
67.63611386 |
43.41520468 |
53.4198814 |
|||
62.77020467 |
41.82066277 |
48.5558937 |
|||
48.66061841 |
41.57212476 |
53.6308583 |
|||
46.83381069 |
40.8245614 |
47.9877855 |
|||
41.13772888 |
40.79824561 |
48.2310625 |
|||
33.09835159 |
45.52452 |
||||
32.1839986 |
41.0398389 |
||||
58.49961104 |
39.9856415 |
||||
56.18983249 |
|||||
51.46872891 |
|||||
53.7674174 |
|||||
50.90286877 |
|||||
50.07639845 |
|||||
39.5662768 |
|||||
39.07309942 |
|||||
34.95321637 |
|||||
34.27777778 |
|||||
34.27192982 |
|||||
60.88483775 |
|||||
56.50144025 |
|||||
51.76861802 |
|||||
50.77179452 |
|||||
50.89056506 |
|||||
52.67230843 |
|||||
43.28708589 |
|||||
41.53716416 |
|||||
43.38891669 |
|||||
39.42669945 |
|||||
38.45267793 |
|||||
39.80270585 |
|||||
37.09940719 |
|||||
34.4219837 |
|||||
40.28758583 |
Siendo:
Obtenemos:
Para nuestro ejemplo:
c = 3 número de columnas (número de valores nominales DOCTORADO, ESTUDIANTE Y MAESTRÍA)
n = 64 total de datos
n1 =11 DOCTORADO
n2 = 39 ESTUDIANTE
n3 =14 MAESTRÍA
CM =64 ( 47.29390233)2 =64(2236.713198) = 143149.6446
SCC = (11(2828.000955)+39(2089.735312)+14(2215.78653))-143149.6446
SCC = (31108.01051+81499.67717+31021.01142) ))-143149.6446
SCC = 143628.6991-143149.6446
SCC= 479.0544662
SCE = SCT SCC =4527.914147 479.0544662 = 4048.859681
g.l. 1 = c-1 = 3-1 = 2
g.l. 2 = n-c = 64 3 = 61
a (alfa) se obtendría mediante la siguiente integral:
Para ello necesitamos F, g.l. 1 y g.l. 2
Que son:
F =3.608710198
g.l. 1 = 2
g.l. 2 = 61
La función anterior no se puede integrar de manera explícita por lo que para resolverla es necesario usar métodos numéricos de integración.
Mediante las hojas de cálculo de Microsoft Excel es posible calcular el valor de a escribiendo para este ejemplo:
=DISTR.F(3.608710198, 2,61)
Ya que: F = 3.608710198 , g.l. 1 = 2 Y g.l. 2 = 61
Haciendo esto, obtenemos:
a = 0.033018211
El significado de a (alfa) y su interpretación
El método de análisis de varianza para comparación de promedios parte del supuesto inicial de que no existe diferencia entre los promedios y que los resultados de la muestra son producto exclusivamente del azar.
A este supuesto inicial se le conoce como la hipótesis nula y se le designa con H0.
Dada esta suposición el valor de a es la probabilidad de que se obtenga una muestra como la que se obtuvo sin que exista al menos una diferencia entre los promedios, si el valor de a es muy pequeño, entonces tenemos dos opciones:
1.-) Se obtuvo una muestra muy extraña y con escasas probabilidades de ocurrir.
2.-)La hipótesis nula de que no hay diferencia entre los promedios es falsa siendo que los valores observados ocurrieron no por azar sino porque existe al menos una pareja de valores nominales cuyos promedios son diferentes, A esta opción se le conoce como la hipótesis alternativa y se le denomina Ha.
Si el valor de a es muy pequeño, se opta por la segunda opción pues es una explicación mas plausible que las variables estén correlacionadas a que haya ocurrido un hecho rarísimo.
Para nuestro ejemplo tenemos que:
a = 0.033018211
Esto significa que la probabilidad sería un poco mayor al del 3 % para que ocurra una muestra como la que se obtuvo.
Otra forma de percibir la probabilidad de alfa es obteniendo el reciproco de a esto es:
a -1 = 1 / a
a -1 = 1 / 0.033018211
a -1 = 30.28631684
a -1 Significa que la probabilidad de ocurrencia es de uno en 30.
También tenemos lo que es el nivel de significancia o intervalo de confianza (I.C).
I.C. = 1 - a
I.C. = 1 - 0.033018211
I.C. = 0.966981789
I.C. = 96.698 %
Tenemos entonces para nuestro ejemplo dos opciones.
1.-) Los resultados de esta muestra son producto exclusivamente del azar y ocurrió algo que ocurre una de cada 30 veces (hipótesis nula H0 ).
2.-) No ha ocurrido un hecho extraño con pocas posibilidades de ocurrencia sino que ha ocurrido un hecho común donde existe al menos una pareja de valores nominales cuyos promedios son diferentes (hipótesis alternativa Ha ).
¿Cuál es la opción que tomaríamos para este caso?
Se tiene un criterio que es enteramente convencional pues no existe ninguna razón matemática para validarlo; de que con valores de a menores o iguales a 0.05, se opta por la hipótesis alternativa Ha, esto es que al menos una pareja de los valores nominales tienen promedios que son diferentes en tanto que para valores de a mayores de 0.05 se opta por la hipótesis nula H0, esto no hay ninguna diferencia estadísticamente significativa entre los promedios de los valores nominales.
Una a = 0.05 implica un nivel de significancia de o intervalo de confianza (I.C.) de:
I.C. = 1 - a
I.C. = 1 0.05
I.C. = 0.95
I.C. = 95 %
A este criterio se le conoce como un nivel de significancia del 95 %
Si aplicamos este criterio a nuestro ejemplo, tenemos que:
a = 0.033018211
0.033018211< 0.05
o
I.C. = 96.698 %
96.698 % > 95 %
Lo que implica la hipótesis alternativa Ha estos es existe al menos una pareja de valores nominales cuyos promedios son diferentes.
La siguiente tabla (TABLA 3) nos muestra el resultado del análisis de varianza entre la variable nominal GRADO ESCOLAR y la variable numérica CALIFICACIÓN como resultado de este ejemplo.
TABLA 3
Nombre |
nombre |
Alfa |
I.C. |
g.l. 1 |
g.l. 2 |
F |
CALIFICACIÓN |
GRADO ESCOLAR |
0.033018211 |
0.966981789 |
2 |
61 |
3.608710198 |
Si:
No existe ninguna diferencia estadísticamente significativa entre los promedios de los valores nominales H0 (hipótesis nula) el problema termina, pero si consideramos la hipótesis alternativa Ha tenemos que analizar en que pareja o parejas de valores, hay una diferencia estadísticamente significativa en el promedio, en nuestro ejemplo, nuestro nivel de significancia o intervalo de confianza rebasa muy ligeramente el criterio del 95 %.
Para analizar cada una de las parejas, se hace una prueba t de student para comparar si existe o no diferencia entre las dos medias.
La siguiente tabla (TABLA 4) nos muestra el nivel de significancia o intervalo de confianza I.C. en la prueba t de student para cada una de las combinaciones de los diferentes valores nominales.
TABLA 4
COMBINACIONES |
VALORES |
|||||||
3 |
3 |
|||||||
g.l. 1 |
g.l. 2 |
alfa |
I . C. crit |
var num |
Var nom |
F |
I . C. |
|
2 |
61 |
0.033018211 |
0.966981789 |
PROMEDIO TOTAL |
GRADO ESCOLAR |
3.609 |
95% |
valido |
t |
||||||||
n |
desvi |
media |
valor |
VALOR |
VALOR |
ALFA |
I . C . |
DIF |
11 |
10.44722904 |
53.17895218 |
DOCTORADO |
DOCTORADO |
ESTUDIANTE |
0.017 |
0.983 |
7.465 |
64 |
8.477715089 |
47.29390233 |
TOTALES |
DOCTORADO |
MAESTRIA |
0.062 |
0.938 |
6.107 |
14 |
4.693929139 |
47.07214178 |
MAESTRÍA |
ESTUDIANTE |
MAESTRIA |
0.569 |
0.431 |
-1.359 |
39 |
8.383858417 |
45.71362283 |
ESTUDIANTE |
CONCLUSIONES
Si tomamos el criterio de 95 %, veremos que solamente existe una diferencia estadísticamente significativa entre los valores nominales de DOCTORADO Y ESTUDIANTE pues el I.C. es del 98.3 %, en las otras dos parejas, DOCTORADO Y MAESTRÍA, el I.C. es de 93.8 % por lo que para el criterio del 95 % no existe diferencia significativa, si tomáramos como criterio un nivel de significancia del 90 %, entonces optaríamos por la hipótesis alternativa de que si hubiese diferencia entre las calificaciones de las personas de DOCTORADO Y MAESTRÍA. Finalmente para ESTUDIANTE Y MAESTRÍA el nivel de significancia I.C. es de 43.1 % por lo que no podemos afirmar que exista diferencia entre los promedios de ESTUDIANTE Y MAESTRÍA.
Obtener esta página en formato Word
Regresar a EJERCICIOS RESUELTOS DE MATEMÁTICAS
COMPARTE ESTA PÁGINA EN:
FACEBOOK, TWITTER O GOOGLE +
|