Pr‡ctica 2
Introducci—n
En esta pr‡ctica trabajaremos los intervalos de confianza y contrastes de hip—tesis (temas 1 y 2 de teor’a). Empezaremos por el estudio de una muestra de una variable continua, despuŽs seguiremos con el estudio para dos (para m‡s de dos, deberemos esperarnos a la pr‡ctica 4). Acabaremos con las pruebas para tablas de contingencia.
NOTA: Para la resoluci—n de cada ejercicio no mostrarŽ todo el resultado obtenido en el StatGraphics. Solamente mostrarŽ aquella parte que incluya el resultado del an‡lisis que queremos realizar.
Problemas
1-. En la variable Goles del fichero anterior, se recogen los goles anotados por la selecci—n espa–ola de fœtbol durante los a–os 2001, 2002 y 2003 (hasta la fecha). Estudia si la variable aleatoria X = Ònœmero de goles por partidoÓ se distribuye segœn una Poisson.
Goodness-of-Fit
Tests for Goles
Chi-Square =
2,9835 with 3 d.f. P-Value =
0,394173
The
StatAdvisor
---------------
This pane shows the results of
tests run to determine whether Goles
can be
adequately modeled by a Poisson distribution. The chi-square
test divides
the range of Goles into nonoverlapping intervals and
compares the
number of observations in each class to the number
expected
based on the fitted distribution.
Since the smallest P-value
amongst the tests performed is greater
than or
equal to 0.10, we can not reject the idea that Goles comes
from a
Poisson distribution with 90% or higher confidence.
El resultado que obtenemos es que no podemos rechazar que la variable aleatoria se distribuye como una Poisson con el 90% de confianza, como nos dice el StatAdvisor.
2-. El nœmero de terminales en uso en una empresa durante la hora de la comida se distribuye normalmente. Se ha tomado una muestra aleatoria de 40 observaciones del nœmero de terminales activos que se recogen en la variable Terminal.
2.a) Contrasta H0: m = 20 frente a H1 : m ¹ 20, usando a = 0.01 y establece las conclusiones a que llegues.
El resultado obtenido en el StatGraphics ha sido:
Hypothesis Tests for Terminal
Sample mean = 21,8
Sample median = 22,0
t-test
------
Null hypothesis: mean = 20,0
Alternative: not equal
Computed t statistic = 2,75402
P-Value = 0,00889565
Reject the null hypothesis for alpha = 0,01.
Nos dice que debemos rechazar la hip—tesis nula, es decir, el valor observado pertenece a la regi—n cr’tica; podemos observar tambiŽn que el p-valor obtenido es menor que a, lo cual tambiŽn nos conduce a rechazar la hip—tesis nula. Entonces, podemos concluir que m ¹ 20.
2.b) Usa una gr‡fica de probabilidad normal para probar el supuesto de normalidad.

Comprobamos gr‡ficamente que se trata de una distribuci—n normal puesto que los datos se ajustan a una recta.
2.c) Supongamos que si la media anterior es en realidad 22, es importante detectar este hecho con una probabilidad de al menos 0.9, Àcu‡l ser’a el tama–o muestral requerido? (usa a = 0.01 y la desviaci—n t’pica muestral para estimar la poblacional).
La desviaci—n t’pica ser‡:
Summary
Statistics for Terminal
Count = 40
Average = 21,8
Variance = 17,0872
Standard deviation
= 4,13366
DespuŽs de realizar los c‡lculos he obtenido:
Sample-Size
Determination
-------------------------
Parameter to
be estimated: normal mean
Desired
tolerance: +- 4,13366
Confidence
level: 99,0%
Assumed
sigma: 4,13366
The required
sample size is n=11 observations.
Segœn el cual, necesitaremos un tama–o muestral
de 11 muestras.
3-. Se quieren comparar dos programas de adiestramiento de robots rastreadores de una misma tipolog’a especialmente preparados para la detecci—n de intrusos. Se seleccionan al azar 10 robots para adiestrarlos con el mŽtodo A y 10 m‡s para adiestrarlos con el mŽtodo B. Acabados los programas de adiestramiento, se mide el tiempo que tardan los robots en localizar un intruso debidamente escondido. Los resultados se hallan en las variables mŽtodo A y mŽtodo B, respectivamente.
3.a) Representa el diagrama de cajas de ambas muestras en la misma gr‡fica.

3.b) Calcula el intervalo de confianza al 95% para comparar las varianzas de los tiempos para ambos mŽtodos, Àson diferentes?
Comparison
of Standard Deviations
---------------------------------
Metodo A
Metodo B
------------------------------------------------------------
Standard
deviation 3,29309
6,93542
Variance
10,8444
48,1
Df
9
9
Ratio of Variances =
0,225456
95,0%
Confidence Intervals
Standard deviation of
Metodo A: [2,2651;6,0119]
Standard deviation of
Metodo B: [4,77042;12,6614]
Ratio of Variances:
[0,0560001;0,907685]
F-test to
Compare Standard Deviations
Null hypothesis: sigma1 = sigma2
Alt. hypothesis: sigma1 NE sigma2
F = 0,225456 P-value = 0,0369476
El intervalo de confianza ser‡ Ratio of Variances: [0,0560001;0,907685]. El p-valor obtenido es menor que a=0.05, por lo que podemos rechazar la hip—tesis nula, es decir, hay razones para afirmar que hay diferencia entre las varianzas.
3.c) Calcula el intervalo de confianza para la diferencia de medias, y determina si existe diferencia entre los tiempos medios para ambos mŽtodos (ten en cuenta el resultado del apartado anterior y usa a = 0.05).
Como segœn el apartado anterior no podemos rechazar varianzas iguales, considerarŽ que ambas son iguales en este apartado.
Comparison of Means
-------------------
95,0% confidence interval for mean of Metodo A: 20,8 +/- 2,35574 [18,4443,23,1557]
95,0% confidence interval for mean of Metodo B: 23,9 +/- 4,96131 [18,9387,28,8613]
95,0% confidence interval for the difference between the means
assuming equal variances: -3,1 +/- 5,10073 [-8,20073,2,00073]
t test to compare means
Null hypothesis: mean1 = mean2
Alt. hypothesis: mean1 NE mean2
assuming equal variances: t = -1,27685 P-value = 0,217882
El intervalo de confianza ser‡ [-8,20073,2,00073]. El p-valor obtenido es mayor que a=0.05, por lo que no tenemos razones para afirmar que las medias son diferentes.
4-. En el art’culo ÒRobot scheduling in a circuit board production line: A hybrid OR/ANN approachÓ (IEEE Transactions 1993), se comparaba la planificaci—n humana en tiempo real en un entorno de procesamiento con un enfoque automatizado que utiliza robots computerizados y dispositivos sensores. El experimento consisti— en 8 problemas de planificaci—n simulados, de manera que cada tarea fue realizada tanto por un planificador humano como por el sistema automatizado. El desempe–o se midi— en tŽrminos de la tasa de rendimiento, definida como el nœmero de trabajos aceptables producidos ponderado segœn la calidad del producto. Las tasas de rendimiento obtenidas se encuentran en las variables Humano y Automatizado.
4.a) ÀSon muestras independientes o apareadas?
Son muestras apareadas, porque se trata de un mismo experimento, que consiste en 8 problemas, realizados por un planificador humano y por un sistema automatizado, de los cuales mediremos la tasa de rendimiento, que es lo que queremos contrastar.
4.b) Calcula el intervalo de confianza al 90% para la diferencia de medias y comenta si existe diferencia significativa entre ambas.
El intervalo de confianza que he obtenido ser‡ el siguiente:
Confidence Intervals for Automatizado-Humano
90,0% confidence interval for mean: 32,5625 +/- 23,466 [9,09651;56,0285]
Y el contraste de hip—tesis:
Hypothesis Tests for
Automatizado-Humano
Sample mean = 32,5625
Sample median = 30,4
t-test
------
Null hypothesis: mean = 0,0
Alternative: not equal
Computed t statistic = 2,62901
P-Value = 0,0339618
Reject the null hypothesis for alpha = 0,1.
Nos dice que rechacemos la hip—tesis nula, y
adem‡s el p-valor= 0.0339618 obtenido es menor que a=0.10, lo cual nos lleva a afirmar que las medias son distintas.
5-. Recupera los datos que generaste y guardaste en la pr‡ctica pasada (actividades 2 y 3) y contrasta (indicando tus conclusiones) en cada caso si se ajusta a la distribuci—n con la que se generaron: exponencial y normal.
5.a) Actividad 2.
Goodness-of-Fit
Tests for Col_2
Chi-Square =
12,06 with 11 d.f. P-Value =
0,35915
EDF
Statistic Value
Modified Form P-Value
---------------------------------------------------------------------
Kolmogorov-Smirnov
D 0,104406
1,05581 <0.10*
---------------------------------------------------------------------
The
StatAdvisor
---------------
This pane shows the results of
tests run to determine whether Col_2
can be
adequately modeled by an exponential distribution. The
chi-square
test divides the range of Col_2 into nonoverlapping
intervals
and compares the number of observations in each class to the
number
expected based on the fitted distribution. The
Kolmogorov-Smirnov
test computes the maximum distance between the
cumulative
distribution of Col_2 and the CDF of the fitted exponential
distribution. In this case, the maximum distance is
0,104406. The
other EDF
statistics compare the empirical distribution function to
the fitted
CDF in different ways.
Since the smallest P-value
amongst the tests performed is less than
0.10, we can
reject the idea that Col_2 comes from an exponential
distribution
with 90% confidence.
DespuŽs de realizar las operaciones adecuadas, el StatAdvisor nos dice que podemos rechazar con el 90% de confianza que nuestros datos vienen de una distribuci—n exponencial.
5.b)
Actividad 3.
Goodness-of-Fit Tests for Col_4
Chi-Square = 13,3502 with 14 d.f. P-Value = 0,499152
EDF
Statistic Value
Modified Form P-Value
---------------------------------------------------------------------
Kolmogorov-Smirnov D 0,0284041 0,403118 >=0.10*
---------------------------------------------------------------------
The StatAdvisor
---------------
This pane shows the results of tests run to determine whether Col_4
can be adequately modeled by a normal distribution. The chi-square
test divides the range of Col_4 into nonoverlapping intervals and
compares the number of observations in each class to the number
expected based on the fitted distribution. The Kolmogorov-Smirnov
test computes the maximum distance between the cumulative distribution
of Col_4 and the CDF of the fitted normal distribution. In this case,
the maximum distance is 0,0284041. The other EDF statistics compare
the empirical distribution function to the fitted CDF in different
ways.
Since the smallest P-value amongst the tests performed is greater
than or equal to 0.10, we can not reject the idea that Col_4 comes
from a normal distribution with 90% or higher confidence.
En este caso nos dice que no podemos rechazar que nuestros datos vienen de una distribuci—n normal al 90% de confianza. Sin embargo, no podemos afirmarlo completamente.
6-. Una industria fabrica ordenadores de tres
modelos A, B y C. Una vez fabricados se inspeccionan uno a uno y se clasifican
en tres categor’as: satisfactorios (S), con peque–as anomal’as (PA),
deficientes (D) y muy deficientes (MD).
Durante un mes se ha controlado cada uno de los ordenadores fabricados;
los resultados obtenidos se muestran en la tabla siguiente:
|
|
|
|
Tipolog’a |
|
|
|
|
|
S |
PA |
D |
MD |
|
|
A |
1213 |
215 |
52 |
23 |
|
Modelo |
B |
2408 |
442 |
92 |
35 |
|
|
C |
1820 |
328 |
74 |
29 |
Determina si las variables Tipolog’a de los ordenadores y Modelo son independientes (usa a = 0.05).
La gr‡fica que obtenemos es la siguiente:

Y despuŽs de realizar el test, el resultado obtenido es:
Chi-Square Test
------------------------------------------
Chi-Square Df P-Value
------------------------------------------
1,63 6 0,9503
------------------------------------------
The StatAdvisor
---------------
The chi-square test performs a hypothesis test to determine whether
or not to reject the idea that the row and column classifications are
independent. Since the P-value is greater than or equal to 0.10, we
cannot reject the hypothesis that rows and columns are independent.
Therefore, the observed row for a particular case may bear no relation
to its column.
Lo que nos dice el StatAdvisor es que no podemos rechazar la hip—tesis de que filas y columnas son independientes, aunque no podemos afirmarlo con toda confianza.
7-. En un estudio sobre problem‡ticas del Sistema Operativo realizado por un servicio inform‡tico, se obtuvo que de los 650 ordenadores que funcionaban con Linux, 44 tuvieron problemas; mientras que de los 347 que funcionaban con Windows, 49 tuvieron problemas. ÀEstar’a justificado afirmar que el porcentaje de ordenadores con problemas con Linux es menor que con Windows? Plantea el contraste de hip—tesis adecuado para responder a la pregunta (y resp—ndela usando a = 0.05). Nota: aunque obviamente este ejercicio puede resolverse sin realizar ningœn c‡lculo, demuestra tus conocimientos estad’sticos.
Se trata de un contraste de hip—tesis para la diferencia de dos proporciones, con N1 y N2 grandes. El planteamiento ser’a el siguiente:
![]()
Y tenemos los siguientes datos:

El resultado que obtenemos en el StatGraphics es el siguiente:
Hypothesis Tests
----------------
Sample proportions = 0,0677 and 0,1412
Sample sizes = 650 and 347
Approximate 95,0% upper confidence bound for difference between proportions: [-0,0387408]
Null Hypothesis: difference between proportions = 0,0
Alternative: less than
Computed z statistic = -3,80126
P-Value = 0,0000720049
Reject the null hypothesis for alpha = 0,05.
The StatAdvisor
---------------
This analysis shows the results of performing a hypothesis test
concerning the difference between the proportions (theta1-theta2) of
two samples from binomial distributions. The two hypotheses to be
tested are:
Null hypothesis: theta1-theta2 = 0,0
Alternative hypothesis: theta1-theta2 < 0,0
In the first sample of 650 observations, the sample proportion equals
0,0677. In the second sample of 347 observations, the sample
proportion equals 0,1412. Since the P-value for the test is less than
0,05, the null hypothesis is rejected at the 95,0% confidence level.
The confidence bound shows that the values of theta1-theta2 supported
by the data are less than or equal to -0,0387408.
Hemos comprobado que el valor obtenido se
encuentra dentro del intervalo, por lo que rechazamos H0 y podemos
afirmar que
, es decir, que el porcentaje de ordenadores con problemas en
Linux es menor que con Windows.