Pr‡ctica 2

Introducci—n

En esta pr‡ctica trabajaremos los intervalos de confianza y contrastes de hip—tesis (temas 1 y 2 de teor’a). Empezaremos por el estudio de una muestra de una variable continua, despuŽs seguiremos con el estudio para dos (para m‡s de dos, deberemos esperarnos a la pr‡ctica 4). Acabaremos con las pruebas para tablas de contingencia.

NOTA: Para la resoluci—n de cada ejercicio no mostrarŽ todo el resultado obtenido en el StatGraphics. Solamente mostrarŽ aquella parte que incluya el resultado del an‡lisis que queremos realizar.

Problemas

1-. En la variable Goles del fichero anterior, se recogen los goles anotados por la selecci—n espa–ola de fœtbol durante los a–os 2001, 2002 y 2003 (hasta la fecha).  Estudia si la variable aleatoria X = Ònœmero de goles por partidoÓ se distribuye segœn una Poisson.

Goodness-of-Fit Tests for Goles

 

Chi-Square = 2,9835 with 3 d.f.   P-Value = 0,394173

 

The StatAdvisor

---------------

   This pane shows the results of tests run to determine whether Goles

can be adequately modeled by a Poisson distribution.  The chi-square

test divides the range of Goles into nonoverlapping intervals and

compares the number of observations in each class to the number

expected based on the fitted distribution. 

   Since the smallest P-value amongst the tests performed is greater

than or equal to 0.10, we can not reject the idea that Goles comes

from a Poisson distribution with 90% or higher confidence.

El resultado que obtenemos es que no podemos rechazar que la variable aleatoria se distribuye como una Poisson con el 90% de confianza, como nos dice el StatAdvisor.

2-. El nœmero de terminales en uso en una empresa durante la hora de la comida se distribuye normalmente. Se ha tomado una muestra aleatoria de 40 observaciones del nœmero de terminales activos que se recogen en la variable Terminal.

2.a) Contrasta H0: m = 20 frente a H1 : m ¹ 20, usando a = 0.01 y establece las conclusiones a que llegues.

El resultado obtenido en el StatGraphics ha sido:

Hypothesis Tests for Terminal

 

Sample mean = 21,8

Sample median = 22,0

 

 

t-test

------

Null hypothesis: mean = 20,0

Alternative: not equal

 

Computed t statistic = 2,75402

P-Value = 0,00889565

 

Reject the null hypothesis for alpha = 0,01.

Nos dice que debemos rechazar la hip—tesis nula, es decir, el valor observado pertenece a la regi—n cr’tica; podemos observar tambiŽn que el p-valor obtenido es menor que a, lo cual tambiŽn nos conduce a rechazar la hip—tesis nula. Entonces, podemos concluir que m ¹ 20.

2.b) Usa una gr‡fica de probabilidad normal para probar el supuesto de normalidad.

Comprobamos gr‡ficamente que se trata de una distribuci—n normal puesto que los datos se ajustan a una recta.

2.c) Supongamos que si la media anterior es en realidad 22, es importante detectar este hecho con una probabilidad de al menos 0.9, Àcu‡l ser’a el tama–o muestral requerido? (usa a = 0.01 y la desviaci—n t’pica muestral para estimar la poblacional).

La desviaci—n t’pica ser‡:

Summary Statistics for Terminal

 

Count = 40

Average = 21,8

Variance = 17,0872

Standard deviation = 4,13366

DespuŽs de realizar los c‡lculos he obtenido:

Sample-Size Determination

-------------------------

 

Parameter to be estimated: normal mean

Desired tolerance: +- 4,13366

Confidence level: 99,0%

Assumed sigma: 4,13366

 

The required sample size is n=11 observations.

Segœn el cual, necesitaremos un tama–o muestral de 11 muestras.

3-. Se quieren comparar dos programas de adiestramiento de robots rastreadores de una misma tipolog’a especialmente preparados para la detecci—n de intrusos. Se seleccionan al azar 10 robots para adiestrarlos con el mŽtodo A y 10 m‡s para adiestrarlos con el mŽtodo B. Acabados los programas de adiestramiento, se mide el tiempo que tardan los robots en localizar un intruso debidamente escondido. Los resultados se hallan en las variables mŽtodo A y mŽtodo B, respectivamente.

3.a) Representa el diagrama de cajas de ambas muestras en la misma gr‡fica.

3.b) Calcula el intervalo de confianza al 95% para comparar las varianzas de los tiempos para ambos mŽtodos, Àson diferentes?

Comparison of Standard Deviations

---------------------------------

 

                    Metodo A            Metodo B           

------------------------------------------------------------

Standard deviation  3,29309             6,93542

Variance            10,8444             48,1

Df                  9                   9              

 

     Ratio of Variances = 0,225456

 

95,0% Confidence Intervals

     Standard deviation of Metodo A: [2,2651;6,0119]

     Standard deviation of Metodo B: [4,77042;12,6614]

     Ratio of Variances: [0,0560001;0,907685]

 

F-test to Compare Standard Deviations

 

   Null hypothesis: sigma1 = sigma2

   Alt. hypothesis: sigma1 NE sigma2

   F = 0,225456   P-value = 0,0369476

El intervalo de confianza ser‡ Ratio of Variances: [0,0560001;0,907685]. El p-valor obtenido es menor que a=0.05, por lo que podemos rechazar la hip—tesis nula, es decir, hay razones para afirmar que hay diferencia entre las varianzas.

3.c) Calcula el intervalo de confianza para la diferencia de medias, y determina si existe diferencia entre los tiempos medios para ambos mŽtodos (ten en cuenta el resultado del apartado anterior y usa a = 0.05).

Como segœn el apartado anterior no podemos rechazar varianzas iguales, considerarŽ que ambas son iguales en este apartado.

Comparison of Means

-------------------

 

95,0% confidence interval for mean of Metodo A: 20,8 +/- 2,35574   [18,4443,23,1557]

95,0% confidence interval for mean of Metodo B: 23,9 +/- 4,96131   [18,9387,28,8613]

95,0% confidence interval for the difference between the means

   assuming equal variances: -3,1 +/- 5,10073   [-8,20073,2,00073]

 

t test to compare means

 

   Null hypothesis: mean1 = mean2

   Alt. hypothesis: mean1 NE mean2

      assuming equal variances: t = -1,27685   P-value = 0,217882

El intervalo de confianza ser‡ [-8,20073,2,00073]. El p-valor obtenido es mayor que a=0.05, por lo que no tenemos razones para afirmar que las medias son diferentes.

4-. En el art’culo ÒRobot scheduling in a circuit board production line: A hybrid OR/ANN approachÓ (IEEE Transactions 1993), se comparaba la planificaci—n humana en tiempo real en un entorno de procesamiento con un enfoque automatizado que utiliza robots computerizados y dispositivos sensores. El experimento consisti— en 8 problemas de planificaci—n simulados, de manera que cada tarea fue realizada tanto por un planificador humano como por el sistema automatizado. El desempe–o se midi— en tŽrminos de la tasa de rendimiento, definida como el nœmero de trabajos aceptables producidos ponderado segœn la calidad del producto. Las tasas de rendimiento obtenidas se encuentran en las variables Humano y Automatizado.

4.a) ÀSon muestras independientes o apareadas?

Son muestras apareadas, porque se trata de un mismo experimento, que consiste en 8 problemas, realizados por un planificador humano y por un sistema automatizado, de los cuales mediremos la tasa de rendimiento, que es lo que queremos contrastar.

4.b) Calcula el intervalo de confianza al 90% para la diferencia de medias y comenta si existe diferencia significativa entre ambas.

El intervalo de confianza que he obtenido ser‡ el siguiente:

Confidence Intervals for Automatizado-Humano

 

90,0% confidence interval for mean: 32,5625 +/- 23,466   [9,09651;56,0285]

Y el contraste de hip—tesis:

 

Hypothesis Tests for Automatizado-Humano

 

Sample mean = 32,5625

Sample median = 30,4

 

 

t-test

------

Null hypothesis: mean = 0,0

Alternative: not equal

 

Computed t statistic = 2,62901

P-Value = 0,0339618

 

Reject the null hypothesis for alpha = 0,1.

Nos dice que rechacemos la hip—tesis nula, y adem‡s el p-valor= 0.0339618 obtenido es menor que a=0.10, lo cual nos lleva a afirmar que las medias son distintas.

5-. Recupera los datos que generaste y guardaste en la pr‡ctica pasada (actividades 2 y 3) y contrasta (indicando tus conclusiones) en cada caso si se ajusta a la distribuci—n con la que se generaron: exponencial y normal.

5.a) Actividad 2.

Goodness-of-Fit Tests for Col_2

 

Chi-Square = 12,06 with 11 d.f.   P-Value = 0,35915

 

EDF Statistic          Value           Modified Form   P-Value

---------------------------------------------------------------------

Kolmogorov-Smirnov D   0,104406        1,05581         <0.10*

---------------------------------------------------------------------

 

The StatAdvisor

---------------

   This pane shows the results of tests run to determine whether Col_2

can be adequately modeled by an exponential distribution.  The

chi-square test divides the range of Col_2 into nonoverlapping

intervals and compares the number of observations in each class to the

number expected based on the fitted distribution.  The

Kolmogorov-Smirnov test computes the maximum distance between the

cumulative distribution of Col_2 and the CDF of the fitted exponential

distribution.  In this case, the maximum distance is 0,104406.  The

other EDF statistics compare the empirical distribution function to

the fitted CDF in different ways.

   Since the smallest P-value amongst the tests performed is less than

0.10, we can reject the idea that Col_2 comes from an exponential

distribution with 90% confidence.

DespuŽs de realizar las operaciones adecuadas, el StatAdvisor nos dice que podemos rechazar con el 90% de confianza que nuestros datos vienen de una distribuci—n exponencial.

5.b) Actividad 3.

Goodness-of-Fit Tests for Col_4

 

Chi-Square = 13,3502 with 14 d.f.   P-Value = 0,499152

 

EDF Statistic          Value           Modified Form   P-Value

---------------------------------------------------------------------

Kolmogorov-Smirnov D   0,0284041       0,403118        >=0.10*

---------------------------------------------------------------------

 

The StatAdvisor

---------------

   This pane shows the results of tests run to determine whether Col_4

can be adequately modeled by a normal distribution.  The chi-square

test divides the range of Col_4 into nonoverlapping intervals and

compares the number of observations in each class to the number

expected based on the fitted distribution.  The Kolmogorov-Smirnov

test computes the maximum distance between the cumulative distribution

of Col_4 and the CDF of the fitted normal distribution.  In this case,

the maximum distance is 0,0284041.  The other EDF statistics compare

the empirical distribution function to the fitted CDF in different

ways.

   Since the smallest P-value amongst the tests performed is greater

than or equal to 0.10, we can not reject the idea that Col_4 comes

from a normal distribution with 90% or higher confidence.

En este caso nos dice que no podemos rechazar que nuestros datos vienen de una distribuci—n normal al 90% de confianza. Sin embargo, no podemos afirmarlo completamente.

 

6-. Una industria fabrica ordenadores de tres modelos A, B y C. Una vez fabricados se inspeccionan uno a uno y se clasifican en tres categor’as: satisfactorios (S), con peque–as anomal’as (PA), deficientes (D) y muy deficientes (MD).  Durante un mes se ha controlado cada uno de los ordenadores fabricados; los resultados obtenidos se muestran en la tabla siguiente:

 

 

 

Tipolog’a

 

 

 

 

S

PA

D

MD

 

A

1213

215

52

23

Modelo

B

2408

442

92

35

 

C

1820

328

74

29

Determina si las variables Tipolog’a de los ordenadores y Modelo son independientes (usa a = 0.05).

La gr‡fica que obtenemos es la siguiente:

Y despuŽs de realizar el test, el resultado obtenido es:

Chi-Square Test

------------------------------------------

      Chi-Square        Df         P-Value

------------------------------------------

            1,63         6          0,9503

------------------------------------------

 

The StatAdvisor

---------------

   The chi-square test performs a hypothesis test to determine whether

or not to reject the idea that the row and column classifications are

independent.  Since the P-value is greater than or equal to 0.10, we

cannot reject the hypothesis that rows and columns are independent.

Therefore, the observed row for a particular case may bear no relation

to its column.

Lo que nos dice el StatAdvisor es que no podemos rechazar la hip—tesis de que filas y columnas son independientes, aunque no podemos afirmarlo con toda confianza.

7-. En un estudio sobre problem‡ticas del Sistema Operativo realizado por un servicio inform‡tico, se obtuvo que de los 650 ordenadores que funcionaban con Linux, 44 tuvieron problemas; mientras que de los 347 que funcionaban con Windows, 49 tuvieron problemas. ÀEstar’a justificado afirmar que el porcentaje de ordenadores con problemas con Linux es menor que con Windows? Plantea el contraste de hip—tesis adecuado para responder a la pregunta (y resp—ndela usando a = 0.05). Nota: aunque obviamente este ejercicio puede resolverse sin realizar ningœn c‡lculo, demuestra tus conocimientos estad’sticos.

Se trata de un contraste de hip—tesis para la diferencia de dos proporciones, con N1 y N2 grandes. El planteamiento ser’a el siguiente:

Y tenemos los siguientes datos:

El resultado que obtenemos en el StatGraphics es el siguiente:

Hypothesis Tests

----------------

Sample proportions = 0,0677 and 0,1412

Sample sizes = 650 and 347

 

Approximate 95,0% upper confidence bound for difference between proportions: [-0,0387408]

 

Null Hypothesis: difference between proportions = 0,0

Alternative: less than

Computed z statistic = -3,80126

P-Value = 0,0000720049

Reject the null hypothesis for alpha = 0,05.

 

 

The StatAdvisor

---------------

   This analysis shows the results of performing a hypothesis test

concerning the difference between the proportions (theta1-theta2) of

two samples from binomial distributions.  The two hypotheses to be

tested are:

 

   Null hypothesis:        theta1-theta2 = 0,0

   Alternative hypothesis: theta1-theta2 < 0,0

 

In the first sample of 650 observations, the sample proportion equals

0,0677.  In the second sample of 347 observations, the sample

proportion equals 0,1412.  Since the P-value for the test is less than

0,05, the null hypothesis is rejected at the 95,0% confidence level.

The confidence bound shows that the values of theta1-theta2 supported

by the data are less than or equal to -0,0387408.

Hemos comprobado que el valor obtenido se encuentra dentro del intervalo, por lo que rechazamos H0 y podemos afirmar que, es decir, que el porcentaje de ordenadores con problemas en Linux es menor que con Windows.

 



Alojamiento con 500GB de espacio y 5000GB de ancho de banda por 4 euros al mes
Cómo contratar servicios de hosting con Dreamhost
Descuento, promocode para dreamhost de $50