Método Jaccknife y Bootstrap Estimación de la tedencia (bias) Método de Jackknife θ es un parámetro asociado a la distribución F. suponiendo que se tiene una muestra al azar de x = (x1, x2,…, xn) y un estimador de θ, para estimar la tendencia y el error estándar de . Donde x(i) es la muestra pero eliminando la observación i-ésima X(i) = (x1, x2, xi-1, xi+1,…, xn) x(i) es la muestra Jackknife ith. El método de estimación de Jackknife está basado en n muestras de Jackknife x(i)(i=1,2,…,n). Suponiendo que para alguna función g de los datos. La replicaicon i-ésima de Jackknife de es
Considerando el siguiente ejemplo donde θ es igual a σ o Se tiene n=20 valores. La raíz cuadrada de la tendencia del estimador de la varianza Filas etiquetadas 1 a 20 tiene un valor de retirada, dejando 19 valores restantes. El joven de 19 valores en las columnas 1 a 20 forman las 20 muestras Jackknife. La i-ésima replicación de Jackknife es
calculado de 19 valores (sin
xi) en la muestra i-ésima jackknife. Los valores se dan en la primera SD columna. Teniendo: . La estimación de la tendencia de Jackknife está definida por: La tendencia de un estimador es O(1/n). Muchas estadísticas tienen la propiedad , el MLE de σ2, que tiene una tendencia de -σ2/n. Es así, que 0 se converge en 1/n. Matemáticamente, esto implica que depende de n. O en términos de tendencias:
También se observa que
donde A(F) es una función que no
Por esto, la expectativa de la tendencia del estimado es:
que es la tendencia de ( . Así, la tendencia para este caso especial.
es un estimador sin tendencia de
Ahora se considera un caso más general donde es el valor esperado de asumiendo una muestra al azar de tamaño n. para muchos estimadores (incluyendo los estimadores más probables), la expectativa tiene la forma:
La expectativa de tendencia de
es:
La corrección de la estimación de jackknife de
es
que tiene la siguiente expectativa:
Para este caso general, es la tendencia (en comparación al estimador original que era . Por tanto, si bien continua siendo la tendencia (asumiendo al menos un para algún ), la tendencia de es reducida en comparación a la estimación no ajustada. Estimación de error estándar Se usa el promedio de la muestra como el estimador
Para ver la relación con la estimación jackknife, se puede denotar la media eliminado la i-ésima observación como: Por tanto
se denota como:
Es posible determinar una observación de la media de una muestra y de la media de la muestra con la i-ésima observación eliminada.
es el i-ésimo pseudo-valor.
Donde el promedio de los pseudo-valores es:
que es la corrección de la estimación de la tendencia. Que es,
donde el error estándar de jackknife de
.
es
Ejemplo En base a los datos: Obs
y1
y2
1
.
0.69
2
3.56
.
3
3.56
0.69
4
3.56
0.69
5
3.56
6 7
y3
y4
y5
y6
y7
y8
y9
0.1
1.84
3.93
1.25
0.18
1.13
0.27
0.1
1.84
3.93
1.25
0.18
1.13
1.84
3.93
1.25
0.18
1.13
0.1
.
3.93
1.25
0.18
0.69
0.1
1.84
.
1.25
3.56
0.69
0.1
1.84
3.93
3.56
0.69
0.1
1.84
3.93
.
y10
y11
y12
y13
y14
y15
0.5
0.67
0.01
0.61
0.82
1.7
0.27
0.5
0.67
0.01
0.61
0.82
1.7
0.27
0.5
0.67
0.01
0.61
0.82
1.7
1.13
0.27
0.5
0.67
0.01
0.61
0.82
1.7
0.18
1.13
0.27
0.5
0.67
0.01
0.61
0.82
1.7
.
0.18
1.13
0.27
0.5
0.67
0.01
0.61
0.82
1.7
1.25
.
1.13
0.27
0.5
0.67
0.01
0.61
0.82
1.7
8
3.56
0.69
0.1
1.84
3.93
1.25
0.18
.
0.27
0.5
0.67
0.01
0.61
0.82
1.7
9
3.56
0.69
0.1
1.84
3.93
1.25
0.18
1.13
.
0.5
0.67
0.01
0.61
0.82
1.7
10
3.56
0.69
0.1
1.84
3.93
1.25
0.18
1.13
0.27
0.67
0.01
0.61
0.82
1.7
11
3.56
0.69
0.1
1.84
3.93
1.25
0.18
1.13
0.27
0.5
.
0.01
0.61
0.82
1.7
12
3.56
0.69
0.1
1.84
3.93
1.25
0.18
1.13
0.27
0.5
0.67
.
0.61
0.82
1.7
13
3.56
0.69
0.1
1.84
3.93
1.25
0.18
1.13
0.27
0.5
0.67
0.01
.
0.82
1.7
14
3.56
0.69
0.1
1.84
3.93
1.25
0.18
1.13
0.27
0.5
0.67
0.01
0.61
.
1.7
15
3.56
0.69
0.1
1.84
3.93
1.25
0.18
1.13
0.27
0.5
0.67
0.01
0.61
0.82
16
3.56
0.69
0.1
1.84
3.93
1.25
0.18
1.13
0.27
0.5
0.67
0.01
0.61
0.82
1.7
17
3.56
0.69
0.1
1.84
3.93
1.25
0.18
1.13
0.27
0.5
0.67
0.01
0.61
0.82
1.7
18
3.56
0.69
0.1
1.84
3.93
1.25
0.18
1.13
0.27
0.5
0.67
0.01
0.61
0.82
1.7
19
3.56
0.69
0.1
1.84
3.93
1.25
0.18
1.13
0.27
0.5
0.67
0.01
0.61
0.82
1.7
20
3.56
0.69
0.1
1.84
3.93
1.25
0.18
1.13
0.27
0.5
0.67
0.01
0.61
0.82
1.7
.
.
Los que se ingresan al programa SAS o MATLAB, para calcular, la media, el desvío estándar, la varianza: Obs y16 y17 y18 y19 y20 jmean jstd jvar jstdn jvarn 1 0.39 0.11 1.2 1.21 0.72 0.91211 0.90292 0.81526 0.87884 0.77235 2 0.39 0.11 1.2 1.21 0.72 1.06316 1.08534 1.17796 1.05639 1.11596 3 0.39 0.11 1.2 1.21 0.72 1.09421 1.06449 1.13314 1.0361 1.0735 4 0.39 0.11 1.2 1.21 0.72 1.00263 1.07159 1.1483 1.04301 1.08786 5 0.39 0.11 1.2 1.21 0.72 0.89263 0.8357 0.6984 0.81341 0.66164 6 0.39 0.11 1.2 1.21 0.72 1.03368 1.08758 1.18284 1.05858 1.12058 7 0.39 0.11 1.2 1.21 0.72 1.09 1.06846 1.1416 1.03996 1.08152 8 0.39 0.11 1.2 1.21 0.72 1.04 1.08852 1.18488 1.05949 1.12252 9 0.39 0.11 1.2 1.21 0.72 1.08526 1.07249 1.15023 1.04388 1.08969 10 0.39 0.11 1.2 1.21 0.72 1.07316 1.08073 1.16797 1.0519 1.1065 11 0.39 0.11 1.2 1.21 0.72 1.06421 1.08494 1.1771 1.05601 1.11515 12 0.39 0.11 1.2 1.21 0.72 1.09895 1.05959 1.12272 1.03132 1.06363 13 0.39 0.11 1.2 1.21 0.72 1.06737 1.08364 1.17426 1.05473 1.11246 14 0.39 0.11 1.2 1.21 0.72 1.05632 1.08736 1.18236 1.05836 1.12013 15 0.39 0.11 1.2 1.21 0.72 1.01 1.07712 1.16018 1.04839 1.09912 16 . 0.11 1.2 1.21 0.72 1.07895 1.07715 1.16025 1.04842 1.09919 17 0.39 . 1.2 1.21 0.72 1.09368 1.06501 1.13424 1.0366 1.07454 18 0.39 0.11 . 1.21 0.72 1.03632 1.08807 1.18389 1.05905 1.12158 19 0.39 0.11 1.2 . 0.72 1.03579 1.08798 1.1837 1.05896 1.1214 20 0.39 0.11 1.2 1.21 . 1.06158 1.08589 1.17915 1.05692 1.11709 Asimismo jackknife estima la media: Obs
dotmean
smean
biasmean corrmean sejmean
1
1.0445
1.0445
0
1.0445
0.23695
La desviación estándar (utilizando s) Obs
dotstd Sstd biasstd corrstd sejstd 1 1.05773 1.05968 -0.0371 1.09678 0.28028 La varianza (utilizando s al cuadrado) Obs
dotvar svar biasvar corrvar sejvar 1 1.12292 1.12292 0 1.12292 0.54424
La desviación estándar (utilizando n en el dominador) Obs
dotstdn sstdn biasstdn corrstdn sejstdn 1 1.02952 1.03285 -0.0633 1.09616 0.2728
La varianza (utilizando n en el dominador) Obs
dotvarn svarn biasvarn corrvarn sejvarn 1 1.06382 1.06677 -0.0562 1.12292 0.5156
Método de Bootstrap Teniendo: X(i) = (x1, x2, xi-1, xi+1,…, xn) de tamaño n, tomado de una distribución que es desconocida. Donde la media de la muestra es , siendo un estadístico usado para estimar la verdadera media Estimación de error estándar de
es:
Es posible determinar una observación de la media de una muestra y de la media de la muestra con la i-ésima observación eliminada. donde bootstrap.
es la media de la muestra de las replicaciones B de
Las tendencias de calculada remplazando la distribución F con .
donde
como un estimador
de es
Entonces, la corrección de la estimación de tendencias de
es:
Ejemplo: considernado un n = 10, teniendo los valores de y: 0 1 2 3 4 8 8 9 10 11, siguiendo la salida del MATLAB, basado en B=40 replicaciones de Bootstrap en la media de la muestra , la desviación estándar s y la varianza s2, y la mediana de la muestra Introductory Bootstrapping Example The Data 0 1 2 3 4 8 8 9 10 11 theta(hat) values for mean, standard deviation, variance, median mean s variance median 5.6000 4.0332 16.2667 6.0000 The number of bootstrap samples B = 40
Referencias: John Borkowski, 2008. Advanced Sampling Techniques. Resampling Methods: The Jackknife and Bootstrap. Montana, Estados Unidos. http://www.math.montana.edu/~jobo/thai/