Distribución hipergeométrica
La distribución hipergeométrica es una distribución de probabilidad en estocástica . Es univariado y es una de las distribuciones de probabilidad discretas . A diferencia de la distribución hipergeométrica general , también se denomina distribución hipergeométrica clásica .
Los elementos se toman aleatoriamente de una población dicotómica en una muestra sin reemplazo . La distribución hipergeométrica luego proporciona información sobre la probabilidad con la que se producirá un cierto número de elementos en la muestra que tienen la propiedad deseada. Por tanto, esta distribución es importante para los controles de calidad , por ejemplo .
La distribución hipergeométrica se basa en el modelo de urna sin reemplazo (ver también combinación sin repetición ). En este contexto, se considera específicamente una urna con dos tipos de bolas. Las bolas se quitan sin reemplazarlas. La variable aleatoria es el número de bolas del primer tipo en esta muestra.
La distribución hipergeométrica describe así la probabilidad de que para elementos dados ("población de la circunferencia "), que tienen la propiedad deseada, se logren exactamente aciertos al seleccionar los especímenes ("muestra de la circunferencia ") . H. la probabilidad de éxito en los experimentos.
Ejemplo 1: Hay 30 bolas en una urna, 20 de las cuales son azules, por lo que 10 no son azules. ¿Cuál es la probabilidad p de sacar exactamente trece bolas azules de una muestra de veinte bolas (sin reemplazarlas)? Respuesta: p = 0.3096. Esto corresponde a la barra azul en k = 13 en el diagrama "Función de probabilidad de la distribución hipergeométrica para n = 20".
Ejemplo 2: Hay 45 bolas en una urna, 20 de las cuales son amarillas. ¿Cuál es la probabilidad p de sacar exactamente cuatro bolas amarillas de una muestra de diez bolas? Respuesta: p = 0,269. El ejemplo se calcula a continuación .
definición
La distribución hipergeométrica depende de tres parámetros:
- el número de elementos en una población .
- el número de elementos con una determinada propiedad en este conjunto básico (el número de posibles éxitos).
- el número de elementos en una muestra.
La distribución ahora proporciona información sobre la probabilidad de que los elementos con la propiedad que se va a verificar (éxitos o aciertos) estén en la muestra. El espacio resultado es por lo tanto .
Una variable aleatoria discreta está sujeta a la distribución hipergeométrica con los parámetros , y , si son las probabilidades
para los dueños. El coeficiente binomial denota " más ". Entonces escribe o .
La función de distribución indica entonces la probabilidad de que en la muestra se encuentren como máximo elementos con la propiedad que se va a probar. Esta probabilidad acumulada es la suma
- .
Parametrización alternativa
Ocasionalmente también se le llama función de probabilidad.
usado. Esto va con y en la variante anterior.
Propiedades de la distribución hipergeométrica
Simetrías
Se aplican las siguientes simetrías:
- Intercambia bolas extraídas y aciertos:
- Intercambia éxitos y fracasos:
Valor esperado
El valor esperado de la variable aleatoria distribuida hipergeométricamente es
- .
modo
El modo de distribución hipergeométrica es
- .
Aquí está el corchete gaussiano .
Diferencia
La varianza de la variable aleatoria distribuida hipergeométricamente es
- ,
La última fracción es el llamado factor de corrección (corrección de finitud ) en el modelo sin reemplazo.
Torcedura
La asimetría de la distribución hipergeométrica es
- .
Función característica
La función característica tiene la siguiente forma:
Por lo que denota la función hipergeométrica gaussiana .
Función generadora de momentos
La función generadora de momentos también se puede expresar usando la función hipergeométrica:
Función generadora de probabilidad
La función generadora de probabilidad se da como
Relación con otras distribuciones
Relación con la distribución binomial
A diferencia de la distribución binomial , con la distribución hipergeométrica, las muestras no se devuelven al depósito para su posterior selección. Si el tamaño de la muestra es relativamente pequeño (aproximadamente ) en comparación con el tamaño de la población , las probabilidades calculadas por la distribución binomial y la distribución hipergeométrica no difieren significativamente entre sí. En estos casos, la aproximación se suele realizar mediante la distribución binomial, que es matemáticamente más fácil de manejar.
Relación con la distribución de Pólya
La distribución hipergeométrica es un caso especial de la distribución de Pólya (elegir ).
Relación con el modelo de urna
La distribución hipergeométrica surge de la distribución uniforme discreta a través del modelo de urna . De una urna con un total de bolas se colorean y se extraen bolas. La distribución hipergeométrica indica la probabilidad de que se dibujen esferas de colores. De lo contrario, la distribución binomial también se puede utilizar para modelar en la práctica. Vea también el ejemplo.
Relación con la distribución hipergeométrica multivariante
La distribución hipergeométrica multivariante es una generalización de la distribución hipergeométrica. Responde a la pregunta sobre el número de bolas de un color extraídas de una urna si la urna contiene más de dos colores distinguibles de bolas. Para dos colores concuerda con la distribución hipergeométrica.
Ejemplos de
Varios ejemplos
Hay 45 bolas en un recipiente, 20 de las cuales son amarillas. Se retiran 10 bolas sin reponer.
La distribución hipergeométrica indica la probabilidad de que exactamente x = 0, 1, 2, 3, ..., 10 de las bolas extraídas sean amarillas.
Un ejemplo de la aplicación práctica de la distribución hipergeométrica es la lotería : en la lotería de números hay 49 bolas numeradas; 6 de estos se dibujarán en el sorteo; Se cruzan 6 números en el billete de lotería.
indica la probabilidad de lograr exactamente x = 0, 1, 2, 3, ..., 6 "aciertos".
Ejemplo de cálculo detallado para las bolas
Para el ejemplo de las bolas de colores dadas anteriormente, se determinará la probabilidad de que resulten exactamente 4 bolas amarillas.
Número total de bolas | |
Número con la propiedad "amarillo" | |
Tamaño de la muestra | |
Apuntado al amarillo |
Entonces .
La probabilidad resulta de:
- Número de posibilidades para elegir exactamente 4 bolas amarillas (y por lo tanto exactamente 6 moradas)
- dividido por
- Número de formas de elegir exactamente 10 bolas de cualquier color
Hay
Formas de elegir exactamente 4 bolas amarillas.
Hay
Formas de elegir exactamente 6 bolas moradas.
Dado que cada "posibilidad amarilla" se puede combinar con cada "posibilidad púrpura", esto da como resultado
Posibilidades para exactamente 4 bolas amarillas y 6 moradas.
Hay en total
Formas de sacar 10 bolas.
Entonces obtenemos la probabilidad
- ,
es decir, en alrededor del 27 por ciento de los casos, se eliminan exactamente 4 bolas amarillas (y 6 púrpuras).
Alternativamente, el resultado también se puede encontrar usando la siguiente ecuación
Hay 4 bolas amarillas en la muestra . Las bolas amarillas restantes (16) están en las 35 bolas restantes que no forman parte de la muestra.
Valores numéricos para los ejemplos
|
|
X | Número de posibles resultados |
Probabilidad en% |
---|---|---|
0 | 6.096.454 | 43.5965 |
1 | 5.775.588 | 41.3019 |
2 | 1.851.150 | 13.2378 |
3 | 246.820 | 1.765 |
Cuarto | 13,545 | 0.0969 |
5 | 258 | 0,0018 |
Sexto | 1 | 0,0000072 |
∑ | 13,983,816 | 100.0000 |
Valor esperado | 0,7347 | |
Diferencia | 0.5776 |
enlaces web
Evidencia individual
- ↑ Hans-Otto Georgii: Estocástico . Introducción a la teoría de la probabilidad y la estadística. 4ª edición. Walter de Gruyter, Berlín 2009, ISBN 978-3-11-021526-7 , págs. 36 , doi : 10.1515 / 9783110215274 .