Estadística Inferencial

La estadística inferencial aborda los métodos y técnicas que permiten estimar características de una población a partir de datos obtenidos de una muestra representativa. Esto es especialmente útil cuando estudiar a toda la población es inviable debido a su tamaño o al costo asociado.

El propósito principal de la estadística inferencial es relacionar los valores obtenidos de la muestra (estadísticos) con los parámetros de la población, deduciendo propiedades generales de esta última a partir de los datos muestrales. Estos procedimientos generan inferencias que permiten estimar los parámetros poblacionales con un grado de confianza asociado.


Métodos de la Estadística Inferencial

Existen dos métodos principales en estadística inferencial:

1. Estimación: se utiliza para calcular parámetros desconocidos de la población.

2. Contraste de hipótesis: permite validar o rechazar afirmaciones sobre la población basándose en los datos muestrales.

Ambos métodos requieren que la muestra sea aleatoria para garantizar que sea representativa de la población.

Según el conocimiento previo sobre la distribución de la población, la inferencia estadística puede ser:

  • Paramétrica: se basa en suposiciones sobre la forma de la distribución de la población (por ejemplo, Normal, Binomial, Poisson).
  • No paramétrica: no asume una distribución específica y se utiliza con datos ordinales o nominales.

Inferencia Paramétrica y No Paramétrica

1. Inferencia Paramétrica:
Se enfoca en estimar parámetros específicos (como media, desviación típica, proporción) cuando se conoce o se supone la distribución de la población.

2. Inferencia No Paramétrica:
Aquí no se conoce la distribución de la población y las inferencias se realizan sobre características generales sin hacer supuestos fuertes sobre el modelo estadístico. Es útil para analizar datos ordinales o nominales.


Teoría de la Estimación

La Teoría de la Estimación estudia cómo determinar el valor de parámetros poblacionales desconocidos a partir de los valores muestrales.

Conceptos básicos:

  • Estadístico: función calculada con los datos muestrales que no depende de parámetros poblacionales desconocidos.
  • Estimador: un tipo de estadístico diseñado para aproximar el valor de un parámetro desconocido.

El valor que proporciona el estimador para una muestra concreta se denomina estimación.

Propiedades de un estimador adecuado:

1. Ausencia de sesgo: el valor esperado del estimador debe coincidir con el parámetro que se desea estimar. Si no cumple esta propiedad, el estimador se considera sesgado.

2. Consistencia: a medida que aumenta el tamaño de la muestra, el estimador debe aproximarse cada vez más al valor real del parámetro.

3. Eficiencia: el estimador es más eficiente si tiene una varianza menor, lo que implica que sus valores están más concentrados alrededor del parámetro real.

4. Suficiencia: un estimador suficiente contiene toda la información relevante del parámetro que proporcionan los datos muestrales.

Métodos de estimación:

1. Estimación puntual:
Proporciona un valor único que aproxima el parámetro poblacional. Este valor depende de la muestra y se calcula mediante un estimador apropiado.

2. Estimación por intervalos:
Asigna un intervalo de valores dentro del cual, con una determinada probabilidad o nivel de confianza, se encuentra el parámetro poblacional.

Estimación puntual

La estimación puntual consiste en asignar un valor específico a un parámetro desconocido de una población, utilizando un estadístico calculado a partir de una muestra. Este valor depende del método de estimación empleado.

Es posible utilizar diferentes estadísticos para estimar un mismo parámetro. Sin embargo, es poco probable que el valor estimado coincida exactamente con el parámetro real de la población, lo que genera una discrepancia conocida como error muestral. Este error no puede determinarse en la estimación puntual, pero sí en la estimación por intervalos.

Métodos principales de estimación puntual:

1. Método de los momentos de Pearson:
Este método asocia un parámetro desconocido de la población al valor que toma su estadístico correspondiente en la muestra. Por ejemplo, se utiliza la media muestral para estimar la media poblacional. Aunque los estimadores obtenidos son consistentes, generalmente no son insesgados ni poseen varianza mínima.

2. Método de los mínimos cuadrados:
Minimiza la suma de los cuadrados de las diferencias entre los valores observados y los valores esperados, bajo la hipótesis de que las observaciones incluyen una parte sistemática (controlada) y una parte aleatoria (fuente de error). Es especialmente útil en modelos de regresión.

3. Método de la máxima verosimilitud:
Este método busca los valores de los parámetros que maximizan el logaritmo de la función de verosimilitud de la muestra. Los estimadores obtenidos tienen buenas propiedades en cuanto a sesgo, eficiencia y consistencia, y son ampliamente utilizados en estadística.


Estimadores puntuales comunes:

1. Media poblacional: Estimada mediante la media muestral:

μ = ∑ xi / n

Es un estimador eficiente, insesgado y de varianza mínima.

2. Varianza poblacional: Estimada mediante la cuasivarianza muestral.

3. Proporción poblacional: Estimada mediante la proporción muestral:

p = Valores observados de A/Tamaño muestral


Estimación por intervalos

La estimación por intervalos consiste en determinar un rango de valores (a, b) alrededor del estadístico calculado, donde se estima que, con alta probabilidad, se encuentra el parámetro poblacional desconocido.

Características principales:

  • Error muestral máximo: Es la distancia máxima que, con una probabilidad establecida, puede existir entre el valor real del parámetro y la estimación obtenida.
  • Intervalo de confianza (IC): Un rango simétrico alrededor del estimador que contiene el valor real del parámetro con una probabilidad de confianza específica. Su fórmula es:

IC = (Estimador ± Error típico)

  • Nivel de confianza: Representa la probabilidad de que el intervalo incluya el valor real del parámetro. Se expresa como 1 − α, donde α es el nivel de riesgo. Por ejemplo, un nivel de confianza del 95% significa que en el 95% de las veces el intervalo contendrá el valor real del parámetro.

Elementos del intervalo de confianza:

1. Estimador: Es el valor central del intervalo.

2. Error típico (error estándar): Es la amplitud del intervalo, que depende de la varianza de la población y del tamaño muestral.


Propiedades del intervalo de confianza:

  • Precisión: Una menor varianza en la población resulta en intervalos más pequeños y estimaciones más precisas.
  • Relación con el tamaño muestral: A mayor tamaño muestral, menor error típico y mayor precisión del intervalo.

Ejemplos de intervalos de confianza:

1. Para una única población: Intervalos construidos a partir de los datos de una muestra para estimar parámetros como la media o la proporción.

2. Para dos poblaciones independientes: Comparaciones entre dos grupos para evaluar diferencias en parámetros poblacionales (por ejemplo, diferencias de medias o proporciones).

Contraste de Hipótesis

El contraste de hipótesis es una de las técnicas más importantes en la inferencia estadística. Permite evaluar la veracidad de afirmaciones sobre los parámetros desconocidos de una población a partir de los datos de una muestra.

Una hipótesis estadística es una afirmación, suposición o conjetura sobre la distribución o parámetros de una población. El objetivo del contraste de hipótesis es verificar si estas afirmaciones son consistentes con los datos obtenidos de la muestra.


Formulación de hipótesis estadísticas

Al realizar un contraste de hipótesis, se formulan dos hipótesis:

1. Hipótesis nula (H0​):
Es la afirmación que se desea probar, generalmente indicando que no hay diferencias o efectos significativos. Ejemplos:

  • H0 : μ = 3
  • H0 : p = 0.5

2. Hipótesis alternativa (H1​):
Es la afirmación opuesta a H0​, aceptada si se rechaza H0​. Es excluyente y puede formularse de las siguientes maneras:

  • Contraste bilateral: H1 : μ ≠ 3
  • Contraste unilateral derecho: H1 : μ > 3
  • Contraste unilateral izquierdo: H1 : μ < 3

Tipos de contraste de hipótesis

1. Contrastes paramétricos:
Se basan en distribuciones conocidas y contrastan parámetros específicos como media, varianza o proporción.

2. Contrastes no paramétricos:
No requieren supuestos sobre la distribución de la población y suelen utilizarse con datos ordinales o nominales.


Pasos para realizar un contraste de hipótesis

a) Descripción de la población y planteamiento de las hipótesis

Se determina la distribución de la población (normal o no), el tipo de muestreo (aleatorio, finito o infinito) y el tamaño de la muestra. Luego se formulan H0​ y H1​, dependiendo del objetivo del estudio.

b) Selección del nivel de significación (α)

El nivel de significación es la probabilidad de cometer un error tipo I (rechazar H0 siendo verdadera). Valores comunes de α son 0.05 (95% de confianza) o 0.01 (99% de confianza).

c) Selección del estadístico de prueba

El estadístico de prueba es una función calculada a partir de los datos muestrales que permite evaluar H0​. Dependerá del parámetro a contrastar (media, proporción, varianza, etc.).

d) Determinación de las regiones de aceptación y rechazo

Se define un intervalo de aceptación para H0​ con una probabilidad 1−α. El complemento de este intervalo es la región de rechazo o región crítica, donde se aceptará H1​.

e) Obtención de datos y cálculo de estadísticos

Se recopilan los datos muestrales y se calcula el valor real del estadístico de prueba. También se determina el valor teórico o crítico del estadístico según las tablas estadísticas correspondientes.

f) Toma de decisión estadística

Se compara el valor real del estadístico de prueba con el valor crítico.

  • Si el valor real pertenece a la región de rechazo, se rechaza H0​ y se acepta H1​.
  • Si el valor real está dentro de la región de aceptación, no se rechaza H0​.

Tipos de errores en el contraste de hipótesis

1. Error tipo I (α):
Ocurre cuando se rechaza H0​ siendo verdadera. La probabilidad de cometer este error es el nivel de significación seleccionado.

2. Error tipo II (β):
Ocurre cuando no se rechaza H0​ siendo falsa. Su probabilidad depende de factores como el tamaño de la muestra y la variabilidad de los datos.


Ejemplo práctico

Hipótesis:

  • H0 : μ = 100 (la media de la población es 100).
  • H1 : μ ≠ 100 (la media es distinta de 100).
  1. Nivel de significación: α=0.05.
  2. Estadístico de prueba: media muestral xˉ.
  3. Región de rechazo: determinada según la distribución teórica (por ejemplo, una distribución t si el tamaño de la muestra es pequeño).

Decisión:
Si el valor real de xˉ está fuera de la región de aceptación, se rechaza H0​. De lo contrario, se mantiene H0​.

Contrastes sobre poblaciones normales con una sola población

a) Contrastes sobre la media (μ) con desviación estándar (σ) conocida:

Este contraste se utiliza cuando se conoce el valor de la desviación estándar poblacional y se desea contrastar hipótesis sobre la media de una población normal.

b) Contrastes sobre la media (μ) con desviación estándar (σ) desconocida:

Si no se conoce la desviación estándar poblacional, se estima con la desviación estándar muestral y se aplica el test t de Student para muestras pequeñas o el test Z para muestras grandes.

c) Contrastes sobre la varianza (σ2) con media conocida:

En este caso, se contrastan hipótesis sobre la varianza poblacional suponiendo que la media de la población es conocida.

d) Contrastes sobre la varianza (σ2) con media desconocida:

Aquí se contrasta la varianza poblacional sin asumir conocimiento previo de la media.


Contrastes sobre poblaciones normales con dos muestras relacionadas

Cuando se tienen dos muestras relacionadas (muestras pareadas), se analizan las diferencias entre las observaciones de ambas muestras. Esto permite aplicar los contrastes como si se tratara de una única población, considerando la muestra de las diferencias.


Contrastes sobre poblaciones normales con dos muestras independientes

a) Contraste sobre la diferencia de medias con varianzas conocidas:

Se utiliza cuando las varianzas de ambas poblaciones son conocidas y se desea contrastar la diferencia entre sus medias.

b) Contraste sobre la diferencia de medias con varianzas desconocidas pero iguales:

En este caso, las varianzas se estiman a partir de las muestras bajo el supuesto de que son iguales. Se aplica el test t de Student.

c) Contraste sobre la diferencia de medias con varianzas desconocidas y distintas:

Cuando no se pueden asumir varianzas iguales, se utiliza el test de Welch, que es una aproximación al t de Student.

d) Contraste sobre la igualdad de varianzas con medias desconocidas:

Se aplica para contrastar si las varianzas de dos poblaciones independientes son iguales, utilizando el test de Fisher-Snedecor.


Test de hipótesis según el tipo de variables y muestras

Con una sola variable:

  1. Para una sola muestra:
    • Media: Test Z y t de Student.
    • Proporción: Test Z o aproximación normal usando t.
  2. Para dos muestras:
    • Medias:
      • Independientes:
        • Varianzas iguales: Test Z, t de Student.
        • Varianzas distintas: Test de Welch.
      • Muestras pareadas: Test t para datos apareados.
    • Proporciones:
      • Independientes: Test Z, Chi-cuadrado, test exacto de Fisher.
      • Pareadas: Test de McNemar.
    • Varianzas:
      • Independientes: Test de Fisher-Snedecor.
      • Pareadas: ANOVA de una vía.

Con varias muestras:

  1. Medias:
    • Independientes: ANOVA de una vía.
    • Pareadas: ANOVA de dos vías.
  2. Proporciones:
    • Independientes: Test Chi-cuadrado.
    • Pareadas: Test de Cochran.

Test de hipótesis con dos o más variables

  1. Dos variables:
    • Cuantitativas: Regresión y correlación.
    • Cualitativas: Test Chi-cuadrado.
  2. Más de dos variables:
    • Se utilizan técnicas multivariantes para analizar interacciones complejas.

Contrastes de hipótesis no paramétricos

La estadística no paramétrica es útil cuando los datos no se ajustan a una distribución conocida, como la normal. Incluye métodos para analizar parámetros o medidas de posición sin suposiciones estrictas sobre la distribución de los datos.

Aplicaciones principales:

  • Contrastes no paramétricos son útiles cuando:
    • Los datos no cumplen los supuestos necesarios para contrastes paramétricos.
    • Se trabaja con datos ordinales o nominales.

Métodos comunes:

  1. Análisis de signos.
  2. Análisis de rangos.
  3. Función de distribución empírica.

Análisis de la calidad de la muestra

a) Test de rachas:

Este test evalúa la aleatoriedad de una muestra considerando el orden en que se extraen los elementos. La aleatoriedad es crucial cuando las observaciones están relacionadas físicamente, temporalmente o de alguna otra manera.

  • Racha: Se define como una sucesión de uno o más elementos del mismo tipo, seguida y precedida por elementos de otro tipo.
  • Procedimiento:
    1. Se cuenta el número de rachas (Rexp​).
    2. Se determinan las cantidades de cada tipo de elemento.
    3. Se consulta una tabla para determinar si el número de rachas es significativo.
  • Resultado:
    • Rechazamos la hipótesis de aleatoriedad si el número de rachas es muy bajo (indica agrupamiento) o muy alto (indica ciclicidad).

b) Contraste de autocorrelación:

La autocorrelación ocurre cuando existe una relación entre las observaciones en una secuencia temporal, es decir, los valores previos afectan a los posteriores.

  • Tipos de autocorrelación:
    • De una etapa: Cada medición influye en la siguiente.
    • De dos etapas: Una medición afecta a la que está dos posiciones después, y así sucesivamente.
  • Método:
    • Para estudiar la autocorrelación de orden k, consideramos las distribuciones (x1 ,xk + 1), (x2 ,xk + 2),…,(xn − k, xn).
    • Se utiliza el test de Ljung y Box para evaluar la existencia de autocorrelación en los primeros mmm órdenes.

c) Test de valores atípicos:

Este test identifica valores atípicos dentro de una muestra, atendiendo al tamaño de la misma.

Para muestras pequeñas:

  • Se utiliza la desviación máxima estudentizada:

dm = max ⁡∣xi − xˉ∣ / s

  • Si dm > d0 ​ (valor crítico), el dato se considera atípico.

Para muestras grandes:

  • Se utiliza el coeficiente de apuntamiento, calculado como:

g1 = ∑ni=1(xi − xˉ)4 / s4

  • Valores críticos específicos determinan la presencia de varios valores atípicos simultáneamente.

Test de bondad de ajuste

Los test de bondad de ajuste determinan si los datos de una muestra pueden considerarse provenientes de una distribución específica. Esto es fundamental para decidir si se pueden aplicar métodos paramétricos.


a) Test de bondad de ajuste Chi-cuadrado:

Permite evaluar si una distribución observada difiere significativamente de una distribución teórica.

  1. Hipótesis:
    • H0​: La distribución observada se ajusta a la distribución teórica.
    • H1​: La distribución observada no se ajusta a la distribución teórica.
  2. Método:
    • Se comparan las frecuencias observadas (fo​) con las frecuencias esperadas (fe​), calculadas multiplicando el tamaño de la muestra por la probabilidad teórica de cada modalidad.
    • Se calcula el estadístico de prueba de Pearson: χ2 = ∑ (fo − fe)2 / fe
    • Este estadístico sigue una distribución χ2 con k − 1 grados de libertad (k es el número de categorías).
  3. Decisión:
    • Se acepta H0​ si χreal2 ≤ χteórico2​.
    • Si alguna celda tiene una frecuencia esperada menor a 5, se deben agrupar categorías para solucionar este problema.

b) Test de bondad de ajuste de Kolmogorov-Smirnov:

Evalúa si dos distribuciones de probabilidad son consistentes entre sí.

  • Aplicaciones:
    • Para datos continuos no agrupados con parámetros conocidos.
    • También aplicable a variables ordinales.
  • Ventajas:
    • No requiere agrupación de datos.
    • Es útil para muestras pequeñas.

Contrastes de normalidad

Los contrastes de normalidad se utilizan para verificar si una variable sigue una distribución normal. La prueba de bondad de ajuste de Kolmogorov-Smirnov puede mejorarse mediante test específicos para analizar la normalidad. A continuación, se describen los más comunes:


a) Test de Kolmogorov-Smirnov con corrección de Lilliefors (K-S-L):

Es una adaptación del test de Kolmogorov-Smirnov realizada por Lilliefors, diseñada específicamente para poblaciones normales.

  • Características:
    • Se aplica a variables continuas no agrupadas.
    • Los parámetros poblacionales (media y desviación estándar) son desconocidos.

b) Test de Shapiro-Wilk:

Este test está diseñado para contrastar la normalidad en muestras pequeñas (n < 50).

  • Características:
    • Se aplica a variables continuas no agrupadas.
    • Es uno de los test más sensibles para pequeñas muestras.

c) Test de D’Agostino:

Se emplea para contrastar la normalidad en muestras grandes (n > 50).

  • Características:
    • Se utiliza para variables continuas no agrupadas.
    • Es adecuado cuando los parámetros de la población son desconocidos.

Contrastes de localización y escala

Si se rechaza la normalidad tras aplicar los métodos anteriores, se pueden emplear contrastes no paramétricos centrados en la mediana. Estos contrastes evalúan si los datos muestrales están por encima o por debajo de la mediana, o estudian la posición de los valores respecto a esta.

a) Test de los signos:

  • Características:
    • Se aplica a distribuciones continuas.
    • Requiere independencia entre las observaciones y una escala de medida al menos ordinal.
    • Contrasta cualquier cuantil de la distribución basado en las diferencias entre las mediciones y el cuantil propuesto.
  • Procedimiento:
    1. Se asignan signos positivos (+) a valores por debajo del cuantil y negativos (-) a valores por encima.
    2. Se analiza si las diferencias entre positivos y negativos son atribuibles al azar.
  • Nota: Este test no hace suposiciones sobre la forma de la distribución.

b) Test de la T de Wilcoxon:

  • Características:
    • Se aplica a muestras apareadas o una sola muestra.
    • Requiere distribuciones continuas y simétricas.
    • Permite contrastar si un valor m puede ser la mediana de una muestra o comparar medianas entre dos muestras relacionadas.
  • Procedimiento:
    1. Calcular ∣xi − Me∣, donde Me es la mediana.
    2. Asignar rangos a las diferencias absolutas distintas de cero.
    3. Sumar los rangos de valores por debajo (T) y por encima (T+) de la mediana.

c) Test de la U de Wilcoxon-Mann-Whitney:

  • Características:
    • Se utiliza para comparar dos muestras independientes.
    • La hipótesis nula plantea que ambas muestras tienen la misma distribución.
    • No requiere simetría de las distribuciones, pero sí una forma similar.
  • Procedimiento:
    1. Ordenar las observaciones de ambas muestras conjuntamente.
    2. Asignar rangos a los valores.
    3. Calcular U para ambas muestras: U = n1 ⋅ n2 + n1(n1 + 1)/2 − R1​ Donde R1​ es la suma de los rangos de la primera muestra.

d) Test de Kolmogorov-Smirnov para dos muestras:

  • Características:
    • Se aplica para comparar la igualdad de dos distribuciones de probabilidad.
    • Las muestras son independientes y provienen de poblaciones diferentes.
  • Procedimiento:
    1. Construir las distribuciones empíricas Fn(x) para la primera muestra y Gn(y) para la segunda.
    2. Comparar las distribuciones utilizando la distancia máxima entre Fn(x) y Gn(y).

Estos contrastes son herramientas valiosas para verificar la normalidad y realizar análisis basados en distribuciones o medianas cuando las suposiciones paramétricas no se cumplen.

Contraste de Dependencia o Independencia de Caracteres: Tablas de Contingencia

Las tablas de contingencia son una herramienta estadística que permite analizar si existe una relación de dependencia o independencia entre los niveles de dos o más variables cualitativas.


Concepto de Independencia

Dos variables son independientes si los valores de una no están influidos por los niveles o modalidades de la otra. Las tablas de contingencia se estructuran como tablas de doble entrada:

  • Filas: Representan las modalidades o niveles de una variable.
  • Columnas: Representan las modalidades o niveles de otra variable.
  • Celdas: Muestran las frecuencias de las combinaciones entre las variables.

La forma más sencilla de tabla de contingencia es una tabla 2 x 2, con dos filas y dos columnas. Sin embargo, estas tablas pueden extenderse para incluir más filas, columnas o incluso múltiples variables.


Objetivo del Análisis

El análisis de tablas de contingencia plantea una hipótesis sobre la relación entre dos variables:

  1. Hipótesis nula (H0): Afirma que las variables son independientes.
  2. Hipótesis alternativa (H1​): Afirma que existe dependencia entre las variables.

Para validar estas hipótesis, se comparan las frecuencias observadas en la muestra con las frecuencias esperadas bajo el supuesto de independencia.


Estadístico Chi-cuadrado (χ2)

El estadístico Chi-cuadrado permite medir la discrepancia entre las frecuencias observadas y las esperadas. Su cálculo se realiza de la siguiente manera:

  1. Frecuencias observadas (Oij): Número de elementos de la muestra que presentan una combinación específica de características.
  2. Frecuencias esperadas (Eij​): Se calculan bajo el supuesto de independencia: Eij = Total fila i × Total columna j / n Donde:
    • i: Índice de la fila.
    • j: Índice de la columna.
    • n: Tamaño total de la muestra.
  3. Fórmula del estadístico Chi-cuadrado: χ2 = ∑(Oij − Eij)2 / Eij
  4. Grados de libertad: g.l. = (k − 1)(m − 1). Donde k es el número de filas y m el número de columnas.

Interpretación del Contraste

  1. Comparación con el valor crítico:
    • Se consulta el valor tabulado de χ2 para un nivel de confianza (1−α) y los grados de libertad correspondientes.
    • Si χcalculado2 > χtabulado2​, se rechaza la hipótesis nula (H0​), concluyendo que existe dependencia entre las variables.
  2. Aceptación o rechazo de H0​:
    • Si χcalculado2 ≤ χtabulado2​, no hay evidencia suficiente para rechazar H0​, y se considera que las variables son independientes con el nivel de confianza especificado.

Ejemplo Práctico

Supongamos:

  • Variable X: Nivel educativo (Primaria, Secundaria).
  • Variable Y: Nivel de ingresos (Bajo, Medio, Alto).

Construimos una tabla de contingencia con las frecuencias observadas. Calculamos las frecuencias esperadas, aplicamos la fórmula de χ2 y comparamos el valor obtenido con el crítico de una tabla Chi-cuadrado para los grados de libertad y nivel de significación dados.


Conclusión

El análisis de tablas de contingencia es una herramienta poderosa para detectar relaciones entre variables cualitativas. Utilizando el estadístico Chi-cuadrado, se puede determinar con un nivel de confianza si existe dependencia entre las variables o si estas son independientes. Este método es aplicable a una amplia variedad de situaciones en investigación estadística y ciencias sociales.

Mi carrito
El carrito está vacío.

Parece que aún no te has decidido.

Ir al contenido