Terminos Basicos De Estadistica

Terminos Basicos De Estadistica

En general se podía decir que las pruebas estadísticas resuelven problemas en tres grandes tipos de situaciones:

a) - Cuando se trata de resumir o describir un conjunto de datos. Estadística descriptiva

b) - Cuando tratamos de “conocer o estimar alguna característica de las poblaciones o situaciones de donde proceden nuestros datos muestrales. Técnicas de Estimación

c) - Finalmente cuando tratamos de decidir entre dos opciones o hipótesis de trabajo. Analizamos la información muestral mediante técnicas de Contraste de hipótesis ( pruebas estadísticas) decidimos que hipótesis es la más compatible con los datos experimentales.

No importa lo complicada que sea la metodología estadística que se emplee, esencialmente estará incluida en una de las categorías anteriores

Contenido

Técnicas descriptivas y de estimación

Estimación estadística y conocimiento de las poblaciones

Muestras y Poblaciones

Es muy interesante conocer las características de las muestras. El cálculo de los estadísticos o índices que las definen y describen son netos y muy rentable. Pero en ocasiones nos preguntamos por las características de la población de origen de donde proceden las muestras. El objetivo parece ambicioso: se trata de conocer lo que por definición es inalcanzable. Normalmente las poblaciones son inabarcables puesto que son infinitas, o en el mejor de los casos cuasi-infinitas, lo cual nos deja como estábamos.

Los parámetros poblacionales caracterizan y describen las poblaciones. Son equivalentes a los estadísticos en las muestras. Un estadístico es una función de la muestra, esto es, depende sola y exclusivamente de nuestra muestra. Varía y está sometido al error ( variabilidad ) del muestreo. Los parámetros no varían, son constantes y además desconocidos. Contienen las características de la población.

Estimación de parámetros

Las técnicas estadísticas de estimación intentan conocer el valor de estos parámetros. La media de edad de un conjunto de personas es fácilmente calculable y no está sometido a ninguna clase de imprecisión. La media de edad de la población de donde proviene esa muestra es desconocida. Si la muestra cumple la condición de ser aleatoria, es posible intentar calcular la media poblacional. El cálculo de los parámetros se basa en la información suministrada por la muestra.

En el proceso de ir de la información de la muestra (estadísticos ) al estimado de los parámetros poblacionales ocurren dos cosas, una buena y otra mala:

a.- Ganamos en generalización. Esto es, pasamos de la parte al todo. De las muestras a las poblaciones

b.- Perdemos precisión o lo que es lo mismo, ganamos en imprecisión. La estimación de parámetros poblacionales se realiza construyendo intervalos ( segmentos ) que suponemos cubren o contienen el parámetro buscado.

Confianza e Intervalos de confianza

La estimación de parámetros mediante un solo valor se conoce como estimación puntual. Es bastante arriesgada puesto que no conocemos ni la imprecisión ni se establece el grado de confianza que nos merece el resultado. Estos dos inconvenientes se obvian con la estimación por intervalos confidenciales. Por un lado proporcionan un valor de la imprecisión dado por la longitud del intervalo de confianza. Por otro proporcionan un valor de la fiabilidad que nos debería merecer nuestra estimación, o nivel de confianza.

Afortunadamente algo tan sutil como la confianza se puede cuantificar, y no sólo eso sino que se mueve en unos límites tan cómodos para el pensamiento como son entre el cero y el cien por ciento. Por convenio, y nadie parece en desacuerdo, para la mayoría de las ocasiones una confianza del 95% parece suficiente. Este es el valor que gobierna la longitud del intervalo de confianza.

¿Como se interpreta una confianza del 95%?. Si llevamos a cabo un experimento 100 veces obtendríamos 100 distribuciones muestrales de datos y 100 intervalos de confianza. De estos 100 intervalos, 95 de ellos cubrirían el valor del verdadero parámetro poblacional. Desgraciada o afortunadamente, nosotros solo realizamos el experimento una sola vez. Con lo que nunca sabremos si nuestro intervalo es uno de esos 95 que contienen el parámetro de estudio.

Técnicamente , aunque esto suene a una sofisticación innecesaria, no podemos asociar el concepto de nivel de confianza con el concepto de probabilidad. Así no se puede establecer que tenemos una probabilidad del 95% de que el parámetro buscado este dentro de nuestro intervalo.

Las técnicas de estimación de parámetros poblacionales se incluyen dentro de la estadística inferencial.

Un teorema injustamente desconocido

Todos los parámetros poblacionales pueden ser estimados a partir de técnicas de estimación. La mayoría de los estimadores se basan en la distribución de los estadísticos en el muestreo y toman como base algunas propiedades deseables del teorema del límite central. Este teorema tiene unas propiedades tan deseables que es la base de la estadística analítica. Viene a decir fundamentalmente dos cosas:

1.- Que las muestras individualmente son diferentes de las poblaciones pero en conjunto son muy parecidas

2. Que las muestras no son gobernadas por el azar, sino que en conjunto siguen, no importa de lo que estemos tratando, las leyes universales de las funciones teóricas de probabilidad. La función de probabilidad normal rige, en la mayoría de las ocasiones cuando las muestras son mayores de 30, estas distribuciones muestrales.

Otro tipo de enfoque

Para la estimación de los estadísticos de posición se toma como base el cálculo combinatorio y permutacional. Se utilizan fundamentalmente las técnicas de remuestreo, Bootstrap y Jackknife. Estas técnicas no han sido suficientemente desarrolladas y utilizadas porque históricamente los economistas (padres de los estadistas) empleaban los sumatorios y la medias y nunca las medidas de posición, medianas o cuartiles. Esto es lógico cuando hablamos de dinero.

Técnicas de Diagnóstico

Supongamos que una parte de los individuos de una población tiene una determinada característica. Un dispositivo diagnóstico podría dictaminar, en esa población, si cada individuo tiene o no la característica. El dispositivo no es infalible y fallará en algunos casos, tanto por exceso –falsos positivos- como por defecto –falsos negativos-.

Queremos evaluar cuan fiable es ese dispositivo diagnóstico, para lo cual tomamos una muestra de n elementos. Diagnosticaremos a los individuos con dicho dispositivo, obteniendo un resultado positivo o negativo. Excepcionalmente, y sólo por motivos de nuestra evaluación, conoceremos realmente si cada elemento de la muestra tiene o no la característica.

Todos los elementos de la muestra están dentro de una de estas cuatro categorías:

A = Verdaderos negativos

B = Falsos positivos

C = Falsos negativos

D = Verdaderos positivos

Siendo n = a+b+c+d

Definimos:

Sensibilidad (s) = d/(c+d)

Especificidad (e) = a/(a+b)

Valor predictivo del resultado positivo vp(+) = d/(b+d)

Valor predictivo del resultado negativo vp(-) = a/(a+c)

Estos índices anteriores son estadísticos relacionados con la fiabilidad del diagnóstico. Asimismo, un buen estimado de la verdadera proporción de positivos en la población de origen –prevalencia- sería:

Prevalencia (prev) = (c+d)/n

Los valores predictivos no son invariantes con la proporción de positivos en la población. Esto supone que su eficacia diagnóstica depende del entorno, de la prevalencia.

Se define la razón de verosimilitudes –en inglés likelihood ratio- de un resultado, ya sea positivo o negativo, como:

L(+) = S/(1-E)

L(-) = (1-S)/E

Estos índices son invariables con la prevalencia en la población e indican cuanto más probable es que se de un determinado resultado en la población de enfermos en comparación con la población de sanos.

Las principales ventajas de los índices L se resumen en:

a).- Se puede combinar la evidencia de varias pruebas diagnósticas, si éstas son independientes, multiplicando los índices de cada resultado.

b).- Dado un resultado o un conjunto de resultados, se puede calcular la probabilidad “ a posterior” de la característica teniendo en cuenta la prevalencia en la población –fórmula de Bayes-.

Para el empleo de los índices de verosimilitud de forma multiplicativa es necesario que las pruebas diagnósticas sean independientes. Si esta condición falla, el valor predictivo global de un conjunto de resultados diagnósticos debería obtenerse mediante técnicas de regresión logística.

Manejando la información acerca de la dispersión

Es conocido que la media es una medida de centralización y que la varianza es una medida de dispersión. Una varianza pequeña nos indica que la variable no se desvía “demasiado” de su media , que es “poco” probable que haya valores alejados de la media, o dicho de otra manera que es “muy” probable que los valores se encuentren alrededor de la media. La desigualdad de Chebychev nos va a dar una cota de esa probabilidad de lejanía o de cercanía.

Desigualdad de Chebychev

La desigualdad de Chebychev afirma que para cualquier variable, el intervalo:

(media-k*dt, media+k*dt),

contiene al menos un (1–1/k2)% de valores de la distribución, siendo “media” la media poblacional, dt la desviación típica poblacional (la raíz cuadrada de la varianza poblacional) y k un número cualquiera.

Es decir, la probabilidad de que la variable no se desvíe de la media más allá de k veces la desviación típica es mayor que (1–1/k2). A veces también se dice que la cantidad de masa situada dentro de dicho intervalo es como poco de (1–1/k2). Recíprocamente, para cualquier variable, fuera del intervalo anterior se encuentra como mucho un (1/k2)% de valores de la distribución. Es decir, la probabilidad de que la variable se desvíe de la media más allá de k veces la desviación típica es menor que (1/k2).

Así para los siguiente valores de k se tiene que:

Para k=1, el intervalo (media-dt, media+kdt), contiene al menos un 0% de valores de la distribución (aquí la desigualdad de Chebychev dice algo que es completamente evidente)

Para k=2, en el intervalo (media-2*dt, media+2*dt), hay al menos el 75% de valores de la distribución

Para k=3, en el intervalo (media-3*dt, media+3*dt), hay al menos el 89% de valores de la distribución

Para k=4, en el intervalo (media-4*dt, media+4*dt), hay al menos el 94% de valores de la distribución

Distribuciones Simétricas con una única Moda

Para distribuciones simétricas con una única moda, la desigualdad de Chebychev se puede mejorar de la siguiente forma: para cualquier variable, el intervalo:

(media-k*dt, media+k*dt),

contiene al menos un (1-(4/9)/k2)% de valores de la distribución.

Así para los siguiente valores de k se tiene que:

Para k=1, en el intervalo (media-dt, media+kdt), hay al menos un 56% de valores de la distribución

Para k=2, en el intervalo (media-2*dt, media+2*dt), hay al menos el 89% de valores de la distribución

Para k=3, en el intervalo (media-3*dt, media+3*dt), hay al menos el 95% de valores de la distribución

Para k=4, en el intervalo (media-4*dt, media+4*dt), hay al menos el 97% de valores de la distribución

Distribuciones Normales

Para distribuciones Normales, las propiedades de dichas distribuciones (sin necesidad de recurrir a Chebychev) garantizan que en el intervalo (media-k*dt, media+k*dt) hay:

Para k=1, el 68,27% de valores de la distribución

Para k=2, el 95,45% de valores de la distribución

Para k=3, el 99,73% de valores de la distribución

Para k=4, el 99,99% de valores de la distribución

Conclusiones

La desigualdad de Chebychev proporciona una interpretación de la varianza (y de su raíz cuadrada, la desviación típica) en términos de la probabilidad de concentración de la variable alrededor de su media. Esta desigualdad es válida siempre ya que no se hace ninguna hipótesis de partida acerca de la variable. Dicha desigualdad se ve mejorada si se supone hipótesis adicionales de simetría o de normalidad.


Mis sitios nuevos:
Emprendedores
Politica de Privacidad