Saturday, March 18, 2006

GLOSARIO DE TERMINOS ESTADISTICOS


GLOSARIO DE TÉRMINOS ESTADÍSTICOS

A
AJUSTE DE BONFERRONI.- Técnica estadística que ajusta el nivel de significación en relación al número de pruebas estadísticas realizadas simultáneamente sobre un conjunto de datos. El nivel de significación para cada prueba se calcula dividiendo el error global de tipo I entre el número de pruebas a realizar. El ajuste de Bonferroni se considera conservador.
AMPLITUD O RANGO.- La diferencia entre el valor máximo y mínimo de los valores de una variable se encuentran comprendidos el 100% de los valores muestrales.
ANACOVA.- Análisis de la covarianza. Es una técnica estadística que combina ANOVA (pues compara medias entre grupos) y análisis de regresión (ajusta las comparaciones de las medias entre los grupos por variables continuas o covariables).
ANOVA.- Análisis de la varianza. Es una técnica estadística que sirve para decidir / determinar si las diferencias que existen entre las medias de tres o más grupos (niveles de clasificación) son estadísticamente significativas. Las técnicas de ANOVA se basan en la partición de la varianza para establecer si la varianza explicada por los grupos formados es suficientemente mayor que la varianza residual o no explicada.
ÁREA BAJO LA CURVA (entre dos puntos).- Si la curva viene dada por una función de densidad teórica, representa la probabilidad de que la variable aleatoria tome un valor dentro del intervalo determinado por esos dos puntos.

B
Ver ajuste de bonferroni.

C
CARACTERÍSTICAS.- Propiedades de las unidades o elementos que componen las muestras. Se miden mediante variables. Se asume que los individuos presentan diferentes características.
CAUSALIDAD.- Relación entre causa y efecto. Generalmente identificados como variables. No hay que confundir causalidad con correlación. La correlación mide la similitud estructural numérica entre dos variables. Normalmente la existencia de correlación es condición necesaria para la causalidad.
COEFICIENTE DE CORRELACIÓN.- Estadístico que cuantifica la correlación. Sus valores están comprendidos entre –1 y 1
COEFICIENTE DE DETERMINACIÓN.- Es el cuadrado del coeficiente de correlación. Expresado en tanto por ciento mide el grado de información compartida entre dos variables continuas.
COEFICIENTES DE REGRESIÓN.- En un modelo de regresión lineal son los valores de a y b que determinan la expresión de la recta de regresión y = a + b * x
COEFICIENTE DE VARIACIÓN.- Es una medida de dispersión relativa. No tiene unidades y se calcula dividiendo la cuasi-desviación típica entre la media muestral. Se suele expresar en tanto por ciento.
CONTRASTE BILATERAL.- Contraste de hipótesis en la que la hiópetesis alternativa da opción a igualdad o superioridad.
CONTRASTE DE HIPÓTESIS.- Es el proceso estadístico que se sigue para la toma de decisiones a partir de la información de la muestra. Comparando el valor del estadístico experimental con el valor teórico rechazamos o no la hipótesis nula.
CONTRASTE UNILATERAL.- Contraste de hipótesis en la que la hipótesis alternativa de opción a solo igualdad o a solo superioridad.
CORRELACIÓN.- Expresa la concordancia entre dos variables según el sentido de la relación de éstas en términos de aumento ó disminución.
COVARIABLES.- Variables continuas independientes que junto a una o más variables (grupo de tratamiento) sirven para explicar una variable respuesta continua. Supongamos que pretendemos explicar las diferencias existentes en el nivel de cortisol en sangre por grupo de tratamiento A / B, teniendo en cuenta el peso. La variable peso es una covariable.
COVARIANZA.- Representa la media del producto de las desviaciones de dos variables en relación a su media.
CUARTILES.- Existen tres cuartiles: Q1, Q2 y Q3. Estos números dividen a los valores muestrales, una vez ordenados, en cuatro partes homogéneas en cuanto a número de observaciones. Así Q1 determina el valor que hace que haya un 25% de valores muestrales por debajo de éste, y un 75% por encima de éste. Q2 es la mediana.
CUASIVARIANZA.- Característica de una muestra o población que cuantifica su dispersión o variabilidad. La cuasivarianza se obtiene multiplicando la varianza por n / (n-1). La cuasivarianza muestral es un estimador centrado (no sesgado) de la varianza poblacional.

D
DATOS CENSURADOS.- En análisis de supervivencia son datos donde no se conoce el tiempo total hasta la aparición del fracaso / éxito bien porque el individuo se retiró del estudio, bien porque se acabó el estudio (datos con censura administrativa). Existen datos censurados por la izquierda y por la derecha.
DATOS PAREADOS.- Datos de poblaciones dependientes, donde los datos de las variables van emparejados por individuos, en contraposición con los datos independientes.
DECILES.- Corresponden a los percentiles 10%, 20%, 30%, 40%, 50%, 60%, 70% 80%, 90% y 100%
DESCRIPTIVA.- Parte de la estadística que resume la información de la muestra. La información recogida y resumida en los estadísticos se usa para la estimación de parámetros poblacionales.
DESVIACIÓN ESTANDAR (TÍPICA).- Característica de una muestra o población que cuantifica su dispersión o variabilidad. Tiene las mismas unidades que la variable. La desviación típica es invariante con respecto al origen de la distribución. Su cuadrado es la varianza.
DIAGRAMA DE PUNTOS.- Es un gráfico bidimensional o tridimensional que muestra la variación de los valores muestrales de dos o tres variables.
DIAGRAMAS DE BARRAS.- Representación gráfica para las variables discretas.
DIFERENCIAS ESTADÍSTICAMENTE SIGNIFICATIVAS.- Las diferencias entre lo observado y lo supuesto en la hipótesis nula no puede ser explicado por el azar.
DIFERENCIAS RELEVANTES.- Diferencia esperada o definida a priori con un valor conceptual intrínseco. No confundir diferencias estadísticamente significativas que establece sí una diferencia, cualquiera que sea su valor.
DIMENSIÓN.- Si estudiamos una única variable la dimensión es uno, si estudiamos la información de dos variables en forma conjunta, la dimensión es dos.....
DISPERSIÓN.- Ver estadísticos de dispersión.
DISTRIBUCIÓN DE DATOS.- En la realización de un experimento, corresponde a la recogida de los datos experimentales para cada individuo y cada variable.
DISTRIBUCIÓN NORMAL O DE GAUSS.- Es una distribución teórica de probabilidad que se usa tanto en la estadística aplicada como en la teórica. Aparece en la práctica con mucha frecuencia como consecuencia del importante resultado que establece el teorema central del límite. Tiene una forma de campana y viene caracterizada por únicamente dos valores: la media y la varianza.
DISTRIBUCIÓN T STUDENT.- Distribución teórica de probabilidad. Se usa para la comparación de dos medias en poblaciones independientes y normales.

E
ECUACIÓN DE LA REGRESIÓN.- Ver recta de regresión.
ERROR ALFA.- Es el error que se comete cuando se rechaza una hipótesis nula cuando está verdadera. Error de tipo I.
ERROR ALFA GLOBAL.- Es el error alfa que se comete por hacer múltiples comparaciones.
ERROR BETA.- Es el error que se comete cuando no se rechaza una hipótesis nula siendo ésta falsa. Error de tipo II.
ERROR DE PRIMERA ESPECIE.- Ver error alfa.
ERROR DE SEGUNDA ESPECIE.- Ver error beta.
ERROR DE TIPO I.- Ver error alfa.
ERROR DE TIPO II.- Ver error beta.
ERROR ESTANDAR DE LA MEDIA.- Es el cociente entre la cuasivarianza muestral y la raíz cuadrada del tamaño muestral.
ERROR ESTANDAR DE LOS RESIDUOS.- Estadístico de dispersión de los valores de los residuos después de la regresión.
ERROR FALSO NEGATIVO.- Ver error beta.
ERROR FALSO POSITIVO.- Ver error alfa.
ESCALA.- La distribución de datos puede recogerse en distintas escalas: nominal, dicotómica, discreta o continua.
ESTADÍSTICOS.- Son funciones de la muestra. Su valor variará según la muestra, pero nos permite hacer estimaciones de parámetro poblacionales o construir estadísticos experimentales para tomar decisiones.
ESTADÍSTICOS DE CENTRALIZACIÓN.- Son estadísticos que nos resumen la información acerca del valor donde parece concentrarse la distribución de datos.
ESTADÍSTICOS DE DISPERSIÓN.- Son estadísticos que nos resumen la información de la muestra dándonos información acerca de la magnitud del alejamiento de la distribución de datos en relación a un valor central o de concentración de los datos.
ESTADÍSTICOS DE FORMA.- Son aquellos que nos hablan de la forma de la distribución de datos en cuanto a su simetría y su apuntamiento.
ESTADO DE LA NATURALEZA.- La naturaleza funciona según una determinada hipótesis que desconocemos. Las técnicas estadísticas nos cuantifican el error que cometemos cuando tomamos decisiones en la predicción de cuál es la hipótesis con la que la naturaleza trabaja. Estos errores son los del tipo I y II.
ESTIMACIÓN.- Técnicas estadísticas que a partir de la información de la estadística descriptiva pretenden conocer cómo es la población en global. Existen técnicas de estimación puntuales y por intervalos de confianza.
ESTIMADO.- Valor experimental que se toma como candidato al valor poblacional desconocido.
ESTIMADOR.- Función de la muestra que sirve para dar valores candidatos a los valores desconocidos poblacionales.

F
FACTOR.- Variable que se incluye en un modelo con el propósito de explicar la variación en la variable respuesta. Ver variable independiente o explicativa.
FACTOR DE CLASIFICACIÓN.- Es una variable que se usa para clasificar los datos experimentales en grupos. Los factores de clasificación son variables nominales. Cada factor de clasificación se compone de niveles. Así la variable "fumador" codificada como "nunca", "ex fumador", "fumador actual" es un factor de clasificación con tres niveles.
FRECUENCIAS: ABSOLUTAS, RELATIVAS.- Las frecuencias absolutas representan el recuento de los valores de una variable discreta de forma que su suma nos da el tamaño muestral. Las relativas son las absolutas divididas por el tamaño muestral. Las frecuencias relativas sumarán 1 ó 100 según se expresen en tanto por uno o en tanto por ciento.
FUNCIÓN.- Función matemática. Expresión que liga dos o más variables de forma determinística.
FUNCIÓN ACUMULADA DE SUPERVIVENCIA.- Función estadística que presenta la proporción de individuos que mueren entre dos tiempos dados.
FUNCIÓN DE RIESGO DE SUPERVIVENCIA.- Nos da una media de la predisposición al fallo en función del tiempo.
FUNCIÓN TEÓRICA DE PROBABILIDAD.- Idealización matemática que nos permite calcular probabilidades de que una variable tome un valor (caso discreto) o rango de valores (caso continuo)
FUNCIÓN TEÓRICA DE PROBABILIDAD DE SUPERVIVENCIA.- Probabilidad de que un individuo sobreviva un tiempo mayor que t.

G
GAUSSIANA.- Ver distribución normal.
GRADO DE CONFIANZA.- Ver nivel de confianza.
GRADOS DE LIBERTAD.- El número de datos que se pueden variar para que a un total fijo podamos reconstruir dicho total; así la media tiene n-1 grado de libertad, pues si conocemos el valor de ésta, podemos variar n-1 datos ya que restante vendrá fijado. En una tabla 4 x 3, si nos dan las frecuencias marginales podremos variar las frecuencias de (4-1) x (3-1) = 3 x 2 = 6 celdas, quedando forzosamente determinadas las frecuencias de las celdas restantes. Así, los grados de libertad serían en este caso de 6.

H
HETEROCEDASTICIDAD.- Hipótesis de no igualdad de varianzas poblacionales en distintos grupos.
HIPÓTESIS.- Cualquier teoría que formule posibles líneas de trabajo experimental. Ver hipótesis nula y alternativa.
HIPÓTESIS ALTERNATIVA.- Aquella que queremos probar. Representa la hipótesis renovadora.
HIPÓTESIS NULA.- Aquella que queremos rechazar. Representa a la situación actual.
HISTOGRAMAS.- Es un gráfico en forma de barras de una variable continua que se ha discretizado en intervalos, de forma que la altura de las barras en cada intervalo indica la frecuencia relativa en éste.
HOMOCEDASTICIDAD.- Hipótesis de igualdad de varianzas poblacionales en distintos grupos.

I
IMPRECISIÓN.- Error que se comete en la predicción.
INDEPENDENCIA.- Son datos que no están ligados entre sí.
INTERVALO DE PROBABILIDAD.- Proporción de casos entre dos valores definidos de la muestra.
INTERVALOS CONFIDENCIALES.- Intervalos de confianza. Intervalos fiduciales. Incluyen una cota mínima y máxima del verdadero parámetro poblacional con un determinado nivel de confianza.

J
JACKNIFE.- Método estadístico de estimación por intervalos de confianza basado en la simulación con reemplazamiento, propuesto por Tukey.
JUEGO DE SUMA CERO.- En la teoría de juegos, juego en el que lo que unos ganan es a costa de lo que otros exactamente pierden.

L
LÍMITES CONFIDENCIALES.- Extremos de los intervalos confidenciales.

M
MÁXIMO.- Es un valor muestral de forma que por encima de éste no hay valores muestrales.
MEDIANA.- Corresponde al percentil 50%. Es decir, la mediana hace que haya un 50% de valores muestrales inferiores a ella y un 50% de valores muestrales superiores a ella.
MEDIA.- Es una medida de centralización para una variable continua. Se obtiene sumando todos los valores muestrales y dividendos por el tamaño muestral.
MÍNIMO.- Es un valor muestral de forma que por debajo de éste no hay valores muestrales.
MODA.- Es el valor que más se repite en una variable nominal.
MODELO.- Intento matemático / estadístico para explicar una variable respuesta por medio de una o más variables explicativas o factores.
MUESTRAS.- Subgrupos de observaciones de la población de estudio.

N
NIVEL DE CONFIANZA.- Se define como 1 menos el nivel de significación. Se suele expresar en tanto por ciento.
NIVEL DE SIGNIFICACIÓN.- La probabilidad de rechazar una hipótesis nula verdadera; es decir, la probabilidad de cometer un error de tipo I.
NIVELES DE CLASIFICACIÓN.- Los distintos posibles valores que pueden aparecer en una variable explicativa nominal u ordinal.
NORMAL.- Ver distribución de probabilidad normal.
NÚMEROS.- Ver valores numéricos.

O
OBSERVACIÓN.- Sinónimo de caso, registro e individuo.
ODDS.- Nombre inglés para designar la medida del efecto relacionada, en una tabla de frecuencias 2 por 2, con la razón de los productos cruzados.
ORDEN DE UNA MATRIZ.- Es el número que designa, en una matriz cuadrada, el número de filas o columnas.
ORTOGONAL.- Se dice de las variables y en general de las funciones que son independientes.

P
P (p-valor).- El nivel de significación observado en el test. Cuanto más pequeño sea, mayor será la evidencia para rechazar la hipótesis nula.
PARÁMETROS.- Son valores desconocidos de características de una distribución teórica. El objetivo de la estadística es estimarlos bien dando un valor concreto, bien dado un intervalo confidencial.
PEARSON (r de Pearson).- Ver coeficiente de correlación.
PERCENTILES.- Un percentil 90% corresponde a un valor que divide a la muestra en dos, de forma que hay un 90% de valores muestrales inferiores a éste, y un 10% de valores muestrales superiores a éste.
POBLACIONES.- Conjunto de individuos de interés. Normalmente no se dispone de información de toda la población y se recurre a muestras.
PORCENTAJES.- Proporciones expresadas en tanto por ciento.
POTENCIA DE LA PRUEBA.- (1-beta).- Es decir la probabilidad de rechazar una hipótesis nula siendo ésta falsa. Se suele expresar en tanto por ciento.
PREVALENCIA.- Cociente entre el número de individuos que poseen una característica (p. Ej. Enfermedad) entre el total de la población.
PROBABILIDAD.- Asignación de un número entre cero y uno a cada resultado experimental.
PROPORCIÓN.- Número de individuos que verifican una condición entre el total muestral. Se puede expresar en tanto por ciento.
PRUEBA CHI CUADRADO.- Se utiliza para analizar tablas de contingencia y comparación de proporciones en datos independientes.
PRUEBA DE F.- Prueba estadística que sirve para comparar varianzas. El estadístico F experimental es el estadístico de contraste en el ANOVA y otras pruebas de comparación de varianzas.
PRUEBA DE FISHER.- Es la prueba estadística de elección cuando la prueba de chi cuadrado no puede ser empleada por tamaño muestral insuficiente.
PRUEBA DE LOS SIGNOS.- Prueba estadística que sirve para comparar dos variables en términos de diferencias positivas o negativas, y no en términos de magnitud.
PRUEBA DE MCNEMAR.- Prueba estadística que sirve para comparar proporciones en datos pareados.
PRUEBA NO PARAMÉTRICA.- Técnica estadística que presupone ninguna distribución de probabilidad teórica de la distribución de nuestros datos.
PRUEBA PARAMÉTRICA.- En contraposición de las técnicas no paramétricas, las técnicas paramétricas sí presuponen una distribución teórica de probabilidad subyacente para la distribución de los datos. Son más potentes que las no paramétricas.
PRUEBA T DE STUDENT.- Se utiliza para la comparación de dos medias de poblaciones independientes y normales.
PUNTO DE INFLEXIÓN.- Representan los puntos de una función matemática donde la curva pasa de ser cóncava a convexa o recíprocamente.

Q
Temporalmente no hay información en este apartado. Envíenos sus sugerencias.

R
RANGO.- Diferencia entre el valor máximo y mínimo de una muestra o población. Solo es válido en variables continuas. Es una mala traducción de inglés "range". Amplitud.
RANGO INTERCUARTÍLICO.- La diferencia entre el percentil 75% y el percentil 25%.
RAZÓN DE VEROSIMILITUDES.- Combina resultados de varios tests diagnósticos dando una probabilidad de enfermedad en base a ese conjunto de resultados en forma global.
RECTA DE REGRESIÓN.- Es el modelo que sirve para explicar una variable respuesta continua en términos de un único factor o variable explicativa.
REGRESIÓN.- Técnica estadística que relaciona una variable dependiente (y) con la información suministrada por otra variable independiente (x); ambas variables deben ser continuas. Si asumimos relación lineal, utilizaremos la regresión lineal simple. Entre las restricciones de la RLS se incluyen: Los residuos deben ser normales; las observaciones independientes; la dispersión de los residuos debe mantenerse a lo largo de la recta de regresión.
REGRESIÓN LINEAL MÚLTIPLE.- El modelo de regresión lineal múltiple sirve para explicar una variable respuesta continua en términos de varios factores o variables explicativas continuas.
REGRESIÓN POLINÓMICA.- Es un tipo especial de regresión múltiple donde aparecen como variables independientes una única variable y potencias de ésta (al cuadrado, al cubo).
RELACIÓN LINEAL.- Ver recta de regresión.
RESIDUOS.- Residuales. Distribución de valores muestrales calculados como la diferencia entre el valor de la variable respuesta (y) y el estimado del modelo de regresión (ŷ), la distribución de residuos es importante como indicador del cumplimiento de las condiciones de aplicación de las técnicas de correlación, así como de la bondad del ajuste.

S
SECTORES CIRCULARES.- Forma de representación en forma de tarta de variables discretas nominales.
SENSIBILIDAD DE UN TEST DIAGNÓSTICO.- Representa la probabilidad de que un individuo esté enfermo habiendo dado positivo en el test diagnóstico.
SESGO.- La diferencia entre el valor del parámetro y su valor esperado. También se utiliza en contraposición de aleatorio, así una muestra sesgada es no aleatoria.
SIMETRÍA.- Es una medida que refleja si los valores muestrales se extienden o no de igual forma a ambos lados de la media.
SPEARMAN (rho de Spearman).- Coeficiente de correlación ordinal análogo al coeficiente r de Pearson de correlación lineal.
SUMATORIA.- Estadístico descriptivo que suma los valores numéricos de los datos muestrales de distribuciones continuas.

T
TABLAS DE CONTINGENCIA.- Tablas de 2 o más variables, donde en cada celda se contabilizan los individuos que pertenecen a cada combinación de los posibles niveles de estas variables.
TABLAS DE FRECUENCIAS.- Ver tablas de contingencia.
TABLA DEL ANOVA.- Es una forma de presentar la variabilidad observada en una variable respuesta en términos aditivos según las distintas fuentes de variación: modelo residual.
TAMAÑO MUESTRAL.- Número de individuos u observaciones que componen la muestra.
TÉCNICAS DE CORRELACIÓN.- Ver coeficiente de correlación.
TÉCNICAS DE REGRESIÓN.- Ver recta de regresión y regresión lineal múltiple.
TÉCNICAS NO PARAMÉTRICAS.- Son técnicas estadísticas que no presuponen ningún modelo probabilístico teórico. Son menos potentes que las técnicas paramétricas, aunque tienen la ventaja que se pueden aplicar más fácilmente.
TEOREMA DEL LÍMITE CENTRAL.- Resultado básico en la estadística que afirma que la distribución de las medias muestrales será normal para un n suficientemente grande con independencia de la distribución de datos de partida.
TRANSFORMACIONES.- Cambios de escala con el propósito de conseguir linealidad, normalidad en los datos.

U
UNIDAD.- Concepto primario relacionado con los componentes elementales de la muestra estadística. Sinónimo, pero no esencialmente idéntico, de caso, observación, registro o individuo.
UNIVERSO.- Conjunto infinito de elementos o unidades generado por un modelo teórico. Conjunto real de todos los elementos que comparten unas condiciones de admisión en el conjunto.

V
VALORES NUMÉRICOS.- Resultados de las variables para cada individuo en la muestra de estudio. Su naturaleza puede ser nominal, dicotómica, ordinal o continua.
VALOR PREDICTIVO POSITIVO DE UN TEST DIAGNOSTICO.- La probabilidad de que un individuo esté enfermo si el test diagnóstico da positivo.
VALOR PREDICTIVO NEGATIVO DE UN TEST DIAGNÓSTICO.- La probabilidad de que un individuo esté enfermo si el test diagnóstico da negativo.
VARIABLE.- Objeto matemático que puede tomar diferentes valores. Generalmente asociado a propiedades o características de las unidades de la muestra. Lo contrario de variable es constante.
VARIABLE ALEATORIA.- Variable cuyo resultado varía según la muestra según una distribución de probabilidad.
VARIABLE CONTINUA.- Aquella que puede tomar una infinidad de valores, de forma que dados dos valores cualquiera, también pueda tomar cualquier valor entre dichos valores.
VARIABLE DEPENDIENTE.- Ver variable respuesta.
VARIABLE DISCRETA.- Variable que toma un número finito o infinito de valores, de forma que no cubre todos los posibles valores numéricos entre dos dados, en contraposición de las continuas.
VARIABLE EXPLICATIVA.- Ver variable independiente.
VARIABLES INDEPENDIENTES O EXPLICATIVAS.- Variables que no sirven para construir un modelo que explique el comportamiento de una o más variables respuesta.
VARIABLE RESPUESTA O DEPENDIENTE.- Variable objeto del estudio y que sus resultados se pretenden explicar por medio de las variables llamadas explicativas o independientes.
VARIABLES.- Describen características en las observaciones realizadas.
VARIANZA.- Característica de una muestra o población que cuantifica su dispersión o variabilidad. La varianza tiene unidades al cuadrado de la variable. Su raíz cuadrada positiva es la desviación típica. La varianza muestral es un estimador sesgado de la varianza poblacional.

X
X2 CHI- CUADRADO.- Ver prueba de Chi cuadrado.

W
WILCOXON.- Prueba estadística no paramétrica para la comparación de dos muestras (dos tratamientos). Las distribuciones de datos no necesitan seguir la distribución normal. Es por tanto una prueba menos restrictiva que la prueba t-Student.

0 Comments:

Post a Comment

<< Home