5.- R : Estadistica univariante

Antes de abordar un tema como el control de proceso, estadístico o no, con R quiero revisar antes algunos conceptos en entorno R de estadística univariante que se necesitan posteriormente.

Empecemos :

- Población : Conjunto de individuos que son objeto de estudio. Ejemplo : 
  • Las piezas producidas en un turno, serán la población de ese turno.
  • La cantidad de medidas que registramos en un periodo, serán la población en estudio.
  • ....
- Muestra : Cualquier subconjunto tomado de la población. Ejemplo :
  • En entornos que no se controle 100% de la producción, las piezas que se controlan son una muestra.
  • El numero de medidas de temperatura que se registre en una estación meteorológica será una muestra de la evolución de la temperatura 
  • ...
Conociendo una población es posible hacer previsiones fiables de cómo será la muestra, conociendo la muestra es muy arriesgado hacer previsiones de cómo será la población. Un ejemplo típico :
  • de un total de 30.000 entrevistas telefónicas ¿quién acierta lo que van a votar los millones de ciudadanos de un país?
- Caracteres cualitativos y cuantitativos : De las unidades estadísticas que forman la población, o en su caso la muestra, las características que las definen. 

Un carácter cualitativo es cuando no puede expresarse con un valor numérico (p.ej. : sexo, profesión,...) y un carácter cuantitativo puede expresarse mediante un valor numérico (p.ej : peso, altura, diámetro, ... ).

- Variable estadística : Es el conjunto de valores numéricos que puede tomar un carácter cuantitativo, este conjunto de valores puede ser continuo o discreto.

- Distribuciones de frecuencias : Uno de los primeros valores que se obtiene en un estudio univariante es la distribución de frecuencias de una variable cuantitativa continua, tenemos dos tipos de frecuencias :
  • absoluta : el número de veces que una unidad estadística aparece en un rango ( modalidad) de la variable estadística seleccionada.
  • relativa : el cociente entre el numero de veces que aparece la unidad estadística y el tamaño de la muestra.
normalmente la representación de estos datos en de forma tabulada o un histograma (en R la instrucción hist(...))

Veamos un ejemplo en R :
como vimos con la función abline(...) y lm(...) (entrada 4.2 del blog), la función hist(...) aparte de la salida gráfica genera un objeto que hemos almacenado en la variable salida, dentro de ese objeto en su atributo/campo $counts tenemos disponible las frecuencias absolutas de cada clase (dividiéndolas por el número de valores generado con la instrucción rexp(...) que es 100, obtengo las frecuencias relativas de cada clase ).

Podemos ver los atributos de salida bien como hemos hecho en nuestro script imprimiendo salida en consola o en el desplegable de entorno de salida (arriba a la dch) :
hemos elegido 5 marcas de clase por la sencillez de la demostración, R incorpora formas más científicas de definir el numero de clases para el estudio (ver la ayuda).

Para avanzar en la  caracterización nuestra distribución de datos tenemos las medidas de centralización, como se centra nuestra variable  :
  • La moda: el valor que más se repite, el de mayor frecuencia absoluta.
  • La mediana: el valor que divide en dos mitades la muestra/la población
  • La media: Referida a una variable discreta (toma valores determinados en un rango) el valor que resulta de dividir la suma de del producto de la marca de clase por su frecuencia entre el número de miembros de la muestra/población.
vemos en R como se calculan :
para el calculo de la moda mlv(...) hay que instalar previamente el paquete modeest (en consola ejecutar : install.packages('modeest')), para activarlo en la consola teclearemos : library(modeest).

 En la gráfica vemos como la mediana en color azul (donde se centra la distribución) y la media en color verde (un calculo aritmético entre los valores de la variable ...) no están en el mismo sitio, y la moda en rojo ha coincidido en este caso con la mediana.

 La discrepancia entre mediana y media hay que tenerla en cuenta en determinados entornos, dado que la toma de decisiones puede afectar el resultado final. Por ejemplo : ¿ corrijo la dimensiones del molde con el valor de la mediana o de la media ?  

Finalmente vemos las medidas de dispersión para caracterizar nuestra variable estadística :
  • desviación media :
  • desviación típica o standard :
  • varianza :
podemos completar el estudio de la variable añadiendo las medidas de forma de la distribución de la variable :

- coeficiente de asimetría : una medida de como de descentrada está la distribución de la variable (ver la ayuda de R para el método exacto de cálculo y su resultado)

- curtosis : una medida de como de 'aplastada' está la distribución de la variable (ver la ayuda de R para el método exacto de cálculo y su resultado )

para el calculo de la curtosis kurtosis(...) hay que instalar previamente el paquete moments (en consola ejecutar : install.packages('moments') ), a diferencia del caso anterior que cargamos el paquete desde la consola en este caso hemos añadido la instrucción library(moments) en el cuerpo del programa.

 Resumiendo, salvo que seamos capaces de trabajar y tomar decisiones coherentes   con la "multitud" de valores, sin tener en cuenta como pueden evolucionar, que puede tomar una variable, hemos de seleccionar un conjunto de valores estadísticos como los que hemos visto que representen esa variable.


Fuente : "Estadística teórica y a aplicada" Autor: V.Novo Sanjurjo (Ed: UNED)

Comentarios

Entradas populares de este blog

5.2.- R: cambio de tema de RStudio, paste(...), format(...), rug(...)

7.- R: Packages : SixSigma, Qcc