Cuando queramos reducir o eliminar un problema, tendremos que elaborar ideas o teorías sobre la causa del mismo. Una forma de comprobar si una teoría debe tomarse en serio es utilizar un gráfico de dispersión, también llamado análisis de regresión.
Para utilizar un gráfico de dispersión, primero tenemos que tomar una serie de medidas de dos cosas durante un periodo de tiempo. Las dos cosas que mediríamos son el problema en sí y la cosa que creemos que puede estar causando el problema. A continuación, se representan las mediciones en un gráfico de dispersión. El gráfico de dispersión nos ayudará a ver si existe una relación matemática entre dos conjuntos de medidas.
Vamos a ver cómo utilizar un gráfico de dispersión con un ejemplo:
Tapones de escamas:
Una empresa fabrica grandes carcasas cilíndricas conocidas como “tapones” para un proceso químico.
El análisis mediante un diagrama de Pareto demostró que el problema de la descamación de la superficie de los tapones estaba costando mucho dinero a la empresa.
Se creó un equipo de mejora del proceso para intentar reducir el número de “escamas”. El equipo se dio cuenta rápidamente de que todo el mundo tenía una opinión diferente sobre lo que estaba bien y lo que era un descascarillado. Por tanto, el primer trabajo consistió en elaborar una buena definición de “flaker” que todos pudieran utilizar. Se enseñó a los operadores del proceso a utilizar los gráficos de control y empezaron a llevar un gráfico del número de escamas producidas en cada lote. Este gráfico mostraba que el proceso era inestable, por lo que sabían que tenían que buscar causas especiales de variación. Mary, una de las operadoras de proceso del equipo, dijo que siempre tenía frío los días en los que había muchas escamas.
Los operarios del proceso empezaron a llevar un registro de la temperatura del aire en el momento de hacer los tapones. En una de las reuniones del equipo, Jack señaló que en al menos dos ocasiones en las que el número de escamas estaba fuera de los límites de control, estaba lloviendo.
El equipo pidió ayuda al laboratorio para comprobar la teoría de que la lluvia era un factor. Uno de los ingenieros señaló que ese mismo día estaba lloviendo, pero que había muy pocos copos. No obstante, sugirió que sería una buena idea medir el contenido de humedad del ingrediente principal.
En primer lugar, echemos un vistazo al gráfico de control. Dado que cada tapón es un copo o no es un copo, el gráfico que debemos utilizar es un gráfico binomial.
Los datos están fuera de control porque algunos puntos están fuera de los límites de control. También hay series de 10 puntos consecutivos por encima y por debajo de la línea media, lo que también indica inestabilidad. Veamos ahora un gráfico de dispersión.
En este gráfico, el número de escamas está en el eje vertical y la temperatura del aire en el eje horizontal. Para cada fila de la tabla de datos, se pone un punto donde se encuentran los dos valores.
En un gráfico de dispersión, si las mediciones en el eje horizontal no están relacionadas de ninguna manera con las mediciones en el eje vertical, los puntos aparecerán al azar, sin ningún patrón visible. Si existe una relación matemática entre ellos, los puntos tenderán a agruparse en una línea o curva difusa.
En este caso no parece haber ningún patrón en los puntos del gráfico de dispersión. Podemos concluir, por tanto, que no hay correlación entre la temperatura del aire y el número de escamas producidas. Esto significa que podemos afirmar que la temperatura del aire no es un factor de producción de escamas. Ahora veamos si la humedad influye;
En este gráfico de dispersión vemos los copos en el eje vertical y el contenido de humedad en el eje horizontal. Parece haber una correlación entre los dos conjuntos de números porque podemos ver que los puntos han formado una línea difusa. Este gráfico muestra que las escamas aumentan cuando el contenido de humedad aumenta. Pero esto no demuestra que una cosa sea la causa de la otra. Podría haber un tercer factor que haga que AMBOS cambien al mismo tiempo. Sin embargo, parece que tenemos una pista.
Hemos añadido una línea de “mejor ajuste” a través de los puntos. La ecuación de esta línea se muestra en la parte superior derecha del gráfico. La cifra de R-cuadrado es una medida de lo bien que se ajustan los datos a la línea.
– Si R al cuadrado = 1, todos los puntos se sitúan en la línea.
– Si R-cuadrado es 0 o casi 0, entonces no hay correlación entre los datos en los dos ejes, por lo que la línea y la ecuación no tienen relevancia.
Ahora mira de nuevo la dispersión de la temperatura. Ahora puedes ver la línea de mejor ajuste a través de estos puntos. El valor de R-cuadrado es bajo y muestra que no hay correlación entre los dos conjuntos de datos.
Algunas observaciones son importantes cuando se utilizan gráficos de dispersión: Cuando se observan los gráficos de dispersión, puede ser importante incluir toda la información relevante. Puede ser importante observar simultáneamente los gráficos de control, los gráficos de dispersión y la tabla de datos para comprender mejor lo que está sucediendo exactamente. Este análisis está fuera del alcance de esta formación.
Otro aspecto importante de un análisis de dispersión es que los resultados están fuertemente influenciados por un valor atípico. Si observamos el gráfico de dispersión con la temperatura y añadimos un valor atípico (18 escamas con 35 grados) obtenemos el siguiente resultado:
Verás que un valor atípico está cambiando drásticamente el valor R-cuadrado. Por lo tanto, mira siempre el gráfico y pregúntate qué está pasando exactamente.
Resumen de la lección 8:
1. Un gráfico de dispersión nos ayuda a ver si existe una relación matemática (correlación) entre dos cosas que hemos medido. Esto puede ayudarnos a encontrar las causas de los problemas.
2. Aunque encontremos una relación matemática, esto no significa necesariamente que una de ellas sea la causa de la otra.