6 critères à connaître pour analyser des données

Si vous arrivez sur ce blog pour la première fois, vous serez peut-être intéressés par 1h de formation pour débuter en Six Sigma. Pour recevoir gratuitement cette vidéo, saisissez votre adresse email ci-dessous.

Analyser vos données avec six sigma

Comment analyser vos données dans un projet six sigma. Dans cette vidéo, découvrez les 6 critères à connaitre pour analyser statistiquement vos données pour le LSS. Distribution des données, continue ou discrète, dispersion, nombre d’échantillon, stabilité, tendance centrale, sont les six critères essentielles.

Cliquez ici pour Accéder à ma formation Green Belt

Vidéo analyse de données

Données Continues ou Discrètes

Aujourd’hui nous allons voir qu’elles sont les 6 critères importants pour étudier des données pour le 6 sigma. D’abord il faut savoir qu’il existe 2 types de données. Soient elles sont discrètes soit elles sont continues. Retenez qu’il est toujours préférable de travailler avec des données continues car elles donnent plus d’information, sont plus précises et il y a plus d’outils statistique à notre disposition pour les traiter. On dit que des données sont continues, si elles peuvent prendre une infinité de valeurs sur un intervalle, par exemple, une température, un poids, une pression. A l’inverse, les comptages comme le nombre de pièce, ou les échelles comme une notation de 1 à 5 dans un sondage et les attributs, par exemple le type de défaut sont des données discrètes.

Pourcentage et données continues

Encore un point, ce n’est pas parce qu’un nombre à des virgules qu’il est continue. Si vous divisez un nombre de pièce mauvaise sur un nombre de pièce bonne, vous obtiendrez un ratio avec des décimales, mais ces composantes sont belles et bien discrètes, cette donnée reste donc discrète.

Distribution des données et six sigma

En 2, il y a la forme de la distribution. Dans la plupart des cas, les données suivent une loi normale, mais parfois vous aurez affaire à d’autres distributions : exponentielle, log normal, poisson. Il y a des cas de figure qui sont bien connu, par exemple, la probabilité qu’une panne survienne correspond à une distribution de Weibull.

Dispersion des données pour six sigma

Ensuite, il y a la dispersion, qui représente la variabilité des données. Si on mesure la température aux quatre coins de Paris, il y a de forte chance que les données soient proches les unes des autres. Si par contre on prend la température dans le sud et dans le nord de la France, la variabilité sera probablement plus importante. En statistique, on utilise souvent l’écart type ou la variance pour définir la dispersion.

Combien d’échantillon pour faire des statistiques ?

Le nombre d’échantillons est également un critère important. Inutile de vouloir faire des prévisions si vous avez 3 malheureuses valeurs. Il en faut minimum 30 qui soient représentatives de la population. Qu’est-ce que j’entends par représentatif ? Si votre machine fabrique 1000 unités par jour et que vous mesurez les 30 premières pièces, ce ne sera pas représentatif de la production globale, mais uniquement représentatif de la 1h de production. Il faudrait mieux prendre 5 pièces à 2h d’intervalle tout au long de la journée.

Stabilité d’un processus

La stabilité des données représentent l’évolution du process dans le temps. Minitab propose plusieurs outils pour la visualiser, comme le time series plot ou les control charts.

Tendance centrale

Enfin, il y a la position des données, on l’appelle aussi la tendance centrale. Ce qui revient à répondre à la question : autour de quelle valeur se regroupent les données. En général, on utilise la moyenne mais ce n’est pas toujours la plus adapté. Par exemple, votre fils revient de l’école et vous dit : « Papa au dernier control, la moyenne de classe est de 10,4 et moi j’ai eu 12 ». Vous pourriez féliciter votre enfant en lui disant qu’il est au-dessus de la moyenne. Mais si on regarde d’un peu plus prêt les données, on voit qu’il y a de très bons élèves à 20 et de très mauvais à 0, la moyenne est donc faussée par les extrêmes.

Qu’est ce que la médiane ?

La médiane permet de s’en affranchir puisqu’elle sépare en 2 groupes égaux les données. Il y a autant de personne en dessous de 14 qu’au-dessus.

Qu’est ce que le mode ?

Le mode correspond à la valeur qui apparait le plus fréquemment. Ici c’est 18 car 4 élèves ont obtenu cette note. Il est possible qu’une série contienne plusieurs modes. Si on change un 3 par un 2, la série devient bimodale avec 2 et 18. Ce qui confirme encore plus la disparité des élèves. Vous l’aurez compris, le mode n’indique pas nécessairement le centre d’un échantillon. Il se trouvera proche de la moyenne seulement si la répartition des données est symétrique, comme la loi normale. Le mode est intéressant pour les échelles. Imaginons que vous vouliez analyser les résultats d’un sondage avec des notes de 1 à 5, le mode vous donnera une bonne idée de la tendance générale.

Résumé statistique pour 6 sigma

En résumé, ce qu’il faut retenir c’est qu’il existe 6 critères important pour analyser des données. Préferez toujours les données continues aux données discrètes.
Vérifiez la distribution des données, dans la plupart des cas se sera une la loi normale.
Mesurez la variabilité grâce à l’écart type ou la variance.
30 échantillons représentatifs est un minimum.
Analyser graphiquement les données pour connaitre leur stabilité dans le temps.
Autour de quelle valeur se regroupe les données ? Faut-il utiliser la moyenne, la médiane ou le mode.

Dans une prochaine vidéo, je montrerai comment utiliser le time series plot sur Minitab pour visualiser la stabilité des données.

A bientôt sur Uptraining.

Pour aller plus loin, je vous offre le 1er module de ma formation Green Belt Lean Six Sigma !

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.