Définir la distribution des données avec Minitab

Si vous arrivez sur ce blog pour la première fois, vous serez peut-être intéressés par 1h de formation pour débuter en Six Sigma. Pour recevoir gratuitement cette vidéo, saisissez votre adresse email ci-dessous.

Tester la normalité des données

Connaitre la distribution des données est la première étape de l’analyse en lean six sigma. Les données sont elles normalement distribuer ? Dans cette vidéo, je vous propose un tutoriel minitab pour savoir si les données suivent une loi Normale.

[button_1 text=”T%C3%A9l%C3%A9chargez%20les%2011%20outils%20INDISPENSABLES%20du%20LEAN%20SIX%20SIGMA” text_size=”32″ text_color=”#000000″ text_bold=”Y” text_letter_spacing=”0″ subtext_panel=”N” text_shadow_panel=”Y” text_shadow_vertical=”1″ text_shadow_horizontal=”0″ text_shadow_color=”#ffff00″ text_shadow_blur=”0″ styling_width=”40″ styling_height=”30″ styling_border_color=”#000000″ styling_border_size=”1″ styling_border_radius=”6″ styling_border_opacity=”100″ styling_shine=”Y” styling_gradient_start_color=”#ffff00″ styling_gradient_end_color=”#ffa035″ drop_shadow_panel=”Y” drop_shadow_vertical=”1″ drop_shadow_horizontal=”0″ drop_shadow_blur=”1″ drop_shadow_spread=”0″ drop_shadow_color=”#000000″ drop_shadow_opacity=”50″ inset_shadow_panel=”Y” inset_shadow_vertical=”0″ inset_shadow_horizontal=”0″ inset_shadow_blur=”0″ inset_shadow_spread=”1″ inset_shadow_color=”#ffff00″ inset_shadow_opacity=”50″ align=”center” href=”https://uptraining.fr/outils-lean-six-sigma/”/]

 

distribution des données

Vidéo distribution des données avec minitab

Les données sont  elles normales ?

Dans cette vidéo, nous allons voir comment connaître la distribution des données facilement en quelques secondes grâce à Minitab. Dans la majorité des cas il s’agit d’une distribution Normale, c’est-à-dire que les données forment une courbe de Gauss, mais parfois ce n’est pas le cas car un phénomène contrarie la nature.

Les 5M

Par exemple, un déréglage machine, une température anormale… et beaucoup d’autres facteurs que l’on nomme les 5M : Milieu, Matière, Main d’œuvre, Moyen et Méthode. Si vous souhaitez en savoir plus sur les 5M, je vous invite à consulter la vidéo dédiée.

Minitab calcule la distribution des données

Il est primordial de démarrer chaque étude statistique par une analyse de la distribution. Si vous tirez des conclusions à partir de données non-Normal, en pensant qu’elles le sont, vos résultats seront tout simplement faux, et donc plus ou moins éloignés de la réalité. Retenez que chaque étude commence par l’analyse de la distribution. Je vais maintenant vous montrer comment faire avec Minitab ?

Tuto minitab francais

Tout d’abord, ouvrez le fichier « Distribution des données avec Minitab » en téléchargement sur le site www.uptraining.fr . Vous retrouvez 2 listes de données. Commençons par analyser la 1er. Cliquez sur le Menu « Stat », « Basic statistique » et « Normality Test ». Une fenêtre apparaît. Dans « variable » sélectionnez la liste de données que vous souhaitez analyser. Ici c’est « Liste 1 » dans la colonne C1. Laissez l’option « Percentile lines » cochez sur « None». Dans « Test for normality », vous voyez que 3 choix s’offrent à vous : Anderson Darling, Ryan Joiner, Kolmogorov Smirnov. En fait, il s’agit de 3 méthodes différentes qui permettent de tester la normalité des données. Personnellement, j’utilise toujours Anderson Darling qui convient parfaitement. Enfin, vous pouvez ajouter un titre à votre graphique si vous le désirez. Valider par « OK ».

Anderson Darling, test de normalité

Un graphique apparaît. On retrouve en haut le titre qu’on lui a donné. En dessous, chaque échantillon est représenté par un point rouge. Pour que la distribution soit Normale, il faut que les points suivent le mieux possible la droite bleu. Ici c’est bien le cas, les données sont donc Normales. Cette appréciation est parfois difficile à évaluer, je préfère me fier à une autre valeur que je vais vous montrer.

P value et minitab

A droite on retrouve une synthèse, avec la moyenne des données, l’écart type, le nombre d’échantillon. AD représente le coefficient d’Anderson Darling. Plus ce nombre est petit, plus la distribution des données suit la loi Normale. Le plus important c’est le P-Value, s’il est supérieur à 0.05 alors les données suivent une loi Normale. Plus ce coefficient est grand, plus les données suivent la courbe de Gauss.

Individual distribution identification minitab v 16

Prenons maintenant, la liste 2 et effectuez les mêmes commandes. On voit tout de suite la différence sur le graphique, les points ne suivent pas la droite. Cela ce confirme avec le P-Value, qui est inférieur à 0.005. Les données ne sont donc pas Normales. Mais vous allez me dire, quelle est leur distribution ? Minitab dispose d’un outil puissant pour tester toutes les formes de distribution. Cliquez sur « Stat », « Quality Tools » et « Individual Distribution identification ».

Distribution statistique

Une fenêtre apparait. Dans « Single column » sélectionnez la colonne 3, là ou sont saisies les données. Ici, elles ne forment qu’un seul groupe de valeur, on saisit 1 dans « subgroup size ». Si un jour, vous faites plusieurs essais, vous pourrez découper vos données en plusieurs groupes. Laissez cocher « Use all distributions and transformations » pour que le logiciel statistique minitab compare à toutes les distributions qu’il connait. Validez par « Ok ».

Graphique minitab fr

Plusieurs fenêtres apparaissent affichant les graphiques pour chaque distribution. Mais allons plutôt sur la fenêtre Session. On retrouve ici la liste de toutes les distributions qui ont été testés par le logiciel. Celle ayant le P-value le plus grand correspond le mieux à la distribution des données. Dans notre exemple, il s’agit d’une forme exponentielle puisque le P-value le plus grand est à 0.553.

Etude statistique minitab v 17

Voilà ! Désormais vous savez que la 1er chose à faire dans une étude statistique, c’est de vérifier la normalité des données. Utiliser pour cela, le test d’Anderson Darling. Si le P-value est supérieur à 0.05 alors la distribution est normale. Si ce n’est pas le cas, Minitab v16 est capable de calculer la distribution qui se rapproche le plus de vos données.

A bientôt dans une prochaine vidéo sur uptraining.fr

Pour aller plus loin, je vous offre le 1er module de ma formation Green Belt Lean Six Sigma !

3 réflexions sur « Définir la distribution des données avec Minitab »

  1. Ping : 6 critères à connaître pour analyser des données | UpTraining : Formation Lean Six Sigma

  2. Ping : Générer des données avec Minitab | UpTraining : Formation Lean Six Sigma

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.