Stats #2 Généralisation du concept de généralité

Temps de lecture : 6 minutes

Lorsqu’on a regardé si les allemands étaient plus grands que les français, on avait « des données» : un tableau avec la taille et la nationalité de plein de gens (des allemands et des français seulement par contre, car des chinois ça aurait un peu servi à rien pour savoir si les allemands étaient plus grands que les français, n’est-ce pas).

Avec ces jolies données, on pouvait faire deux groupes (celui des allemands d’un coté, et celui des français de l’autre), et pour chaque groupe, on pouvait faire une cloche dont le sommet représentait la moyenne de taille du groupe, et les bords représentaient les tailles minimum et maximum. On dessinait ces cloches en découpant les tailles possibles en classes, et en mettant pour chaque classe une barre dont la hauteur était égale au nombre de personne appartenant à cette classe (ok, lien pour rappel). Du coup, pour comparer les groupes, on pouvait comparer les cloches (et surtout, voir si elles étaient superposées).

Maintenant, imaginons qu’on se pose une autre question, à savoir : les français aiment-ils plus les fraises que les allemands ?

Je peux toujours faire deux groupes (les français d’un coté, et les allemands  de l’autre). Mais si la deuxième information que l’on a c’est si les personnes aiment les fraises ou pas (oui/ non). Donc, mes données ont cette tête là :

Individu Nationalité Aime les fraises
1 Français Oui
2 Francais Oui
3 Allemand Oui
4 Français Oui
5 Allemand Non
6 Allemand Oui
etc etc etc

Je vais avoir du mal à dessiner une cloche avec ces oui et ces non…

On va devoir utiliser une petite astuce pour retomber sur des chiffres que l’on puisse comparer. L’astuce, c’est bien sur de compter le nombre de oui chez les français, et le nombre de oui chez les allemands. J’ai 1121 français qui me répondent « oui, j’aime les fraises», et seulement 374 allemands. Puis-je conclure que les français aiment plus les fraises que les allemands ? Compter les oui suffit-il ? Attention, il y a un piège.

Non, cela ne suffit pas ! Imaginons que parmi mes 2000 personnes, j’ai 1500 français, et seulement 500 allemands ! Alors évidemment c’est logique que je n’ai pas 1121 allemands qui me répondent « oui, j’aime les fraises».

A aucun moment je n’ai dit ni vérifié que j’avais le même nombre de français et d’allemands dans mon tableau (même pas dans mon post #2, cherchez pas j’ai vérifié).

Donc ! Je dois aussi compter le nombre total d’individus dans les groupes que je compare. Ou alors le nombre de non. Je peux représenter les données dans un nouveau tableau :

Nationalité Aime les fraise=Oui Aime les fraise=Non TOTAL
Français 1121 379 1500
Allemand 374 126 500

Bon, du coup, ça fait beaucoup de chiffres… pour la taille, on pouvait comparer le sommet des cloches, qui correspondaient aux moyennes, et basta. Là, on doit comparer quoi avec quoi ? Il y a plusieurs manière de faire, mais en gros, ce qu’on veut savoir, c’est si en proportion, les français aiment plus les fraises que les allemands. On peut donc calculer les proportions de fraises-lovers dans chaque groupe :

Français : 1121 /  1500 * 100 = 74,7%

Cela signifie que 74,7% des français aiment les fraises d’après mes données.

Alors, et les allemands ? Roulement de tambour :

Allemands : 374 / 500 * 100 = 74,8%

Les deux pourcentages sont sensiblement identiques.

Conclusion : on dirait bien que les allemands aiment autant les fraises que les français !

De quoi créer des conflits lors des jumelages… les points communs n’ont pas que du bon.

Bon cet article est déjà long, et je n’ai pas terminé. Bah oui, je n’ai pas encore parlé du dernier cas possible de généralités. Le cas où on veut savoir si on a des grandes mains quand on a des grands pieds (plus rien à voir avec les allemands et les français…). Un cas où on aurait comme données un truc comme ça :

Individu Largeur de la main Longueur du pied
1

9,4

13,2

2

9

12,5

3

11

14,8

4

9,5

12,9

5

10,4

14

6

12,6

16,1

etc etc etc

Donc que des chiffres. Là, je peux pas faire deux groupes et les comparer. J’ai donc un nouveau problème. La manière typique de représenter ces données, c’est le nuage de points, c’est à dire ça :
PiedsMains1

Chaque point correspond à une personne (pour chaque personne, on a mesuré une main, et un pied). Là, on voit bien que lorsque la taille de la main est petite, le pied aussi est petit. Mais attention il y a des exceptions. Par exemple :

PiedsMains

Içi, la personne notée 1 à une main plus grande que la personne notée 2, mais un pied un peu plus petit. Les points pourraient être plus ‘dispersés’, et dans ce cas on aurait encore plus d’exceptions. Bref, içi, on a bien envie de dire juste avec le graphique qu’effectivement les gens qui ont de grandes mains ont en général de grands pieds. Il y a… corrélation !

Mais quand on fait des statistiques sérieusement, et surtout, quand les données sont plus dispersées, les graphiques ne suffisent pas (l’oeil humain n’est pas assez fiable), et on a alors besoin de calculer un coefficient de corrélation qui nous dira ce qu’il en est. Ce « coefficient» sera compris entre -1 et 1… et plus exactement, il sera très proche de zéro s’il n’y a pas de corrélation, proche de 1 s’il y a une corrélation positive (ça veut dire que lorsqu’une valeur augmente, l’autre aussi.. c’est ce qu’on a içi), et proche de -1 s’il y a une corrélation négative (exemple : nombre de bonbons dans un paquet de Haribo, et nombre de bonbons dans le ventre de la personne qui tient le paquet).

Voilà, j’ai fini, vous savez maintenant ce qu’est une généralité.

On récapitule?

On a vu trois cas de figure:

* Cas 1: Je cherche à comparer deux groupes, et il est possible de faire des cloches avec ce que je cherche à comparer (=les données que je veux comparer sont numériques). Dans ce cas je peux faire un graphique avec les cloches pour voir si elles se superposent. Je peux aussi calculer les moyennes et regarder si elles sont différentes.

* Cas 2: Je cherche à comparer deux groupes, et il n’est pas possible de faire des cloches avec ce que je cherche à comparer (=les données que je veux comparer ne sont pas numérique, ce sont aussi des groupes). Dans ce cas, je fais un tableau avec les effectifs. Avant de faire une généralité, je vérifie que j’ai pas loupé une information. Je peux calculer les proportions et regarder si elles sont différentes.

* Cas 3: Je ne cherche pas à comparer deux groupes (enfin si, ceux qui ont des grandes mains, et ceux qui ont des petites mains, si on veut, mais le contour de ces groupes est trop flou pour classer les gens dedans). Dans ce cas, je peux faire un nuage de points. Je peux aussi calculer la corrélation et voir si elle est positive, négative, ou nulle.

Voici grosso modo les 3 cas de figure où on fait le plus souvent des généralités (ie les X sont plus / sont moins ceci cela que les Y). C’est très simplifié, mais ça devrait déjà éclairer pas mal de choses dans les anecdotes du quotidien…

A bientôt pour le prochain épisode!

Prochain épisode : Quand peut-on ou ne peut-on pas faire de généralités?

Si je dis « moi, je connais untel qui devient tout rouge et gonflé si jamais il mange de la fraise.. donc la fraise c’est mauvais pour la santé », vous allez me répondre « nan, mais ton untel, il doit être allergique, c’est tout : ne fait pas de ton cas une généralité« .

Et vous auriez bien raison! Doit-on étudier tout le monde entier pour faire une généralité? Sinon, à partir de combien de cas peut-on faire une généralité? Quoi d’autre pourrait bien m’interdire de faire des généralités?

Pour la route…

Si vous sautillez d’impatience et ne pouvez plus tenir (non je ne me fait pas trop d’illusions, mais laissez moi rêver), un petit exercice pour la route. Suite à un fait divers (un délinquant à brûlé une voiture, et c’est une récidive, il avait déjà été arrêté et incarcéré pour le même motif auparavant), un journal publie un chiffre effarant : 66% des brûleurs de voiture sont des récidivistes. Ce chiffre suffit-il pour conclure que décidement, il ne faut que des peines « à vie» car « la récidive, ça suffit bon sang» ?

Réponse dans Stats #3 Feedback

Article originellement publié le 27 juil. 2014 et republié le 07 mars 2018 suite à migration du site.

Article reproduit avec l’aimable autorisation de l’autrice, publié originellement sur Ce n’est qu’une théorie