Qu’est-ce que l’ANOVA (analyse de la variance) et à quoi peut-elle servir ?

Qu’est-ce que l’ANOVA ?

L’ANOVA est l’acronyme d’analyse de la variance. C’est un test statistique qui a été développé par Ronald Fisher en 1918 et qui est utilisé depuis lors. En termes simples, l’ANOVA vous indique s’il existe des différences statistiques entre les moyennes de trois groupes indépendants ou plus.

L’ANOVA à sens unique est la forme la plus basique. Il existe d’autres variations qui peuvent être utilisées dans différentes situations, notamment :

  • AnOVA à deux voies
  • AnOVA factorielle
  • Test F de Welch
  • AnOVA classée
  • Test par paire de Games-Howell

Comment fonctionne l’ANOVA ?

Comme le test t, l’ANOVA vous aide à déterminer si les différences entre les groupes de données sont statistiquement significatives. Elle fonctionne en analysant les niveaux de variance au sein des groupes par le biais d’échantillons prélevés dans chacun d’eux.

S’il y a beaucoup de variance (écart des données par rapport à la moyenne) au sein des groupes de données, alors il y a plus de chances que la moyenne d’un échantillon sélectionné parmi les données soit différente en raison du hasard.

En plus de s’intéresser à la variance au sein des groupes de données, l’ANOVA prend en compte la taille de l’échantillon (plus l’échantillon est grand, moins il y a de chances de choisir des valeurs aberrantes pour l’échantillon par hasard) et les différences entre les moyennes des échantillons (si les moyennes des échantillons sont très éloignées, il est plus probable que les moyennes de l’ensemble du groupe le soient aussi).

Tous ces éléments sont combinés en une valeur F, qui peut ensuite être analysée pour donner une probabilité (p-vaue) de savoir si les différences entre vos groupes sont statistiquement significatives ou non.

L’ANOVA à une voie compare les effets d’une variable indépendante (un facteur qui influence d’autres choses) sur plusieurs variables dépendantes. L’ANOVA à deux voies fait la même chose, mais avec plus d’une variable indépendante, tandis que l’ANOVA factorielle étend encore le nombre de variables indépendantes.

Comment l’ANOVA peut-elle aider ?

L’ANOVA à une voie peut vous aider à savoir s’il existe ou non des différences significatives entre les moyennes de vos variables indépendantes.

Pourquoi est-ce utile ?

Parce que lorsque vous comprenez comment la moyenne de chaque variable indépendante est différente des autres, vous pouvez commencer à comprendre laquelle d’entre elles a un lien avec votre variable dépendante (comme les clics sur la page de destination) et commencer à apprendre ce qui motive ce comportement.

Vous pourriez également inverser les choses et voir si une seule variable indépendante (comme la température) affecte ou non plusieurs variables dépendantes (comme les taux d’achat de crème solaire, la fréquentation des lieux de plein air et la probabilité d’organiser un cook-out) et si oui, lesquelles.

Quand pourriez-vous utiliser l’ANOVA ?

Vous pourriez utiliser l’analyse de la variance (ANOVA) en tant que marketeur lorsque vous souhaitez tester une hypothèse particulière. Vous utiliseriez l’ANOVA pour vous aider à comprendre comment vos différents groupes réagissent, avec une hypothèse nulle pour le test selon laquelle les moyennes des différents groupes sont égales. S’il y a un résultat statistiquement significatif, alors cela signifie que les deux populations sont inégales (ou différentes).

Exemples d’utilisation de l’ANOVA

Vous pouvez vouloir utiliser l’ANOVA pour vous aider à répondre à des questions comme celle-ci :

L’âge, le sexe ou le revenu ont-ils un effet sur la somme qu’une personne dépense dans votre magasin par mois ?

Pour répondre à cette question, une ANOVA factorielle peut être utilisée, puisque vous avez trois variables indépendantes et une variable dépendante. Vous devrez recueillir des données pour différents groupes d’âge (comme 0-20, 21-40, 41-70, 71+), différentes tranches de revenus et tous les sexes concernés. Une ANOVA à deux voies peut alors évaluer simultanément l’effet de ces variables sur votre variable dépendante (les dépenses) et déterminer si elles font une différence.

L’état civil (célibataire, marié, divorcé, veuf) affecte-t-il l’humeur ?

Pour répondre à celle-ci, vous pouvez utiliser une ANOVA à une voie, puisque vous avez une seule variable indépendante (état civil). Vous aurez 4 groupes de données, un pour chacune des catégories d’état civil, et pour chacun d’eux, vous examinerez les scores d’humeur pour voir s’il y a une différence entre les moyennes.

Lorsque vous comprenez comment les groupes au sein de la variable indépendante diffèrent (comme veuf ou célibataire, non marié ou divorcé), vous pouvez commencer à comprendre lequel d’entre eux a un lien avec votre variable dépendante (l’humeur).

Toutefois, vous devez noter que l’ANOVA vous dira seulement que les scores d’humeur moyens dans tous les groupes sont les mêmes ou ne sont pas les mêmes. Elle ne vous dit pas lequel a un score d’humeur moyen significativement plus élevé ou plus bas.

Comprendre les hypothèses de l’ANOVA

Comme d’autres types de tests statistiques, l’ANOVA compare les moyennes de différents groupes et vous montre s’il y a des différences statistiques entre les moyennes. L’ANOVA est classée comme une statistique de test omnibus. Cela signifie qu’elle ne peut pas vous dire quels groupes spécifiques étaient statistiquement significativement différents les uns des autres, mais seulement qu’au moins deux des groupes l’étaient.

Il est important de se rappeler que la principale question de recherche de l’ANOVA est de savoir si les moyennes des échantillons proviennent de populations différentes. L’ANOVA repose sur deux hypothèses :

  1. Quelle que soit la technique de collecte des données, les observations au sein de chaque population échantillonnée sont normalement distribuées.
  2. La population échantillonnée a une variance commune de s2.

Types d’ANOVA

De l’ANOVA à sens unique de base aux variations pour les cas particuliers, comme l’ANOVA par classement pour les variables non catégorielles, il existe une variété d’approches pour utiliser l’ANOVA pour votre analyse de données. Voici une introduction à certaines des plus courantes.

Quelle est la différence entre les tests d’ANOVA à sens unique et à deux sens ?

Ceci est défini par le nombre de variables indépendantes incluses dans le test d’ANOVA. Unidirectionnel signifie que l’analyse de la variance a une seule variable indépendante. À deux voies signifie que le test a deux variables indépendantes. Un exemple de ceci peut être la variable indépendante étant une marque de boisson (unidirectionnelle), ou des variables indépendantes de marque de boisson et combien de calories elle a ou si elle est originale ou diététique.

AnOVA factorielle

L’ANOVA factorielle est un terme générique qui couvre les tests ANOVA avec deux ou plusieurs variables catégorielles indépendantes. (Une ANOVA à deux voies est en fait une sorte d’ANOVA factorielle.) Catégorique signifie que les variables sont exprimées en termes de catégories non hiérarchiques (comme Mountain Dew vs Dr Pepper) plutôt que d’utiliser une échelle classée ou une valeur numérique.

Test F de Welch ANOVA

Stats iQ recommande un test F de Welch non classé si plusieurs hypothèses sur les données se vérifient :

  • La taille de l’échantillon est supérieure à 10 fois le nombre de groupes dans le calcul (les groupes avec une seule valeur sont exclus), et donc le théorème de la limite centrale satisfait à l’exigence de données normalement distribuées.
  • Il y a peu ou pas de valeurs aberrantes dans les données continues/discrètes.

Contrairement au test F légèrement plus courant pour des variances égales, le test F de Welch ne suppose pas que les variances des groupes comparés sont égales. Le fait de supposer des variances égales conduit à des résultats moins précis lorsque les variances ne sont pas, en fait, égales, et ses résultats sont très similaires lorsque les variances sont réellement égales.

ANOVA classée

Lorsque les hypothèses sont violées, l’ANOVA non classée peut ne plus être valide. Dans ce cas, Stats iQ recommande l’ANOVA par rangs (également appelée  » ANOVA sur les rangs « ) ; Stats iQ transforme les données par rangs (remplace les valeurs par leur ordre de classement), puis exécute la même ANOVA sur ces données transformées.

L’ANOVA par rangs est robuste aux valeurs aberrantes et aux données à distribution non normale. La transformation de rang est une méthode bien établie pour se protéger contre la violation des hypothèses (une méthode « non paramétrique ») et on la voit le plus souvent dans la différence entre la corrélation de Pearson et de Spearman. La transformation de rang suivie du test F de Welch a un effet similaire à celui du test de Kruskal-Wallis.

Notez que les tailles d’effet de l’ANOVA classée et non classée (f de Cohen) de Stats iQ sont calculées en utilisant la valeur F du test F pour des variances égales.

Test par paires de Games-Howell

Stats iQ exécute des tests de Games-Howell quel que soit le résultat du test ANOVA (selon Zimmerman, 2010). Stats iQ affiche des tests par paires de Games-Howell non classés ou classés sur la base des mêmes critères que ceux utilisés pour l’ANOVA classée par rapport à l’ANOVA non classée, donc si vous voyez « ANOVA classée » dans la sortie avancée, les tests par paires seront également classés.

Le Games-Howell est essentiellement un test t pour variances inégales qui tient compte de la probabilité accrue de trouver des résultats statistiquement significatifs par hasard lors de l’exécution de nombreux tests par paires. Contrairement au test b de Tukey, légèrement plus courant, le test de Games-Howell ne suppose pas que les variances des groupes comparés sont égales. Le fait de supposer des variances égales conduit à des résultats moins précis lorsque les variances ne sont pas en fait égales, et ses résultats sont très similaires lorsque les variances sont réellement égales (Howell, 2012).

Notez que si le test par paire non classé teste l’égalité des moyennes des deux groupes, le test par paire classé ne teste pas explicitement les différences entre les moyennes ou les médianes des groupes. Il teste plutôt la tendance générale d’un groupe à avoir des valeurs plus grandes que l’autre.

En outre, bien que Stats iQ ne montre pas les résultats des tests par paires pour tout groupe ayant moins de quatre valeurs, ces groupes sont inclus dans le calcul des degrés de liberté pour les autres tests par paires.

Comment effectuer un test ANOVA

Comme pour beaucoup de tests statistiques plus anciens, il est possible de faire une ANOVA en utilisant un calcul manuel basé sur des formules. Vous pouvez également effectuer une ANOVA à l’aide d’un certain nombre de progiciels et de systèmes statistiques populaires, tels que R, SPSS ou Minitab. Un développement plus récent consiste à utiliser des outils automatisés tels que Stats iQ de Qualtrics, qui rendent l’analyse statistique plus accessible et plus simple que jamais.

Stats iQ et ANOVA

Stats iQ de Qualtrics peut vous aider à exécuter un test ANOVA. Lorsque vous sélectionnez une variable catégorielle avec trois groupes ou plus et une variable continue ou discrète, Stats iQ exécute une ANOVA à sens unique (test F de Welch) et une série de tests  » post hoc  » par paire (tests de Games-Howell).

L’ANOVA à sens unique teste une relation globale entre les deux variables, et les tests par paire testent chaque paire possible de groupes pour voir si un groupe a tendance à avoir des valeurs plus élevées que l’autre.

Comment exécuter un test d’ANOVA à travers Stats iQ

Le test de Stat globale des moyennes dans Stats iQ agit comme une ANOVA, testant la relation entre une variable catégorielle et une variable numérique en testant les différences entre deux moyennes ou plus. Ce test produit une valeur p pour déterminer si la relation est significative ou non.

Pour exécuter une ANOVA dans StatsiQ, suivez les étapes suivantes :

  • Sélectionnez une variable avec 3+ groupes et une avec des chiffres
  • Sélectionnez « Relate »
  • Vous obtiendrez alors une ANOVA, une « taille de l’effet » associée et un résumé simple et facile à comprendre

Tableaux croisés Qualtrics et ANOVA

Vous pouvez également exécuter un test ANOVA par le biais de la fonction Tableaux croisés Qualtrics. Voici comment :

  • Assurez-vous que votre variable « banner » (colonne) a 3+ groupes et que votre variable « stub » (lignes) a des nombres (comme l’âge) ou des recodes numériques (comme « Very Satisfied » = 7)
  • Sélectionnez « Overall stat test of averages »
  • Vous verrez une valeur p d’ANOVA de base

Quelles sont les limites de l’ANOVA ?

Alors que l’ANOVA vous aidera à analyser la différence de moyennes entre deux variables indépendantes, elle ne vous dira pas quels groupes statistiques étaient différents les uns des autres. Si votre test renvoie une statistique F significative (la valeur que vous obtenez lorsque vous exécutez un test ANOVA), vous devrez peut-être exécuter un test ad hoc (comme le test de la moindre différence significative) pour vous dire exactement quels groupes avaient une différence de moyennes.

Considérations supplémentaires avec l’ANOVA

  • Avec des tailles d’échantillon plus petites, les données peuvent être inspectées visuellement pour déterminer si elles sont en fait normalement distribuées ; si c’est le cas, les résultats des tests t non classés sont toujours valables même pour les petits échantillons. En pratique, cette évaluation peut être difficile à faire, c’est pourquoi Stats iQ recommande des tests t classés par défaut pour les petits échantillons.
  • Avec des tailles d’échantillon plus importantes, les valeurs aberrantes sont moins susceptibles d’affecter négativement les résultats. Stats iQ utilise la « clôture extérieure » de Tukey pour définir les valeurs aberrantes comme des points situés à plus de trois fois l’écart intraquartile au-dessus du 75e ou en dessous du 25e point de percentile.
  • Des données comme « Le plus haut niveau d’éducation terminé » ou « L’ordre d’arrivée au marathon » sont sans ambiguïté ordinales. Bien que les échelles de Likert (comme une échelle de 1 à 7 où 1 est Très insatisfait et 7 est Très satisfait) soient techniquement ordinales, il est courant en sciences sociales de les traiter comme si elles étaient continues (c’est-à-dire, avec un test t non classé).

Lisez-en plus sur les types d’analyse statistique supplémentaires :

  • Analyse conjointe
  • T-Tests
  • Analyse croisée
  • Analyse en grappes
  • Analyse factorielle

.