Méthodes de recherche en sciences sociales

L’échantillonnage est le processus statistique de sélection d’un sous-ensemble (appelé « échantillon ») d’une population d’intérêt dans le but de faire des observations et des inférences statistiques sur cette population. La recherche en sciences sociales consiste généralement à déduire des modèles de comportement au sein de populations spécifiques. Nous ne pouvons pas étudier des populations entières pour des raisons de faisabilité et de coût, et nous devons donc sélectionner un échantillon représentatif de la population concernée pour l’observer et l’analyser. Il est extrêmement important de choisir un échantillon qui soit réellement représentatif de la population afin que les déductions tirées de l’échantillon puissent être généralisées à la population concernée. Un échantillonnage incorrect et biaisé est la principale raison des inférences souvent divergentes et erronées rapportées dans les sondages d’opinion et les sondages à la sortie des bureaux de vote réalisés par différents groupes de sondage tels que CNN/Gallup Poll, ABC et CBS, avant chaque élection présidentielle américaine.

Le processus d’échantillonnage

Figure 8.1. Le processus d’échantillonnage

Le processus d’échantillonnage comprend plusieurs étapes. La première étape consiste à définir la population cible. Une population peut être définie comme l’ensemble des personnes ou des éléments ( unité d’analyse ) présentant les caractéristiques que l’on souhaite étudier. L’unité d’analyse peut être une personne, un groupe, une organisation, un pays, un objet ou toute autre entité sur laquelle vous souhaitez tirer des conclusions scientifiques. Parfois, la population est évidente. Par exemple, si un fabricant veut déterminer si les produits finis fabriqués sur une ligne de production répondent à certaines exigences de qualité ou s’ils doivent être mis au rebut et retravaillés, alors la population est constituée de l’ensemble des produits finis fabriqués dans cette installation de production. Dans d’autres cas, la population cible peut être un peu plus difficile à comprendre. Si vous souhaitez identifier les principaux moteurs de l’apprentissage scolaire chez les élèves du secondaire, quelle est votre population cible : les élèves du secondaire, leurs enseignants, les directeurs d’école ou les parents ? La bonne réponse dans ce cas est les élèves du secondaire, car vous vous intéressez à leurs performances, et non à celles de leurs enseignants, parents ou écoles. De même, si vous souhaitez analyser le comportement des roulettes pour identifier les roulettes biaisées, votre population d’intérêt n’est pas les différentes observations d’une seule roulette, mais différentes roulettes (c’est-à-dire leur comportement sur un ensemble infini de roulettes).

La deuxième étape du processus d’échantillonnage consiste à choisir une base de sondage . Il s’agit d’une section accessible de la population cible (généralement une liste avec des informations de contact) à partir de laquelle un échantillon peut être tiré. Si votre population cible est constituée d’employés professionnels au travail, étant donné que vous ne pouvez pas accéder à tous les employés professionnels dans le monde, une base de sondage plus réaliste sera constituée de listes d’employés d’une ou deux entreprises locales qui sont prêtes à participer à votre étude. Si votre population cible est constituée d’organisations, alors la liste des entreprises Fortune 500 ou la liste Standard & Poor’s (S&P) des entreprises enregistrées à la bourse de New York peuvent être des bases de sondage acceptables.

Notez que les bases de sondage peuvent ne pas être entièrement représentatives de la population dans son ensemble, et si c’est le cas, les inférences dérivées d’un tel échantillon peuvent ne pas être généralisables à la population. Par exemple, si votre population cible est constituée d’employés d’organisations au sens large (par exemple, vous souhaitez étudier l’estime de soi des employés dans cette population) et que votre base de sondage est constituée d’employés d’entreprises automobiles du Midwest américain, les conclusions de ces groupes peuvent même ne pas être généralisables à la main-d’œuvre américaine au sens large, sans parler du lieu de travail mondial. En effet, l’industrie automobile américaine a été soumise à de fortes pressions concurrentielles au cours des 50 dernières années et a connu de nombreux épisodes de réorganisation et de réduction des effectifs, ce qui a pu entraîner une baisse du moral et de l’estime de soi des employés. En outre, la majorité de la main-d’œuvre américaine est employée dans les industries de services ou dans les petites entreprises, et non dans l’industrie automobile. Par conséquent, un échantillon d’employés de l’industrie automobile américaine n’est pas particulièrement représentatif de la main-d’œuvre américaine. De même, la liste Fortune 500 comprend les 500 plus grandes entreprises américaines, ce qui n’est pas représentatif de toutes les entreprises américaines en général, dont la plupart sont des moyennes et petites entreprises plutôt que des grandes, et constitue donc une base de sondage biaisée. En revanche, la liste S&P vous permettra de sélectionner des grandes, moyennes et/ou petites entreprises, selon que vous utilisez la liste S&P des grandes, moyennes ou petites capitalisations, mais elle inclut des entreprises cotées en bourse (et non des entreprises privées) et reste donc biaisée. Notez également que la population dont est tiré un échantillon n’est pas nécessairement la même que celle sur laquelle nous voulons réellement obtenir des informations. Par exemple, si un chercheur veut connaître le taux de réussite d’un nouveau programme d’abandon du tabac, la population cible est l’univers des fumeurs qui ont eu accès à ce programme, qui peut être une population inconnue. Par conséquent, le chercheur peut échantillonner des patients arrivant dans un établissement médical local pour un traitement de sevrage tabagique, dont certains peuvent ne pas avoir été exposés à ce programme particulier « d’arrêt du tabac », dans ce cas, la base de sondage ne correspond pas à la population d’intérêt.

La dernière étape de l’échantillonnage consiste à choisir un échantillon dans la base de sondage en utilisant une technique d’échantillonnage bien définie. Les techniques d’échantillonnage peuvent être regroupées en deux grandes catégories : l’échantillonnage probabiliste (aléatoire) et l’échantillonnage non probabiliste. L’échantillonnage probabiliste est idéal si la généralisation des résultats est importante pour votre étude, mais il peut y avoir des circonstances uniques où l’échantillonnage non probabiliste peut également être justifié. Ces techniques sont abordées dans les deux sections suivantes.

Échantillonnage probabiliste

L’échantillonnage probabiliste est une technique dans laquelle chaque unité de la population a une chance (probabilité non nulle) d’être sélectionnée dans l’échantillon, et cette chance peut être déterminée avec précision. Les statistiques d’échantillon ainsi produites, telles que la moyenne de l’échantillon ou l’écart-type, sont des estimations non biaisées des paramètres de la population, à condition que les unités échantillonnées soient pondérées en fonction de leur probabilité de sélection. Tous les échantillonnages probabilistes ont deux attributs en commun : (1) chaque unité de la population a une probabilité connue non nulle d’être échantillonnée, et (2) la procédure d’échantillonnage implique une sélection aléatoire à un moment donné. Les différents types de techniques d’échantillonnage probabiliste comprennent :

L’échantillonnage aléatoire simple. Dans cette technique, tous les sous-ensembles possibles d’une population (plus exactement, d’une base de sondage) ont une probabilité égale d’être sélectionnés. La probabilité de sélectionner tout ensemble de n unités sur un total de N unités dans une base de sondage est N C n . Les statistiques d’échantillonnage sont donc des estimations non biaisées des paramètres de la population, sans aucune pondération. L’échantillonnage aléatoire simple consiste à sélectionner de manière aléatoire des répondants dans une base de sondage, mais pour les grandes bases de sondage, on utilise généralement une table de nombres aléatoires ou un générateur de nombres aléatoires informatisé. Par exemple, si vous souhaitez sélectionner 200 entreprises à interroger à partir d’une liste de 1000 entreprises, si cette liste est saisie dans un tableur comme Excel, vous pouvez utiliser la fonction RAND() d’Excel pour générer des numéros aléatoires pour chacun des 1000 clients de cette liste. Ensuite, vous triez la liste dans l’ordre croissant de leur numéro aléatoire correspondant, et vous sélectionnez les 200 premiers clients de cette liste triée. Il s’agit de la plus simple des techniques d’échantillonnage probabiliste ; cependant, cette simplicité est aussi le point fort de cette technique. Comme la base de sondage n’est pas subdivisée ou partitionnée, l’échantillon est non biaisé et les inférences sont les plus généralisables parmi toutes les techniques d’échantillonnage probabiliste.

Échantillonnage systématique. Dans cette technique, la base de sondage est ordonnée selon certains critères et les éléments sont sélectionnés à intervalles réguliers dans cette liste ordonnée. L’échantillonnage systématique implique un départ aléatoire et procède ensuite à la sélection de chaque k ème élément à partir de ce point, où k = N / n , où k est le rapport entre la taille N de la base de sondage et la taille n de l’échantillon souhaité, et est formellement appelé le ratio d’échantillonnage . Il est important que le point de départ ne soit pas automatiquement le premier de la liste, mais qu’il soit choisi au hasard parmi les k premiers éléments de la liste. Dans notre exemple précédent de sélection de 200 entreprises à partir d’une liste de 1000 entreprises, vous pouvez trier les 1000 entreprises par ordre croissant (ou décroissant) de leur taille (c’est-à-dire le nombre d’employés ou le chiffre d’affaires annuel), sélectionner au hasard l’une des cinq premières entreprises de la liste triée, puis sélectionner chaque cinquième entreprise de la liste. Ce processus garantira qu’il n’y a pas de surreprésentation des grandes ou des petites entreprises dans votre échantillon, mais plutôt que les entreprises de toutes tailles sont généralement représentées de manière uniforme, comme c’est le cas dans votre base de sondage. En d’autres termes, l’échantillon est représentatif de la population, du moins sur la base du critère de tri.

Échantillonnage stratifié. Dans l’échantillonnage stratifié, la base de sondage est divisée en sous-groupes homogènes et non chevauchants (appelés « strates »), et un échantillon aléatoire simple est tiré dans chaque sous-groupe. Dans l’exemple précédent de sélection de 200 entreprises à partir d’une liste de 1000 entreprises, vous pouvez commencer par classer les entreprises en fonction de leur taille : grandes (plus de 500 employés), moyennes (entre 50 et 500 employés) et petites (moins de 50 employés). Vous pouvez ensuite sélectionner au hasard 67 entreprises dans chaque sous-groupe pour constituer votre échantillon de 200 entreprises. Cependant, étant donné qu’il y a beaucoup plus de petites entreprises dans une base de sondage que de grandes entreprises, le fait d’avoir un nombre égal de petites, moyennes et grandes entreprises rendra l’échantillon moins représentatif de la population (c’est-à-dire biaisé en faveur des grandes entreprises qui sont moins nombreuses dans la population cible). C’est ce qu’on appelle l’échantillonnage stratifié non proportionnel, car la proportion de l’échantillon dans chaque sous-groupe ne reflète pas les proportions dans la base de sondage (ou la population d’intérêt), et le plus petit sous-groupe (les grandes entreprises) est sur-échantillonné . Une technique alternative consistera à sélectionner des échantillons de sous-groupes en proportion de leur taille dans la population. Par exemple, s’il y a 100 grandes entreprises, 300 entreprises de taille moyenne et 600 petites entreprises, vous pouvez échantillonner 20 entreprises dans le groupe des « grandes », 60 dans le groupe des « moyennes » et 120 dans le groupe des « petites ». Dans ce cas, la distribution proportionnelle des entreprises dans la population est conservée dans l’échantillon, et cette technique est donc appelée échantillonnage stratifié proportionnel. Notez que l’approche non proportionnelle est particulièrement efficace pour représenter de petits sous-groupes, tels que les entreprises de grande taille, et n’est pas nécessairement moins représentative de la population par rapport à l’approche proportionnelle, tant que les résultats de l’approche non proportionnelle sont pondérés en fonction de la proportion d’un sous-groupe dans la population globale.

Échantillonnage en grappes. Si vous avez une population dispersée sur une grande région géographique, il peut ne pas être possible de réaliser un échantillonnage aléatoire simple de l’ensemble de la population. Dans ce cas, il peut être raisonnable de diviser la population en « grappes » (généralement le long de frontières géographiques), d’échantillonner aléatoirement quelques grappes et de mesurer toutes les unités de cette grappe. Par exemple, si vous souhaitez échantillonner les administrations municipales de l’État de New York, plutôt que de vous déplacer dans tout l’État pour interroger les principaux responsables municipaux (comme vous pourriez avoir à le faire avec un échantillon aléatoire simple), vous pouvez regrouper ces administrations en fonction de leurs comtés, sélectionner aléatoirement un ensemble de trois comtés, puis interroger tous les responsables de ces comtés. Cependant, en fonction des différences entre les grappes, la variabilité des estimations de l’échantillon dans un échantillon en grappes sera généralement plus élevée que celle d’un échantillon aléatoire simple, et donc les résultats sont moins généralisables à la population que ceux obtenus à partir d’échantillons aléatoires simples.

Échantillonnage par paires jumelées. Parfois, les chercheurs peuvent vouloir comparer deux sous-groupes au sein d’une population sur la base d’un critère spécifique. Par exemple, pourquoi certaines entreprises sont-elles systématiquement plus rentables que d’autres ? Pour mener une telle étude, vous devez classer un échantillon d’entreprises en entreprises « très rentables » et « peu rentables », en fonction des marges brutes, des bénéfices par action ou d’une autre mesure de la rentabilité. Vous sélectionneriez ensuite un échantillon aléatoire simple d’entreprises dans un sous-groupe, et vous associeriez chaque entreprise de ce groupe à une entreprise du second sous-groupe, en fonction de sa taille, de son secteur d’activité et/ou d’autres critères de correspondance. Vous disposez maintenant de deux échantillons appariés d’entreprises à forte rentabilité et d’entreprises à faible rentabilité que vous pouvez étudier plus en détail. Cette technique d’échantillonnage par paires appariées est souvent un moyen idéal de comprendre les différences bipolaires entre différents sous-groupes au sein d’une population donnée.

Échantillonnage à plusieurs degrés. Les techniques d’échantillonnage probabiliste décrites précédemment sont toutes des exemples de techniques d’échantillonnage à un seul degré. Selon vos besoins d’échantillonnage, vous pouvez combiner ces techniques à un seul degré pour effectuer un échantillonnage à plusieurs degrés. Par exemple, vous pouvez stratifier une liste d’entreprises en fonction de leur taille, puis effectuer un échantillonnage systématique dans chaque strate. Il s’agit d’une combinaison en deux étapes de l’échantillonnage stratifié et systématique. De même, vous pouvez commencer par un groupe de districts scolaires de l’État de New York et, dans chaque groupe, sélectionner un échantillon aléatoire simple d’écoles ; dans chaque école, sélectionner un échantillon aléatoire simple de niveaux scolaires ; et dans chaque niveau scolaire, sélectionner un échantillon aléatoire simple d’élèves à étudier. Dans ce cas, vous avez un processus d’échantillonnage en quatre étapes composé d’un échantillonnage en grappes et d’un échantillonnage aléatoire simple.

Échantillonnage non probabiliste

L’échantillonnage non probabiliste est une technique d’échantillonnage dans laquelle certaines unités de la population ont zéro chance d’être sélectionnées ou dans laquelle la probabilité de sélection ne peut être déterminée avec précision. Généralement, les unités sont sélectionnées en fonction de certains critères non aléatoires, tels que le quota ou la commodité. Comme la sélection n’est pas aléatoire, l’échantillonnage non probabiliste ne permet pas d’estimer les erreurs d’échantillonnage et peut être soumis à un biais d’échantillonnage. Par conséquent, les informations provenant d’un échantillon ne peuvent pas être généralisées à la population. Les types de techniques d’échantillonnage non probabiliste comprennent :

L’échantillonnage de commodité. Également appelé échantillonnage accidentel ou par opportunité, il s’agit d’une technique dans laquelle un échantillon est tiré de la partie de la population qui est à portée de main, facilement disponible ou pratique. Par exemple, si vous vous tenez à l’extérieur d’un centre commercial et que vous distribuez des questionnaires aux gens ou que vous les interrogez lorsqu’ils entrent, l’échantillon de répondants que vous obtiendrez sera un échantillon de commodité. Il s’agit d’un échantillon non probabiliste car vous excluez systématiquement toutes les personnes qui font leurs courses dans d’autres centres commerciaux. Les opinions que vous obtiendrez de l’échantillon choisi peuvent refléter les caractéristiques uniques de ce centre commercial, telles que la nature de ses magasins (par exemple, les magasins haut de gamme attireront une population plus aisée), le profil démographique de ses clients ou son emplacement (par exemple, un centre commercial situé à proximité d’une université attirera principalement des étudiants universitaires ayant des habitudes d’achat particulières), et peuvent donc ne pas être représentatives des opinions de la population des acheteurs en général. Par conséquent, la généralisation scientifique de ces observations sera très limitée. D’autres exemples d’échantillonnage de convenance sont l’échantillonnage d’étudiants inscrits dans une certaine classe ou l’échantillonnage de patients arrivant dans une certaine clinique médicale. Ce type d’échantillonnage est plus utile pour les essais pilotes, où l’objectif est de tester des instruments ou de valider des mesures plutôt que d’obtenir des inférences généralisables.

Échantillonnage par quotas. Dans cette technique, la population est segmentée en sous-groupes mutuellement exclusifs (tout comme dans l’échantillonnage stratifié), puis un ensemble non aléatoire d’observations est choisi dans chaque sous-groupe pour atteindre un quota prédéfini. Dans l’échantillonnage par quotas proportionnels, la proportion de répondants dans chaque sous-groupe doit correspondre à celle de la population. Par exemple, si la population américaine est composée de 70% de Caucasiens, 15% d’Hispano-Américains et 13% d’Afro-Américains, et que vous souhaitez comprendre leurs préférences en matière de vote dans un échantillon de 98 personnes, vous pouvez vous tenir à l’extérieur d’un centre commercial et demander aux gens leurs préférences en matière de vote. Mais vous devrez cesser d’interroger les personnes d’origine hispanique lorsque vous aurez obtenu 15 réponses de ce sous-groupe (ou les Afro-Américains lorsque vous aurez obtenu 13 réponses), tout en continuant à échantillonner les autres groupes ethniques, afin que la composition ethnique de votre échantillon corresponde à celle de la population américaine générale. L’échantillonnage par quotas non proportionnels est moins restrictif dans la mesure où vous n’êtes pas obligé d’atteindre une représentation proportionnelle, mais peut-être de respecter une taille minimale dans chaque sous-groupe. Dans ce cas, vous pouvez décider d’avoir 50 répondants dans chacun des trois sous-groupes ethniques (caucasiens, hispano-américains et afro-américains), et vous arrêter lorsque votre quota pour chaque sous-groupe est atteint. Aucun des deux types d’échantillonnage par quotas ne sera représentatif de la population américaine, car selon que votre étude a été menée dans un centre commercial de New York ou du Kansas, vos résultats peuvent être totalement différents. La technique non proportionnelle est encore moins représentative de la population mais peut être utile dans la mesure où elle permet de capturer les opinions de petits groupes sous-représentés grâce à un sur-échantillonnage.

Échantillonnage d’experts. Il s’agit d’une technique où les répondants sont choisis de manière non aléatoire en fonction de leur expertise sur le phénomène étudié. Par exemple, afin de comprendre les impacts d’une nouvelle politique gouvernementale telle que la loi Sarbanes-Oxley, vous pouvez échantillonner un groupe de comptables d’entreprise qui sont familiers avec cette loi. L’avantage de cette approche est que, puisque les experts ont tendance à être plus familiers avec le sujet que les non-experts, les opinions d’un échantillon d’experts sont plus crédibles qu’un échantillon qui comprend à la fois des experts et des non-experts, bien que les résultats ne soient toujours pas généralisables à l’ensemble de la population.

L’échantillonnage en boule de neige. Dans l’échantillonnage en boule de neige, vous commencez par identifier quelques répondants qui correspondent aux critères d’inclusion dans votre étude, puis vous leur demandez de recommander d’autres personnes qu’ils connaissent et qui répondent également à vos critères de sélection. Par exemple, si vous souhaitez interroger des administrateurs de réseaux informatiques et que vous ne connaissez qu’une ou deux personnes de ce type, vous pouvez commencer par eux et leur demander de vous recommander d’autres personnes qui s’occupent également d’administration de réseaux. Bien que cette méthode conduise difficilement à des échantillons représentatifs, elle peut parfois être le seul moyen d’atteindre des populations difficiles à atteindre ou lorsqu’aucun cadre d’échantillonnage n’est disponible.

Statistiques d’échantillonnage

Dans les sections précédentes, nous avons introduit des termes tels que paramètre de population, statistique d’échantillon et biais d’échantillonnage. Dans cette section, nous allons essayer de comprendre ce que ces termes signifient et comment ils sont liés les uns aux autres.

Lorsque vous mesurez une certaine observation à partir d’une unité donnée, comme la réponse d’une personne à un item à échelle de Likert, cette observation est appelée une réponse (voir figure 8.2). En d’autres termes, une réponse est une valeur de mesure fournie par une unité échantillonnée. Chaque personne interrogée vous donnera des réponses différentes aux différents éléments d’un instrument. Les réponses de différents répondants au même élément ou à la même observation peuvent être représentées sous forme de graphique dans une distribution de fréquence basée sur leur fréquence d’occurrence. Pour un grand nombre de réponses dans un échantillon, cette distribution de fréquence tend à ressembler à une courbe en forme de cloche appelée distribution normale, qui peut être utilisée pour estimer les caractéristiques globales de l’échantillon entier, telles que la moyenne de l’échantillon (moyenne de toutes les observations dans un échantillon) ou l’écart type (variabilité ou dispersion des observations dans un échantillon). Ces estimations de l’échantillon sont appelées statistiques de l’échantillon (une « statistique » est une valeur qui est estimée à partir de données observées). Les populations ont également des moyennes et des écarts types qui pourraient être obtenus si nous pouvions échantillonner la population entière. Cependant, étant donné que la population entière ne peut jamais être échantillonnée, les caractéristiques de la population sont toujours inconnues et sont appelées paramètres de la population (et non « statistique » car elles ne sont pas estimées statistiquement à partir des données). Les statistiques de l’échantillon peuvent différer des paramètres de la population si l’échantillon n’est pas parfaitement représentatif de la population ; la différence entre les deux est appelée erreur d’échantillonnage . Théoriquement, si nous pouvions augmenter progressivement la taille de l’échantillon pour que celui-ci se rapproche de plus en plus de la population, alors l’erreur d’échantillonnage diminuera et une statistique d’échantillon se rapprochera de plus en plus du paramètre de population correspondant.

Si un échantillon est vraiment représentatif de la population, alors les statistiques d’échantillon estimées devraient être identiques aux paramètres de population théoriques correspondants. Comment savoir si les statistiques de l’échantillon sont au moins raisonnablement proches des paramètres de la population ? Ici, nous devons comprendre le concept de distribution d’échantillonnage. Imaginez que vous ayez prélevé trois échantillons aléatoires différents dans une population donnée, comme illustré à la figure 8.3, et que vous ayez obtenu pour chaque échantillon des statistiques d’échantillonnage telles que la moyenne et l’écart type de l’échantillon. Si chaque échantillon aléatoire était réellement représentatif de la population, alors vos trois moyennes d’échantillon provenant des trois échantillons aléatoires seraient identiques (et égales au paramètre de population), et la variabilité des moyennes d’échantillon serait nulle. Mais ceci est extrêmement improbable, étant donné que chaque échantillon aléatoire constituera probablement un sous-ensemble différent de la population, et donc que leurs moyennes peuvent être légèrement différentes les unes des autres. Cependant, vous pouvez prendre ces trois moyennes d’échantillons et tracer un histogramme de fréquence des moyennes d’échantillons. Si le nombre de ces échantillons passe de trois à 10 puis à 100, l’histogramme de fréquence devient une distribution d’échantillonnage. Par conséquent, une distribution d’échantillonnage est une distribution de fréquence d’une statistique d’échantillon (comme la moyenne d’échantillon) à partir d’un ensemble d’échantillons, tandis que la distribution de fréquence, à laquelle on se réfère généralement, est la distribution d’une réponse (observation) à partir d’un seul échantillon. Tout comme une distribution de fréquence, la distribution d’échantillonnage aura également tendance à avoir plus de statistiques d’échantillon regroupées autour de la moyenne (qui est vraisemblablement une estimation d’un paramètre de population), avec moins de valeurs dispersées autour de la moyenne. Avec un nombre infiniment grand d’échantillons, cette distribution se rapprochera d’une distribution normale. La variabilité ou la dispersion d’une statistique d’échantillon dans une distribution d’échantillonnage (c’est-à-dire l’écart-type d’une statistique d’échantillon) est appelée son erreur-type . En revanche, le terme écart-type est réservé à la variabilité d’une réponse observée à partir d’un seul échantillon.

Figure 8.2. Statistique d’échantillon.

La valeur moyenne d’une statistique d’échantillon dans une distribution d’échantillonnage est présumée être une estimation du paramètre inconnu de la population. En se basant sur la dispersion de cette distribution d’échantillonnage (c’est-à-dire en se basant sur l’erreur standard), il est également possible d’estimer des intervalles de confiance pour ce paramètre de population prédictif. L’intervalle de confiance est la probabilité estimée qu’un paramètre de population se situe dans un intervalle spécifique de valeurs de la statistique d’échantillonnage. Toutes les distributions normales tendent à suivre la règle des 68-95-99 % (voir la figure 8.4), ce qui signifie que plus de 68 % des cas de la distribution se situent à moins d’un écart type de la valeur moyenne (µ + 1σ), plus de 95 % des cas de la distribution se situent à moins de deux écarts types de la moyenne (µ + 2σ) et plus de 99 % des cas de la distribution se situent à moins de trois écarts types de la valeur moyenne (µ + 3σ). Puisqu’une distribution d’échantillonnage avec un nombre infini d’échantillons se rapprochera d’une distribution normale, la même règle des 68-95-99 s’applique, et on peut dire que :

  • (La statistique de l’échantillon + une erreur standard) représente un intervalle de confiance de 68% pour le paramètre de la population.
  • (Statistique de l’échantillon + deux erreurs standard) représente un intervalle de confiance de 95% pour le paramètre de la population.
  • (Statistique de l’échantillon + trois erreurs standard) représente un intervalle de confiance de 99% pour le paramètre de la population.

Figure 8.3. La distribution d’échantillonnage.

Un échantillon est « biaisé » (c’est-à-dire qu’il n’est pas représentatif de la population) si sa distribution d’échantillonnage ne peut pas être estimée ou si la distribution d’échantillonnage viole la règle des 68-95-99 %. En passant, notez que dans la plupart des analyses de régression où nous examinons la signification des coefficients de régression avec p<0,05, nous essayons de voir si la statistique d’échantillonnage (coefficient de régression) prédit le paramètre de population correspondant (taille d’effet réelle) avec un intervalle de confiance de 95 %. Il est intéressant de noter que la norme  » six sigma  » tente d’identifier les défauts de fabrication en dehors de l’intervalle de confiance de 99 % ou de six écarts types (l’écart type est représenté par la lettre grecque sigma), ce qui représente un test de signification à p<0,01.

Figure 8.4. La règle des 68-95-99 % pour l’intervalle de confiance.

.