Il campionamento è il processo statistico di selezionare un sottoinsieme (chiamato “campione”) di una popolazione di interesse allo scopo di fare osservazioni e deduzioni statistiche su quella popolazione. La ricerca nelle scienze sociali riguarda generalmente la deduzione di modelli di comportamento all’interno di popolazioni specifiche. Non possiamo studiare intere popolazioni a causa di vincoli di fattibilità e di costo, e quindi, dobbiamo selezionare un campione rappresentativo dalla popolazione di interesse per l’osservazione e l’analisi. È estremamente importante scegliere un campione che sia veramente rappresentativo della popolazione in modo che le deduzioni derivate dal campione possano essere generalizzate alla popolazione di interesse. Un campionamento improprio e distorto è la ragione principale delle inferenze spesso divergenti ed errate riportate nei sondaggi d’opinione e negli exit poll condotti da diversi gruppi di sondaggio come CNN/Gallup Poll, ABC e CBS, prima di ogni elezione presidenziale statunitense.
Il processo di campionamento
Figura 8.1. Il processo di campionamento
Il processo di campionamento comprende diverse fasi. La prima fase è la definizione della popolazione target. Una popolazione può essere definita come tutte le persone o oggetti (unità di analisi) con le caratteristiche che si vogliono studiare. L’unità di analisi può essere una persona, un gruppo, un’organizzazione, un paese, un oggetto, o qualsiasi altra entità su cui si desidera trarre conclusioni scientifiche. A volte la popolazione è ovvia. Per esempio, se un produttore vuole determinare se i prodotti finiti fabbricati in una linea di produzione soddisfano determinati requisiti di qualità o devono essere scartati e rilavorati, allora la popolazione consiste nell’intero insieme di prodotti finiti fabbricati in quell’impianto di produzione. Altre volte, la popolazione target può essere un po’ più difficile da capire. Se volete identificare i fattori principali dell’apprendimento accademico tra gli studenti delle scuole superiori, allora qual è la vostra popolazione target: gli studenti delle scuole superiori, i loro insegnanti, i presidi o i genitori? La risposta giusta in questo caso è studenti delle scuole superiori, perché siete interessati al loro rendimento, non al rendimento dei loro insegnanti, genitori o scuole. Allo stesso modo, se volete analizzare il comportamento delle ruote della roulette per identificare le ruote distorte, la vostra popolazione di interesse non è costituita da diverse osservazioni di una singola ruota della roulette, ma da diverse ruote della roulette (cioè il loro comportamento su un insieme infinito di ruote).
Il secondo passo nel processo di campionamento è quello di scegliere una cornice di campionamento. Questa è una sezione accessibile della popolazione di destinazione (di solito una lista con informazioni di contatto) da cui un campione può essere estratto. Se la vostra popolazione target è costituita da impiegati professionisti sul posto di lavoro, poiché non potete accedere a tutti gli impiegati professionisti nel mondo, una struttura di campionamento più realistica sarà costituita da liste di impiegati di una o due aziende locali che sono disposte a partecipare al vostro studio. Se la vostra popolazione target è costituita da organizzazioni, allora la lista di aziende Fortune 500 o la lista Standard & Poor’s (S&P) delle aziende registrate presso la Borsa di New York possono essere cornici di campionamento accettabili.
Nota che le cornici di campionamento possono non essere interamente rappresentative della popolazione in generale, e se è così, le deduzioni derivate da un tale campione possono non essere generalizzabili alla popolazione. Per esempio, se la vostra popolazione di riferimento sono gli impiegati dell’organizzazione in generale (per esempio, volete studiare l’autostima dei dipendenti in questa popolazione) e la vostra struttura di campionamento è composta da dipendenti di aziende automobilistiche nel Midwest americano, i risultati di tali gruppi potrebbero non essere generalizzabili alla forza lavoro americana in generale, per non parlare del posto di lavoro globale. Questo perché l’industria automobilistica americana è stata sottoposta a forti pressioni competitive negli ultimi 50 anni e ha visto numerosi episodi di riorganizzazione e ridimensionamento, probabilmente con conseguente basso morale dei dipendenti e autostima. Inoltre, la maggior parte della forza lavoro americana è impiegata nel settore dei servizi o in piccole imprese, e non nell’industria automobilistica. Quindi, un campione di impiegati dell’industria automobilistica americana non è particolarmente rappresentativo della forza lavoro americana. Allo stesso modo, la lista Fortune 500 include le 500 più grandi imprese americane, che non è rappresentativa di tutte le imprese americane in generale, la maggior parte delle quali sono medie e piccole imprese piuttosto che grandi imprese, ed è quindi un quadro di campionamento distorto. Al contrario, la lista S&P vi permetterà di selezionare aziende grandi, medie e/o piccole, a seconda che usiate le liste S&P large-cap, mid-cap, o small-cap, ma include aziende quotate in borsa (e non aziende private) e quindi ancora distorte. Si noti anche che la popolazione da cui viene estratto un campione potrebbe non essere necessariamente la stessa della popolazione su cui vogliamo effettivamente informazioni. Per esempio, se un ricercatore vuole conoscere il tasso di successo di un nuovo programma per smettere di fumare, allora la popolazione target è l’universo dei fumatori che hanno avuto accesso a questo programma, che può essere una popolazione sconosciuta. Quindi, il ricercatore può campionare i pazienti che arrivano in una struttura medica locale per un trattamento di disassuefazione dal fumo, alcuni dei quali potrebbero non essere stati esposti a questo particolare programma per smettere di fumare, nel qual caso, il quadro di campionamento non corrisponde alla popolazione di interesse.
L’ultima fase del campionamento consiste nello scegliere un campione dal quadro di campionamento utilizzando una tecnica di campionamento ben definita. Le tecniche di campionamento possono essere raggruppate in due grandi categorie: campionamento probabilistico (casuale) e campionamento non probabilistico. Il campionamento probabilistico è ideale se la generalizzabilità dei risultati è importante per il vostro studio, ma ci possono essere circostanze uniche in cui il campionamento non probabilistico può anche essere giustificato. Queste tecniche sono discusse nelle prossime due sezioni.
Campionamento probabilistico
Il campionamento probabilistico è una tecnica in cui ogni unità della popolazione ha una probabilità (probabilità non nulla) di essere selezionata nel campione, e questa probabilità può essere accuratamente determinata. Le statistiche campionarie così prodotte, come la media o la deviazione standard del campione, sono stime imparziali dei parametri della popolazione, a condizione che le unità campionate siano ponderate secondo la loro probabilità di selezione. Tutti i campionamenti probabilistici hanno due attributi in comune: (1) ogni unità della popolazione ha una probabilità nota non nulla di essere campionata, e (2) la procedura di campionamento comporta una selezione casuale in qualche punto. I diversi tipi di tecniche di campionamento probabilistico includono:
Campionamento casuale semplice. In questa tecnica, a tutti i possibili sottoinsiemi di una popolazione (più precisamente, di una cornice di campionamento) viene data un’uguale probabilità di essere selezionati. La probabilità di selezionare qualsiasi insieme di n unità su un totale di N unità in una cornice di campionamento è N C n . Quindi, le statistiche campionarie sono stime imparziali dei parametri della popolazione, senza alcuna ponderazione. Il campionamento casuale semplice comporta la selezione casuale degli intervistati da una struttura di campionamento, ma con grandi strutture di campionamento, di solito si usa una tabella di numeri casuali o un generatore di numeri casuali computerizzato. Per esempio, se si desidera selezionare 200 aziende per l’indagine da una lista di 1000 aziende, se questa lista è inserita in un foglio di calcolo come Excel, è possibile utilizzare la funzione RAND() di Excel per generare numeri casuali per ciascuno dei 1000 clienti della lista. Poi, si ordina la lista in ordine crescente del loro numero casuale corrispondente, e si selezionano i primi 200 clienti della lista ordinata. Questa è la più semplice di tutte le tecniche di campionamento probabilistico; tuttavia, la semplicità è anche la forza di questa tecnica. Poiché il quadro di campionamento non è suddiviso o partizionato, il campione è imparziale e le inferenze sono più generalizzabili tra tutte le tecniche di campionamento probabilistico.
Campionamento sistematico. In questa tecnica, la struttura di campionamento è ordinata secondo alcuni criteri e gli elementi sono selezionati a intervalli regolari attraverso la lista ordinata. Il campionamento sistematico comporta un inizio casuale e poi procede con la selezione di ogni kesimo elemento da quel punto in poi, dove k = N / n , dove k è il rapporto tra la dimensione della cornice di campionamento N e la dimensione del campione desiderato n, ed è formalmente chiamato rapporto di campionamento. È importante che il punto di partenza non sia automaticamente il primo della lista, ma sia invece scelto casualmente tra i primi k elementi della lista. Nel nostro precedente esempio di selezione di 200 aziende da una lista di 1000 aziende, è possibile ordinare le 1000 aziende in ordine crescente (o decrescente) della loro dimensione (cioè, il numero di dipendenti o i ricavi annuali), selezionare a caso una delle prime cinque aziende della lista ordinata, e poi selezionare ogni quinta azienda della lista. Questo processo assicurerà che non ci sia una sovrarappresentazione di aziende grandi o piccole nel vostro campione, ma piuttosto che le aziende di tutte le dimensioni siano generalmente rappresentate in modo uniforme, come è nella vostra struttura di campionamento. In altre parole, il campione è rappresentativo della popolazione, almeno sulla base del criterio di selezione.
Campionamento stratificato. Nel campionamento stratificato, la struttura di campionamento è divisa in sottogruppi omogenei e non sovrapposti (chiamati “strati”), e un campione casuale semplice è estratto all’interno di ogni sottogruppo. Nell’esempio precedente di selezionare 200 aziende da una lista di 1000 aziende, si può iniziare classificando le aziende in base alle loro dimensioni come grandi (più di 500 dipendenti), medie (tra 50 e 500 dipendenti), e piccole (meno di 50 dipendenti). È quindi possibile selezionare in modo casuale 67 aziende da ogni sottogruppo per formare il vostro campione di 200 aziende. Tuttavia, poiché ci sono molte più piccole imprese in una struttura di campionamento che grandi imprese, avere un numero uguale di piccole, medie e grandi imprese renderà il campione meno rappresentativo della popolazione (cioè, distorto a favore delle grandi imprese che sono meno in numero nella popolazione target). Questo è chiamato campionamento stratificato non proporzionale perché la proporzione del campione all’interno di ogni sottogruppo non riflette le proporzioni nella struttura di campionamento (o la popolazione di interesse), e il sottogruppo più piccolo (grandi imprese) è sovracampionato. Una tecnica alternativa sarà quella di selezionare i campioni del sottogruppo in proporzione alla loro dimensione nella popolazione. Per esempio, se ci sono 100 grandi imprese, 300 medie imprese e 600 piccole imprese, si possono campionare 20 imprese dal gruppo “grandi”, 60 dal gruppo “medie” e 120 dal gruppo “piccole”. In questo caso, la distribuzione proporzionale delle aziende nella popolazione è mantenuta nel campione, e quindi questa tecnica è chiamata campionamento stratificato proporzionale. Si noti che l’approccio non proporzionale è particolarmente efficace nel rappresentare piccoli sottogruppi, come le aziende di grandi dimensioni, e non è necessariamente meno rappresentativo della popolazione rispetto all’approccio proporzionale, a condizione che i risultati dell’approccio non proporzionale siano ponderati in base alla proporzione di un sottogruppo nella popolazione complessiva.
Campionamento a cluster. Se avete una popolazione dispersa in un’ampia regione geografica, potrebbe non essere fattibile condurre un semplice campionamento casuale dell’intera popolazione. In tal caso, può essere ragionevole dividere la popolazione in “cluster” (di solito lungo i confini geografici), campionare a caso alcuni cluster e misurare tutte le unità all’interno di quel cluster. Per esempio, se si desidera campionare le amministrazioni comunali nello stato di New York, piuttosto che viaggiare in tutto lo stato per intervistare i funzionari chiave della città (come si potrebbe dover fare con un semplice campione casuale), è possibile raggruppare queste amministrazioni in base alle loro contee, selezionare casualmente un set di tre contee, e poi intervistare i funzionari di ogni funzionario in quelle contee. Tuttavia, a seconda delle differenze tra i cluster, la variabilità delle stime in un campione cluster sarà generalmente più alta di quella di un campione casuale semplice, e quindi i risultati sono meno generalizzabili alla popolazione di quelli ottenuti da campioni casuali semplici.
Campionamento a coppie. A volte, i ricercatori possono voler confrontare due sottogruppi all’interno di una popolazione sulla base di un criterio specifico. Per esempio, perché alcune aziende sono costantemente più redditizie di altre? Per condurre uno studio di questo tipo, si dovrebbe categorizzare una struttura di campionamento di aziende in “aziende ad alta redditività” e “aziende a bassa redditività” sulla base dei margini lordi, degli utili per azione, o qualche altra misura di redditività. Dovreste poi selezionare un semplice campione casuale di aziende in un sottogruppo, e abbinare ogni azienda in questo gruppo con un’azienda nel secondo sottogruppo, sulla base delle sue dimensioni, del segmento industriale, e/o di altri criteri di corrispondenza. Ora, avete due campioni abbinati di aziende ad alta redditività e a bassa redditività che potete studiare più in dettaglio. Questa tecnica di campionamento a coppie abbinate è spesso un modo ideale per comprendere le differenze bipolari tra diversi sottogruppi all’interno di una data popolazione.
Campionamento a più stadi. Le tecniche di campionamento probabilistico descritte in precedenza sono tutti esempi di tecniche di campionamento a stadio singolo. A seconda delle vostre esigenze di campionamento, potete combinare queste tecniche a stadio singolo per condurre un campionamento a più stadi. Per esempio, potete stratificare una lista di aziende in base alle dimensioni dell’azienda e poi condurre un campionamento sistematico all’interno di ogni strato. Questa è una combinazione a due fasi di campionamento stratificato e sistematico. Allo stesso modo, si può iniziare con un gruppo di distretti scolastici nello stato di New York, e all’interno di ogni gruppo, selezionare un campione casuale semplice di scuole; all’interno di ogni scuola, selezionare un campione casuale semplice di livelli di grado; e all’interno di ogni livello di grado, selezionare un campione casuale semplice di studenti da studiare. In questo caso, si ha un processo di campionamento a quattro stadi che consiste nel campionamento a grappolo e casuale semplice.
Campionamento non probabilistico
Il campionamento non probabilistico è una tecnica di campionamento in cui alcune unità della popolazione hanno zero possibilità di selezione o dove la probabilità di selezione non può essere determinata con precisione. Tipicamente, le unità sono selezionate sulla base di alcuni criteri non casuali, come la quota o la convenienza. Poiché la selezione non è casuale, il campionamento non probabilistico non permette la stima degli errori di campionamento e può essere soggetto a un errore di campionamento. Pertanto, le informazioni da un campione non possono essere generalizzate alla popolazione. I tipi di tecniche di campionamento non probabilistico includono:
Campionamento di convenienza. Chiamato anche campionamento accidentale o di opportunità, questa è una tecnica in cui un campione è estratto da quella parte della popolazione che è a portata di mano, prontamente disponibile, o conveniente. Per esempio, se state fuori da un centro commerciale e distribuite questionari alle persone o le intervistate mentre entrano, il campione di intervistati che otterrete sarà un campione di convenienza. Questo è un campione non probabilistico perché state escludendo sistematicamente tutte le persone che fanno acquisti in altri centri commerciali. Le opinioni che otterreste dal campione da voi scelto potrebbero riflettere le caratteristiche uniche di questo centro commerciale, come la natura dei suoi negozi (ad esempio, i negozi di fascia alta attireranno una fascia demografica più ricca), il profilo demografico dei suoi clienti, o la sua posizione (ad esempio, un centro commerciale vicino a un’università attirerà principalmente studenti universitari con abitudini di acquisto uniche), e quindi potrebbe non essere rappresentativo delle opinioni della popolazione di acquirenti in generale. Quindi, la generalizzabilità scientifica di tali osservazioni sarà molto limitata. Altri esempi di campionamento di convenienza sono il campionamento degli studenti iscritti a una certa classe o il campionamento dei pazienti che arrivano in una certa clinica medica. Questo tipo di campionamento è più utile per i test pilota, dove l’obiettivo è il test dello strumento o la convalida della misura piuttosto che ottenere inferenze generalizzabili.
Campionamento per quote. In questa tecnica, la popolazione è segmentata in sottogruppi reciprocamente esclusivi (proprio come nel campionamento stratificato), e poi un insieme non casuale di osservazioni è scelto da ogni sottogruppo per soddisfare una quota predefinita. Nel campionamento proporzionale a quote, la proporzione di intervistati in ogni sottogruppo dovrebbe corrispondere a quella della popolazione. Per esempio, se la popolazione americana è composta per il 70% da caucasici, per il 15% da ispano-americani e per il 13% da afro-americani, e si desidera capire le loro preferenze di voto in un campione di 98 persone, si può stare fuori da un centro commerciale e chiedere alla gente le loro preferenze di voto. Ma dovrete smettere di chiedere alle persone di aspetto ispanico quando avrete 15 risposte da quel sottogruppo (o agli afroamericani quando avrete 13 risposte) anche se continuerete a campionare altri gruppi etnici, in modo che la composizione etnica del vostro campione corrisponda a quella della popolazione generale americana. Il campionamento per quote non proporzionale è meno restrittivo in quanto non dovete raggiungere una rappresentazione proporzionale, ma forse soddisfare una dimensione minima in ogni sottogruppo. In questo caso, si può decidere di avere 50 rispondenti da ciascuno dei tre sottogruppi etnici (caucasici, ispano-americani e afro-americani), e fermarsi quando si raggiunge la quota per ogni sottogruppo. Nessuno dei due tipi di campionamento per quote sarà rappresentativo della popolazione americana, poiché a seconda che lo studio sia stato condotto in un centro commerciale di New York o del Kansas, i risultati potrebbero essere completamente diversi. La tecnica non proporzionale è ancora meno rappresentativa della popolazione, ma può essere utile in quanto permette di catturare le opinioni di gruppi piccoli e sottorappresentati attraverso il sovracampionamento.
Campionamento esperto. Questa è una tecnica in cui gli intervistati sono scelti in modo non casuale in base alla loro competenza sul fenomeno studiato. Per esempio, per capire gli impatti di una nuova politica governativa come il Sarbanes-Oxley Act, si può campionare un gruppo di contabili aziendali che hanno familiarità con questa legge. Il vantaggio di questo approccio è che, poiché gli esperti tendono ad avere più familiarità con l’argomento rispetto ai non esperti, le opinioni di un campione di esperti sono più credibili di un campione che include sia esperti che non esperti, anche se i risultati non sono ancora generalizzabili alla popolazione generale in generale.
Campionamento a palla di neve. Nel campionamento a palla di neve, si inizia identificando alcuni intervistati che corrispondono ai criteri di inclusione nel vostro studio, e poi si chiede loro di raccomandare altri che conoscono e che soddisfano i criteri di selezione. Per esempio, se volete fare un sondaggio sugli amministratori di reti informatiche e conoscete solo una o due persone di questo tipo, potete iniziare con loro e chiedere loro di raccomandare altri che si occupano anche di amministrazione di reti. Anche se questo metodo difficilmente porta a campioni rappresentativi, a volte può essere l’unico modo per raggiungere popolazioni difficili da raggiungere o quando non è disponibile una struttura di campionamento.
Statistica del campionamento
Nelle sezioni precedenti, abbiamo introdotto termini come parametro della popolazione, statistica del campione e bias di campionamento. In questa sezione, cercheremo di capire cosa significano questi termini e come sono collegati tra loro.
Quando si misura una certa osservazione da una data unità, come la risposta di una persona a un item con scala Likert, tale osservazione è chiamata risposta (vedi Figura 8.2). In altre parole, una risposta è un valore di misurazione fornito da un’unità campionata. Ogni intervistato darà risposte diverse a diversi elementi di uno strumento. Le risposte di diversi intervistati allo stesso elemento o osservazione possono essere graficate in una distribuzione di frequenza basata sulla loro frequenza di occorrenza. Per un gran numero di risposte in un campione, questa distribuzione di frequenza tende ad assomigliare a una curva a campana chiamata distribuzione normale, che può essere usata per stimare le caratteristiche generali dell’intero campione, come la media del campione (media di tutte le osservazioni in un campione) o la deviazione standard (variabilità o diffusione delle osservazioni in un campione). Queste stime del campione sono chiamate statistiche del campione (una “statistica” è un valore che viene stimato dai dati osservati). Anche le popolazioni hanno medie e deviazioni standard che potrebbero essere ottenute se potessimo campionare l’intera popolazione. Tuttavia, poiché l’intera popolazione non può mai essere campionata, le caratteristiche della popolazione sono sempre sconosciute, e sono chiamate parametri della popolazione (e non “statistica” perché non sono stimate statisticamente dai dati). Le statistiche del campione possono differire dai parametri della popolazione se il campione non è perfettamente rappresentativo della popolazione; la differenza tra i due è chiamata errore di campionamento. Teoricamente, se potessimo aumentare gradualmente la dimensione del campione in modo che il campione si avvicini sempre più alla popolazione, allora l’errore di campionamento diminuirà e una statistica campionaria si avvicinerà sempre più al corrispondente parametro della popolazione.
Se un campione è veramente rappresentativo della popolazione, allora le statistiche campionarie stimate dovrebbero essere identiche ai corrispondenti parametri teorici della popolazione. Come facciamo a sapere se le statistiche del campione sono almeno ragionevolmente vicine ai parametri della popolazione? Qui, abbiamo bisogno di capire il concetto di una distribuzione di campionamento. Immaginate di aver preso tre diversi campioni casuali da una data popolazione, come mostrato nella figura 8.3, e per ogni campione avete ricavato delle statistiche campionarie come la media e la deviazione standard del campione. Se ogni campione casuale fosse veramente rappresentativo della popolazione, allora le vostre tre medie campionarie dai tre campioni casuali sarebbero identiche (e uguali al parametro della popolazione), e la variabilità nelle medie campionarie sarebbe zero. Ma questo è estremamente improbabile, dato che ogni campione casuale costituirà probabilmente un diverso sottoinsieme della popolazione, e quindi le loro medie potrebbero essere leggermente diverse l’una dall’altra. Tuttavia, potete prendere queste tre medie campionarie e tracciare un istogramma di frequenza delle medie campionarie. Se il numero di tali campioni aumenta da tre a 10 a 100, l’istogramma di frequenza diventa una distribuzione di campionamento. Quindi, una distribuzione di campionamento è una distribuzione di frequenza di una statistica campionaria (come la media del campione) da un insieme di campioni, mentre la distribuzione di frequenza comunemente indicata è la distribuzione di una risposta (osservazione) da un singolo campione. Proprio come una distribuzione di frequenza, la distribuzione di campionamento tenderà anche ad avere più statistiche campionarie raggruppate intorno alla media (che presumibilmente è una stima di un parametro della popolazione), con meno valori sparsi intorno alla media. Con un numero infinitamente grande di campioni, questa distribuzione si avvicinerà a una distribuzione normale. La variabilità o la diffusione di una statistica campione in una distribuzione di campionamento (cioè, la deviazione standard di una statistica di campionamento) è chiamata il suo errore standard. Al contrario, il termine deviazione standard è riservato alla variabilità di una risposta osservata da un singolo campione.
Figura 8.2. Statistica del campione.
Il valore medio di una statistica del campione in una distribuzione di campionamento si presume essere una stima del parametro sconosciuto della popolazione. In base alla diffusione di questa distribuzione di campionamento (cioè, in base all’errore standard), è anche possibile stimare gli intervalli di confidenza per quel parametro di popolazione previsto. L’intervallo di confidenza è la probabilità stimata che un parametro della popolazione si trovi all’interno di un intervallo specifico di valori statistici del campione. Tutte le distribuzioni normali tendono a seguire una regola del 68-95-99 per cento (vedi Figura 8.4), che dice che oltre il 68% dei casi nella distribuzione si trova entro una deviazione standard del valore medio (µ + 1σ), oltre il 95% dei casi nella distribuzione si trova entro due deviazioni standard della media (µ + 2σ), e oltre il 99% dei casi nella distribuzione si trova entro tre deviazioni standard del valore medio (µ + 3σ). Poiché una distribuzione di campionamento con un numero infinito di campioni si avvicina a una distribuzione normale, si applica la stessa regola 68-95-99, e si può dire che:
- (statistica del campione + un errore standard) rappresenta un intervallo di confidenza del 68% per il parametro della popolazione.
- (Statistica del campione + due errori standard) rappresenta un intervallo di confidenza del 95% per il parametro della popolazione.
- (Statistica del campione + tre errori standard) rappresenta un intervallo di confidenza del 99% per il parametro della popolazione.
Figura 8.3. La distribuzione di campionamento.
Un campione è “distorto” (cioè, non rappresentativo della popolazione) se la sua distribuzione di campionamento non può essere stimata o se la distribuzione di campionamento viola la regola del 68-95-99 per cento. Per inciso, si noti che nella maggior parte delle analisi di regressione in cui esaminiamo la significatività dei coefficienti di regressione con p<0,05, stiamo cercando di vedere se la statistica di campionamento (coefficiente di regressione) predice il corrispondente parametro della popolazione (vera dimensione dell’effetto) con un intervallo di confidenza del 95%. È interessante notare che la norma “sei sigma” cerca di identificare i difetti di fabbricazione al di fuori dell’intervallo di confidenza del 99% o sei deviazioni standard (la deviazione standard è rappresentata con la lettera greca sigma), che rappresenta il test di significatività a p<0,01.
Figura 8.4. La regola del 68-95-99 per cento per l’intervallo di confidenza.