Metode de cercetare pentru științele sociale

Eșantionarea este procesul statistic de selectare a unui subansamblu (numit „eșantion”) dintr-o populație de interes în scopul de a face observații și deducții statistice despre acea populație. Cercetarea în domeniul științelor sociale se referă, în general, la deducția modelelor de comportamente în cadrul unor populații specifice. Nu putem studia populații întregi din cauza constrângerilor de fezabilitate și de costuri și, prin urmare, trebuie să selectăm un eșantion reprezentativ din populația de interes pentru observare și analiză. Este extrem de important să alegem un eșantion care să fie cu adevărat reprezentativ pentru populație, astfel încât inferențele derivate din eșantion să poată fi generalizate la populația de interes. Eșantionarea incorectă și părtinitoare este principalul motiv pentru inferențele adesea divergente și eronate raportate în sondajele de opinie și sondajele la ieșirea de la urne efectuate de diferite grupuri de sondare, cum ar fi CNN/Gallup Poll, ABC și CBS, înainte de fiecare alegere prezidențială din SUA.

Procesul de eșantionare

Figura 8.1. Procesul de eșantionare

Procesul de eșantionare cuprinde mai multe etape. Prima etapă este definirea populației țintă. O populație poate fi definită ca fiind toate persoanele sau elementele ( unitate de analiză ) cu caracteristicile pe care se dorește să le studieze. Unitatea de analiză poate fi o persoană, un grup, o organizație, o țară, un obiect sau orice altă entitate despre care se dorește să se facă inferențe științifice. Uneori, populația este evidentă. De exemplu, dacă un producător dorește să determine dacă produsele finite fabricate la o linie de producție îndeplinesc anumite cerințe de calitate sau trebuie să fie casate și refăcute, atunci populația este formată din întregul set de produse finite fabricate la acea unitate de producție. Alteori, populația țintă poate fi un pic mai greu de înțeles. Dacă doriți să identificați principalii factori determinanți ai învățării academice în rândul elevilor de liceu, atunci care este populația țintă: elevii de liceu, profesorii lor, directorii de școală sau părinții? Răspunsul corect în acest caz este elevii de liceu, deoarece sunteți interesat de performanța lor, nu de performanța profesorilor, părinților sau școlilor. De asemenea, dacă doriți să analizați comportamentul roților de ruletă pentru a identifica roțile părtinitoare, populația dvs. de interes nu este reprezentată de observații diferite de la o singură roată de ruletă, ci de roți de ruletă diferite (adică, comportamentul lor pe un set infinit de roți).

Al doilea pas în procesul de eșantionare este alegerea unui cadru de eșantionare . Acesta este o secțiune accesibilă a populației țintă (de obicei o listă cu informații de contact) din care poate fi extras un eșantion. Dacă populația dvs. țintă este reprezentată de angajații profesioniști la locul de muncă, deoarece nu puteți avea acces la toți angajații profesioniști din întreaga lume, un cadru de eșantionare mai realist va fi reprezentat de listele de angajați ale uneia sau două companii locale care sunt dispuse să participe la studiul dvs. Dacă populația dvs. țintă este reprezentată de organizații, atunci lista de firme Fortune 500 sau lista Standard & Poor’s (S&P) a firmelor înregistrate la bursa de valori din New York pot fi cadre de eșantionare acceptabile.

Rețineți că este posibil ca cadrele de eșantionare să nu fie în întregime reprezentative pentru populația în general și, în acest caz, inferențele derivate dintr-un astfel de eșantion pot să nu fie generalizabile la nivelul populației. De exemplu, dacă populația dvs. țintă este reprezentată de angajații organizației în general (de exemplu, doriți să studiați stima de sine a angajaților în această populație), iar cadrul dvs. de eșantionare este reprezentat de angajații de la companiile auto din Midwest-ul american, este posibil ca rezultatele obținute din astfel de grupuri să nu poată fi generalizate nici măcar la forța de muncă americană în general, cu atât mai puțin la locul de muncă global. Acest lucru se datorează faptului că industria auto americană a fost supusă unor presiuni concurențiale severe în ultimii 50 de ani și a cunoscut numeroase episoade de reorganizare și reduceri de personal, ceea ce poate avea ca rezultat un moral și o stimă de sine scăzute ale angajaților. În plus, majoritatea forței de muncă americane este angajată în sectorul serviciilor sau în întreprinderi mici, și nu în industria auto. Prin urmare, un eșantion de angajați din industria auto americană nu este deosebit de reprezentativ pentru forța de muncă americană. De asemenea, lista Fortune 500 include cele mai mari 500 de întreprinderi americane, care nu este reprezentativă pentru toate firmele americane în general, cele mai multe dintre acestea fiind mai degrabă întreprinderi mijlocii și mici decât mari, și, prin urmare, reprezintă un cadru de eșantionare tendențios. În schimb, lista S&P vă va permite să selectați întreprinderi mari, mijlocii și/sau mici, în funcție de faptul dacă utilizați listele S&P cu capitalizare mare, medie sau mică, dar include firme cotate la bursă (și nu firme private) și, prin urmare, este în continuare părtinitoare. De asemenea, rețineți că populația din care se extrage un eșantion poate să nu fie neapărat aceeași cu populația despre care dorim de fapt să obținem informații. De exemplu, dacă un cercetător dorește să determine rata de succes a unui nou program de „renunțare la fumat”, atunci populația țintă este universul de fumători care au avut acces la acest program, care poate fi o populație necunoscută. Prin urmare, cercetătorul poate eșantiona pacienții care sosesc la o unitate medicală locală pentru un tratament de renunțare la fumat, dintre care unii s-ar putea să nu fi fost expuși la acest program special de „renunțare la fumat”, caz în care cadrul de eșantionare nu corespunde populației de interes.

Ultima etapă în eșantionare este alegerea unui eșantion din cadrul de eșantionare folosind o tehnică de eșantionare bine definită. Tehnicile de eșantionare pot fi grupate în două mari categorii: eșantionarea probabilă (aleatorie) și eșantionarea neprobabilă. Eșantionarea probabilă este ideală în cazul în care generalizarea rezultatelor este importantă pentru studiul dumneavoastră, dar pot exista circumstanțe unice în care eșantionarea neprobabilă poate fi, de asemenea, justificată. Aceste tehnici sunt discutate în următoarele două secțiuni.

Eșantionare probabilistică

Eșantionarea probabilistică este o tehnică în care fiecare unitate din populație are o șansă (probabilitate diferită de zero) de a fi selectată în eșantion, iar această șansă poate fi determinată cu exactitate. Statisticile eșantionului astfel produse, cum ar fi media eșantionului sau abaterea standard, sunt estimări nepărtinitoare ale parametrilor populației, atâta timp cât unitățile eșantionate sunt ponderate în funcție de probabilitatea lor de selecție. Toate eșantionările probabilistice au două atribute comune: (1) fiecare unitate din populație are o probabilitate cunoscută diferită de zero de a fi eșantionată și (2) procedura de eșantionare implică o selecție aleatorie la un moment dat. Diferitele tipuri de tehnici de eșantionare probabilistică includ:

Eșantionare aleatorie simplă. În această tehnică, toate subseturile posibile ale unei populații (mai exact, ale unui cadru de eșantionare) au o probabilitate egală de a fi selectate. Probabilitatea de a selecta orice set de n unități dintr-un total de N unități dintr-un cadru de eșantionare este N C n . Prin urmare, statisticile de eșantionare sunt estimări nepărtinitoare ale parametrilor populației, fără nicio ponderare. Eșantionarea aleatorie simplă implică selectarea aleatorie a respondenților dintr-un cadru de eșantionare, dar în cazul cadrelor de eșantionare mari, se utilizează de obicei un tabel de numere aleatorii sau un generator computerizat de numere aleatorii. De exemplu, dacă doriți să selectați 200 de firme care să facă obiectul unui sondaj dintr-o listă de 1 000 de firme, dacă această listă este introdusă într-o foaie de calcul, cum ar fi Excel, puteți utiliza funcția RAND() din Excel pentru a genera numere aleatoare pentru fiecare dintre cei 1 000 de clienți de pe lista respectivă. Apoi, sortați lista în ordinea crescătoare a numerelor aleatorii corespunzătoare și selectați primii 200 de clienți din lista sortată. Aceasta este cea mai simplă dintre toate tehnicile de eșantionare probabilă; cu toate acestea, simplitatea este, de asemenea, punctul forte al acestei tehnici. Deoarece cadrul de eșantionare nu este subdivizat sau partiționat, eșantionul este imparțial, iar inferențele sunt cele mai generalizabile dintre toate tehnicile de eșantionare probabilistică.

Eșantionarea sistematică. În această tehnică, cadrul de eșantionare este ordonat în funcție de anumite criterii și elementele sunt selectate la intervale regulate prin această listă ordonată. Eșantionarea sistematică presupune un start aleatoriu și apoi se procedează la selectarea fiecărui al k-lea element din acel punct încolo, unde k = N / n , unde k este raportul dintre dimensiunea cadrului de eșantionare N și dimensiunea dorită a eșantionului n , și se numește în mod formal raportul de eșantionare . Este important ca punctul de plecare să nu fie în mod automat primul din listă, ci să fie ales în mod aleatoriu din primele k elemente ale listei. În exemplul nostru anterior de selectare a 200 de firme dintr-o listă de 1 000 de firme, puteți sorta cele 1 000 de firme în ordinea crescătoare (sau descrescătoare) a mărimii lor (de exemplu, numărul de angajați sau veniturile anuale), puteți selecta aleatoriu una dintre primele cinci firme de pe lista sortată și apoi puteți selecta fiecare a cincea firmă de pe listă. Acest proces va asigura că nu există o suprareprezentare a firmelor mari sau mici în eșantionul dumneavoastră, ci mai degrabă că firmele de toate dimensiunile sunt, în general, reprezentate în mod uniform, așa cum este în cadrul de eșantionare. Cu alte cuvinte, eșantionul este reprezentativ pentru populație, cel puțin pe baza criteriului de sortare.

Eșantionare stratificată. În eșantionarea stratificată, cadrul de eșantionare este împărțit în subgrupuri omogene și care nu se suprapun (numite „straturi”), iar în cadrul fiecărui subgrup se extrage un eșantion aleatoriu simplu. În exemplul anterior de selectare a 200 de firme dintr-o listă de 1000 de firme, puteți începe prin a clasifica firmele în funcție de mărimea lor ca fiind mari (mai mult de 500 de angajați), medii (între 50 și 500 de angajați) și mici (mai puțin de 50 de angajați). Apoi puteți selecta la întâmplare 67 de firme din fiecare subgrup pentru a constitui eșantionul de 200 de firme. Cu toate acestea, având în vedere că există mult mai multe firme mici într-un cadru de eșantionare decât firme mari, un număr egal de firme mici, mijlocii și mari va face ca eșantionul să fie mai puțin reprezentativ pentru populație (și anume, va fi distorsionat în favoarea firmelor mari, care sunt mai puțin numeroase în populația țintă). Acest lucru se numește eșantionare stratificată neproporțională, deoarece proporția eșantionului în cadrul fiecărui subgrup nu reflectă proporțiile din cadrul de eșantionare (sau din populația de interes), iar subgrupul mai mic (firmele mari) este supraeșantionat . O tehnică alternativă va fi aceea de a selecta eșantioane de subgrupuri proporțional cu dimensiunea acestora în cadrul populației. De exemplu, dacă există 100 de firme mari, 300 de firme mijlocii și 600 de firme mici, puteți eșantiona 20 de firme din grupul „mare”, 60 din grupul „mijlociu” și 120 din grupul „mic”. În acest caz, distribuția proporțională a firmelor din populație este păstrată în eșantion și, prin urmare, această tehnică se numește eșantionare stratificată proporțională. Rețineți că abordarea neproporțională este deosebit de eficientă în reprezentarea subgrupurilor mici, cum ar fi firmele de dimensiuni mari, și nu este neapărat mai puțin reprezentativă pentru populație în comparație cu abordarea proporțională, atâta timp cât rezultatele abordării neproporționale sunt ponderate în conformitate cu proporția unui subgrup în ansamblul populației.

Eșantionare pe clustere. În cazul în care aveți o populație dispersată pe o regiune geografică largă, este posibil să nu fie fezabil să realizați o simplă eșantionare aleatorie a întregii populații. În acest caz, poate fi rezonabil să împărțiți populația în „clustere” (de obicei de-a lungul granițelor geografice), să eșantionați aleatoriu câteva clustere și să măsurați toate unitățile din acel cluster. De exemplu, dacă doriți să eșantionați primăriile din statul New York, în loc să vă deplasați în tot statul pentru a intervieva funcționarii cheie ai primăriilor (așa cum ar trebui să faceți în cazul unui eșantion aleatoriu simplu), puteți grupa aceste administrații în funcție de comitatele lor, puteți selecta aleatoriu un set de trei comitate și apoi puteți intervieva funcționarii din fiecare funcționar din aceste comitate. Cu toate acestea, în funcție de diferențele dintre clustere, variabilitatea estimărilor eșantionului într-un eșantion cluster va fi, în general, mai mare decât cea a unui eșantion aleatoriu simplu și, prin urmare, rezultatele sunt mai puțin generalizabile la nivelul populației decât cele obținute din eșantioane aleatorii simple.

Eșantionare pe perechi de perechi. Uneori, cercetătorii pot dori să compare două subgrupuri din cadrul unei populații pe baza unui criteriu specific. De exemplu, de ce unele firme sunt în mod constant mai profitabile decât alte firme? Pentru a realiza un astfel de studiu, ar trebui să clasificați un cadru de eșantionare a firmelor în firme „foarte profitabile” și „firme puțin profitabile” pe baza marjelor brute, a profitului pe acțiune sau a unei alte măsuri de profitabilitate. Ar trebui apoi să selectați un eșantion aleatoriu simplu de firme dintr-un subgrup și să potriviți fiecare firmă din acest grup cu o firmă din cel de-al doilea subgrup, pe baza mărimii sale, a segmentului industrial și/sau a altor criterii de potrivire. Acum, aveți două eșantioane de firme cu profitabilitate ridicată și firme cu profitabilitate scăzută, pe care le puteți studia mai în detaliu. O astfel de tehnică de eșantionare a perechilor potrivite este adesea o modalitate ideală de a înțelege diferențele bipolare dintre diferitele subgrupuri dintr-o anumită populație.

Eșantionare în mai multe etape. Tehnicile de eșantionare probabilă descrise anterior sunt toate exemple de tehnici de eșantionare într-o singură etapă. În funcție de nevoile dumneavoastră de eșantionare, puteți combina aceste tehnici cu o singură etapă pentru a realiza o eșantionare în mai multe etape. De exemplu, puteți stratifica o listă de întreprinderi pe baza mărimii firmei și apoi să efectuați o eșantionare sistematică în cadrul fiecărui strat. Aceasta este o combinație în două etape de eșantionare stratificată și sistematică. De asemenea, puteți începe cu un grup de districte școlare din statul New York și, în cadrul fiecărui grup, puteți selecta un eșantion aleatoriu simplu de școli; în cadrul fiecărei școli, puteți selecta un eșantion aleatoriu simplu de clase și, în cadrul fiecărei clase, puteți selecta un eșantion aleatoriu simplu de elevi pentru studiu. În acest caz, aveți un proces de eșantionare în patru etape care constă în eșantionarea cluster și eșantionarea aleatorie simplă.

Eșantionare neprobabilă

Eșantionarea neprobabilă este o tehnică de eșantionare în care unele unități ale populației au șanse zero de selecție sau în care probabilitatea de selecție nu poate fi determinată cu precizie. În mod obișnuit, unitățile sunt selectate pe baza anumitor criterii nealeatorii, cum ar fi cota sau comoditatea. Deoarece selecția nu este aleatorie, eșantionarea neprobabilă nu permite estimarea erorilor de eșantionare și poate fi supusă unei prejudecăți de eșantionare. Prin urmare, informațiile provenite dintr-un eșantion nu pot fi generalizate la nivelul populației. Tipurile de tehnici de eșantionare neprobabilă includ:

Eșantionare de conveniență. Numită și eșantionare accidentală sau de oportunitate, aceasta este o tehnică în care un eșantion este extras din acea parte a populației care este la îndemână, ușor disponibilă sau convenabilă. De exemplu, dacă stați în fața unui centru comercial și împărțiți chestionare de sondaj oamenilor sau îi intervievați în timp ce intră, eșantionul de respondenți pe care îl veți obține va fi un eșantion de conveniență. Acesta este un eșantion neprobabil, deoarece excludeți în mod sistematic toate persoanele care fac cumpărături în alte centre comerciale. Opiniile pe care le veți obține de la eșantionul pe care l-ați ales pot reflecta caracteristicile unice ale acestui centru comercial, cum ar fi natura magazinelor sale (de exemplu, magazinele de lux vor atrage o categorie demografică mai bogată), profilul demografic al clienților săi sau locația sa (de exemplu, un centru comercial situat în apropierea unei universități va atrage în principal studenți cu obiceiuri de cumpărare unice) și, prin urmare, este posibil să nu fie reprezentative pentru opiniile cumpărătorilor în general. Prin urmare, generalizabilitatea științifică a acestor observații va fi foarte limitată. Alte exemple de eșantionare de conveniență sunt eșantionarea studenților înscriși la un anumit curs sau eșantionarea pacienților care sosesc la o anumită clinică medicală. Acest tip de eșantionare este cel mai util pentru testarea pilot, unde scopul este testarea instrumentului sau validarea măsurătorilor mai degrabă decât obținerea unor inferențe generalizabile.

Eșantionare prin cote. În această tehnică, populația este segmentată în subgrupuri care se exclud reciproc (la fel ca în eșantionarea stratificată), iar apoi un set nealeatoriu de observații este ales din fiecare subgrup pentru a îndeplini o cotă predefinită. În eșantionarea prin cote proporționale , proporția de respondenți din fiecare subgrup ar trebui să corespundă cu cea a populației. De exemplu, dacă populația americană este formată din 70% caucazieni, 15% hispano-americani și 13% afro-americani și doriți să înțelegeți preferințele de vot ale acestora într-un eșantion de 98 de persoane, puteți sta în fața unui centru comercial și întrebați oamenii care sunt preferințele lor de vot. Dar va trebui să încetați să întrebați persoanele cu aspect hispanic atunci când veți avea 15 răspunsuri din acest subgrup (sau afro-americanii atunci când veți avea 13 răspunsuri), chiar dacă veți continua să eșantionați alte grupuri etnice, astfel încât compoziția etnică a eșantionului dvs. să corespundă cu cea a populației americane generale. Eșantionarea prin cote neproporționale este mai puțin restrictivă, în sensul că nu trebuie să obțineți o reprezentare proporțională, ci poate să atingeți o dimensiune minimă în fiecare subgrup. În acest caz, ați putea decide să aveți 50 de respondenți din fiecare dintre cele trei subgrupuri etnice (caucazieni, hispano-americani și afro-americani) și să vă opriți atunci când cota pentru fiecare subgrup este atinsă. Niciunul dintre cele două tipuri de eșantionare prin cote nu va fi reprezentativ pentru populația americană, deoarece, în funcție de faptul că studiul dvs. a fost realizat într-un centru comercial din New York sau din Kansas, rezultatele pot fi complet diferite. Tehnica non-proporțională este și mai puțin reprezentativă pentru populație, dar poate fi utilă prin faptul că permite captarea opiniilor unor grupuri mici și subreprezentate prin supraeșantionare.

Eșantionarea experților. Aceasta este o tehnică în care respondenții sunt aleși în mod nealeatoriu pe baza expertizei lor cu privire la fenomenul studiat. De exemplu, pentru a înțelege impactul unei noi politici guvernamentale, cum ar fi Legea Sarbanes-Oxley, puteți eșantiona un grup de contabili corporativi care sunt familiarizați cu această lege. Avantajul acestei abordări este că, deoarece experții tind să fie mai familiarizați cu subiectul în cauză decât non-experții, opiniile unui eșantion de experți sunt mai credibile decât un eșantion care include atât experți, cât și non-experți, deși constatările tot nu sunt generalizabile la nivelul întregii populații în general.

Eșantionarea cu bulgări de zăpadă. În eșantionarea în bulgăre de zăpadă, începeți prin a identifica câțiva respondenți care corespund criteriilor de includere în studiul dvs. și apoi îi rugați să vă recomande alte persoane pe care le cunosc și care îndeplinesc, de asemenea, criteriile de selecție. De exemplu, dacă doriți să faceți un sondaj în rândul administratorilor de rețele de calculatoare și cunoașteți doar una sau două astfel de persoane, puteți începe cu aceștia și le puteți cere să vă recomande alte persoane care se ocupă, de asemenea, de administrarea rețelei. Deși această metodă conduce cu greu la eșantioane reprezentative, ea poate fi uneori singura modalitate de a ajunge la populații greu accesibile sau atunci când nu este disponibil un cadru de eșantionare.

Statistica eșantionării

În secțiunile anterioare, am introdus termeni precum parametrul populației, statistica eșantionului și prejudecata de eșantionare. În această secțiune, vom încerca să înțelegem ce înseamnă acești termeni și cum sunt legați unul de celălalt.

Când măsurați o anumită observație dintr-o anumită unitate, cum ar fi răspunsul unei persoane la un item cu scala Likert, observația respectivă se numește răspuns (a se vedea figura 8.2). Cu alte cuvinte, un răspuns este o valoare de măsurare furnizată de o unitate eșantionată. Fiecare respondent vă va oferi răspunsuri diferite la diferiți itemi dintr-un instrument. Răspunsurile de la diferiți respondenți la același item sau observație pot fi reprezentate grafic într-o distribuție de frecvență pe baza frecvenței lor de apariție. Pentru un număr mare de răspunsuri dintr-un eșantion, această distribuție de frecvență tinde să semene cu o curbă în formă de clopot numită distribuție normală , care poate fi utilizată pentru a estima caracteristicile generale ale întregului eșantion, cum ar fi media eșantionului (media tuturor observațiilor dintr-un eșantion) sau deviația standard (variabilitatea sau răspândirea observațiilor dintr-un eșantion). Aceste estimări ale eșantionului se numesc statistici ale eșantionului (o „statistică” este o valoare care este estimată din datele observate). Populațiile au, de asemenea, medii și deviații standard care ar putea fi obținute dacă am putea eșantiona întreaga populație. Cu toate acestea, deoarece întreaga populație nu poate fi niciodată eșantionată, caracteristicile populației sunt întotdeauna necunoscute și se numesc parametri ai populației (și nu „statistici”, deoarece nu sunt estimate statistic din date). Statisticile eșantionului pot fi diferite de parametrii populației dacă eșantionul nu este perfect reprezentativ pentru populație; diferența dintre cele două se numește eroare de eșantionare . Teoretic, dacă am putea crește treptat dimensiunea eșantionului astfel încât eșantionul să se apropie din ce în ce mai mult de populație, atunci eroarea de eșantionare va scădea și o statistică a eșantionului se va apropia din ce în ce mai mult de parametrul corespunzător al populației.

Dacă un eșantion este cu adevărat reprezentativ pentru populație, atunci statisticile estimate ale eșantionului ar trebui să fie identice cu parametrii teoretici corespunzători ai populației. Cum știm dacă statisticile eșantionului sunt cel puțin rezonabil de apropiate de parametrii populației? Aici, trebuie să înțelegem conceptul de distribuție de eșantionare . Imaginați-vă că ați prelevat trei eșantioane aleatorii diferite dintr-o anumită populație, așa cum se arată în figura 8.3, și pentru fiecare eșantion ați obținut statisticile eșantionului, cum ar fi media eșantionului și abaterea standard. Dacă fiecare eșantion aleatoriu a fost cu adevărat reprezentativ pentru populație, atunci cele trei medii de eșantionare din cele trei eșantioane aleatorii vor fi identice (și egale cu parametrul populației), iar variabilitatea mediilor de eșantionare va fi zero. Dar acest lucru este extrem de puțin probabil, având în vedere că fiecare eșantion aleatoriu va constitui probabil un subansamblu diferit al populației și, prin urmare, mediile lor pot fi ușor diferite una de cealaltă. Cu toate acestea, puteți lua aceste trei medii ale eșantioanelor și să trasați o histogramă de frecvență a mediilor eșantioanelor. Dacă numărul acestor eșantioane crește de la trei la 10 sau 100, histograma de frecvență devine o distribuție de eșantionare. Prin urmare, o distribuție de eșantionare este o distribuție de frecvență a unei statistici de eșantionare (cum ar fi media eșantionului) dintr-un set de eșantioane , în timp ce distribuția de frecvență la care se face referire în mod obișnuit este distribuția unui răspuns (observație) dintr-un singur eșantion . La fel ca o distribuție de frecvență, distribuția de eșantionare va avea, de asemenea, tendința de a avea mai multe statistici de eșantionare grupate în jurul mediei (care se presupune că este o estimare a unui parametru al populației), cu mai puține valori dispersate în jurul mediei. Cu un număr infinit de mare de eșantioane, această distribuție se va apropia de o distribuție normală. Variabilitatea sau răspândirea unei statistici de eșantionare într-o distribuție de eșantionare (de exemplu, abaterea standard a unei statistici de eșantionare) se numește eroarea standard a acesteia . În schimb, termenul de abatere standard este rezervat pentru variabilitatea unui răspuns observat dintr-un singur eșantion.

Figura 8.2. Statistica eșantionului.

Valoarea medie a unei statistici a eșantionului într-o distribuție de eșantionare este presupusă a fi o estimare a parametrului necunoscut al populației. Pe baza răspândirii acestei distribuții de eșantionare (de exemplu, pe baza erorii standard), este posibil, de asemenea, să se estimeze intervalele de încredere pentru acel parametru de predicție al populației. Intervalul de încredere este probabilitatea estimată ca un parametru al populației să se situeze în cadrul unui anumit interval de valori statistice ale eșantionului. Toate distribuțiile normale tind să urmeze o regulă de 68-95-99% (a se vedea figura 8.4), care spune că peste 68% din cazurile din distribuție se situează în limita unei abateri standard de la valoarea medie (µ + 1σ), peste 95% din cazurile din distribuție se situează în limita a două abateri standard de la medie (µ + 2σ) și peste 99% din cazurile din distribuție se situează în limita a trei abateri standard de la valoarea medie (µ + 3σ). Deoarece o distribuție de eșantionare cu un număr infinit de eșantioane se va apropia de o distribuție normală, se aplică aceeași regulă 68-95-99 și se poate spune că:

  • (Statistica eșantionului + o eroare standard) reprezintă un interval de încredere de 68% pentru parametrul populației.
  • (Statistica eșantionului + două erori standard) reprezintă un interval de încredere de 95% pentru parametrul populației.
  • (Statistica eșantionului + trei erori standard) reprezintă un interval de încredere de 99% pentru parametrul populației.

Figura 8.3. Distribuția de eșantionare.

Un eșantion este „părtinitor” (adică, nu este reprezentativ pentru populație) dacă distribuția sa de eșantionare nu poate fi estimată sau dacă distribuția de eșantionare încalcă regula 68-95-99%. Ca o paranteză, rețineți că, în majoritatea analizelor de regresie în care examinăm semnificația coeficienților de regresie cu p<0,05, încercăm să vedem dacă statistica de eșantionare (coeficientul de regresie) prezice parametrul corespunzător al populației (dimensiunea reală a efectului) cu un interval de încredere de 95%. În mod interesant, standardul „șase sigma” încearcă să identifice defectele de fabricație în afara intervalului de încredere de 99% sau a șase abateri standard (abaterea standard este reprezentată cu ajutorul literei grecești sigma), reprezentând testarea semnificației cu p<0,01.

Figura 8.4. Regula 68-95-99 la sută pentru intervalul de încredere.

.