Steekproeven zijn het statistische proces van het selecteren van een deelverzameling (een “steekproef” genoemd) van een interessante populatie met het doel waarnemingen te doen en statistische gevolgtrekkingen te maken over die populatie. Sociaal-wetenschappelijk onderzoek gaat over het algemeen over het afleiden van gedragspatronen binnen specifieke populaties. We kunnen geen volledige populaties bestuderen omwille van haalbaarheids- en kostenbeperkingen, en daarom moeten we een representatieve steekproef selecteren uit de populatie van belang voor observatie en analyse. Het is uiterst belangrijk een steekproef te kiezen die werkelijk representatief is voor de bevolking, zodat de conclusies die uit de steekproef worden getrokken, kunnen worden gegeneraliseerd naar de betrokken bevolking. Onjuiste en bevooroordeelde steekproeftrekking is de voornaamste reden voor de vaak uiteenlopende en onjuiste conclusies in opiniepeilingen en exit polls die voorafgaand aan elke Amerikaanse presidentsverkiezing worden uitgevoerd door verschillende peilinggroepen, zoals CNN/Gallup Poll, ABC en CBS.
Het steekproeftrekkingsproces
Figuur 8.1. Het steekproefproces
Het steekproefproces bestaat uit verschillende fasen. De eerste fase is het bepalen van de doelpopulatie. Een populatie kan worden gedefinieerd als alle personen of voorwerpen ( analyse-eenheid ) met de kenmerken die men wenst te bestuderen. De analyse-eenheid kan een persoon, een groep, een organisatie, een land, een object of een andere entiteit zijn waarover men wetenschappelijke conclusies wil trekken. Soms ligt de populatie voor de hand. Als een fabrikant bijvoorbeeld wil bepalen of eindproducten die op een productielijn zijn vervaardigd, aan bepaalde kwaliteitseisen voldoen of moeten worden afgedankt en opnieuw moeten worden bewerkt, dan bestaat de populatie uit alle eindproducten die in die productiefaciliteit zijn vervaardigd. Op andere momenten kan de doelpopulatie iets moeilijker te begrijpen zijn. Als u de belangrijkste factoren voor academisch leren bij middelbare scholieren wilt vaststellen, wat is dan uw doelgroep: middelbare scholieren, hun leraren, schooldirecteuren of ouders? Het juiste antwoord in dit geval is middelbare scholieren, want u bent geïnteresseerd in hun prestaties, niet in die van hun leraren, ouders of scholen. Evenzo, als u het gedrag van roulettewielen wilt analyseren om bevooroordeelde wielen te identificeren, is uw interessante populatie niet verschillende waarnemingen van een enkel roulettewiel, maar verschillende roulettewielen (d.w.z. hun gedrag over een oneindige reeks wielen).
De tweede stap in het steekproefproces is het kiezen van een steekproefkader . Dit is een toegankelijk deel van de doelpopulatie (meestal een lijst met contactinformatie) waaruit een steekproef kan worden getrokken. Als uw doelgroep bestaat uit professionele werknemers op het werk, omdat u niet alle professionele werknemers over de hele wereld kunt bereiken, zal een meer realistisch steekproefkader bestaan uit werknemerslijsten van een of twee lokale bedrijven die bereid zijn aan uw studie deel te nemen. Als uw doelpopulatie bestaat uit organisaties, dan kunnen de Fortune 500-lijst van bedrijven of de Standard & Poor’s (S&P) lijst van bedrijven die geregistreerd zijn bij de New York Stock exchange aanvaardbare steekproefkaders zijn.
Merk op dat steekproefkaders mogelijk niet volledig representatief zijn voor de populatie in het algemeen, en als dat zo is, zijn conclusies die uit een dergelijke steekproef zijn afgeleid mogelijk niet generaliseerbaar naar de populatie. Bijvoorbeeld, als uw doelpopulatie de werknemers van organisaties in het algemeen is (bijvoorbeeld, u wilt het gevoel van eigenwaarde van werknemers in deze populatie bestuderen) en uw steekproefkader bestaat uit werknemers van autobedrijven in het Amerikaanse Midwesten, zijn de bevindingen van dergelijke groepen mogelijk niet eens generaliseerbaar naar de Amerikaanse beroepsbevolking in het algemeen, laat staan de mondiale werkplek. Dit komt omdat de Amerikaanse auto-industrie de laatste 50 jaar onder zware concurrentiedruk heeft gestaan en talrijke reorganisaties en inkrimpingen heeft gekend, wat mogelijk heeft geleid tot een laag moreel en gevoel van eigenwaarde bij de werknemers. Bovendien is het grootste deel van de Amerikaanse beroepsbevolking werkzaam in de dienstensector of in kleine bedrijven, en niet in de auto-industrie. Een steekproef van werknemers uit de Amerikaanse auto-industrie is dus niet bijzonder representatief voor de Amerikaanse beroepsbevolking. Evenzo omvat de Fortune 500-lijst de 500 grootste Amerikaanse ondernemingen, die niet representatief is voor alle Amerikaanse bedrijven in het algemeen, waarvan de meeste middelgrote en kleine bedrijven zijn in plaats van grote bedrijven, en daarom een vertekend steekproefkader vormt. Met de S&P-lijst daarentegen kunt u grote, middelgrote en/of kleine bedrijven selecteren, afhankelijk van het feit of u de S&P large-cap, mid-cap of small-cap lijsten gebruikt, maar deze lijst omvat beursgenoteerde bedrijven (en geen particuliere bedrijven) en is dus nog steeds vertekend. Merk ook op dat de populatie waaruit een steekproef wordt getrokken, niet noodzakelijk dezelfde is als de populatie waarover we eigenlijk informatie willen. Als een onderzoeker bijvoorbeeld het succespercentage van een nieuw programma voor “stoppen met roken” wil bepalen, dan is de doelpopulatie het aantal rokers dat toegang had tot dit programma, en dat kan een onbekende populatie zijn. De onderzoeker kan dus een steekproef nemen van patiënten die bij een lokale medische instelling aankomen voor een behandeling om te stoppen met roken, van wie sommigen misschien niet zijn blootgesteld aan dit specifieke “stoppen met roken”-programma, in welk geval het steekproefkader niet overeenkomt met de populatie van belang.
De laatste stap bij het trekken van steekproeven is het kiezen van een steekproef uit het steekproefkader met behulp van een goed gedefinieerde steekproeftechniek. Steekproeftechnieken kunnen worden gegroepeerd in twee grote categorieën: kanssteekproeven (aselecte steekproeven) en niet-kanssteekproeven. Waarschijnlijkheidssteekproeftrekking is ideaal als generaliseerbaarheid van de resultaten belangrijk is voor uw studie, maar er kunnen unieke omstandigheden zijn waarin niet-probeerheidssteekproeftrekking ook gerechtvaardigd kan zijn. Deze technieken worden in de volgende twee paragrafen besproken.
Probability Sampling
Probability sampling is een techniek waarbij elke eenheid in de populatie een kans (niet-nulkans) heeft om in de steekproef te worden geselecteerd, en deze kans nauwkeurig kan worden bepaald. De aldus verkregen steekproefstatistieken, zoals steekproefgemiddelde of standaardafwijking, zijn onvertekende schattingen van populatieparameters, mits de steekproefeenheden worden gewogen volgens hun selectiekans. Alle kanssteekproeven hebben twee kenmerken gemeen: (1) elke eenheid in de populatie heeft een bekende niet-nulkans om te worden bemonsterd, en (2) de bemonsteringsprocedure omvat een willekeurige selectie op een bepaald punt. De verschillende soorten waarschijnlijkheidssteekproeftrekkingstechnieken zijn:
Eenvoudige aselecte steekproeftrekking. Bij deze techniek krijgen alle mogelijke deelverzamelingen van een populatie (nauwkeuriger gezegd, van een steekproefkader) een gelijke kans om te worden geselecteerd. De kans dat een willekeurige verzameling van n eenheden wordt geselecteerd uit een totaal van N eenheden in een steekproefkader is N C n . Steekproefstatistieken zijn dus onvertekende schattingen van populatieparameters, zonder enige weging. Bij enkelvoudige aselecte steekproeftrekking worden de respondenten willekeurig geselecteerd uit een steekproefkader, maar bij grote steekproefkaders wordt meestal een tabel met willekeurige getallen of een geautomatiseerde generator van willekeurige getallen gebruikt. Als u bijvoorbeeld 200 bedrijven wilt selecteren voor een enquête uit een lijst van 1000 bedrijven, kunt u, als deze lijst is ingevoerd in een spreadsheet zoals Excel, de functie RAND() van Excel gebruiken om willekeurige getallen te genereren voor elk van de 1000 klanten op die lijst. Vervolgens sorteer je de lijst in oplopende volgorde van het overeenkomstige willekeurige getal, en selecteer je de eerste 200 cliënten op die gesorteerde lijst. Dit is de eenvoudigste van alle technieken voor kanssteekproeftrekking; de eenvoud is echter ook de kracht van deze techniek. Omdat het steekproefkader niet is onderverdeeld of gepartitioneerd, is de steekproef onbevooroordeeld en zijn de conclusies het meest generaliseerbaar van alle technieken voor kanssteekproeftrekking.
Systematische steekproeftrekking. Bij deze techniek wordt het steekproefkader volgens bepaalde criteria gerangschikt en worden de elementen met regelmatige tussenpozen uit die geordende lijst geselecteerd. Bij systematische bemonstering wordt een willekeurig begin gemaakt en wordt vervolgens elk k-de element vanaf dat punt geselecteerd, waarbij k = N / n , waarbij k de verhouding is tussen de grootte van het steekproefkader N en de gewenste steekproefgrootte n , en formeel de bemonsteringsverhouding wordt genoemd. Het is belangrijk dat het startpunt niet automatisch het eerste in de lijst is, maar willekeurig wordt gekozen uit de eerste k elementen van de lijst. In ons vorig voorbeeld van het selecteren van 200 bedrijven uit een lijst van 1000 bedrijven, kunt u de 1000 bedrijven sorteren in toenemende (of afnemende) volgorde van hun grootte (d.w.z. aantal werknemers of jaarlijkse inkomsten), willekeurig een van de eerste vijf bedrijven op de gesorteerde lijst selecteren, en vervolgens elk vijfde bedrijf op de lijst selecteren. Dit proces zal ervoor zorgen dat er geen oververtegenwoordiging is van grote of kleine bedrijven in uw steekproef, maar eerder dat bedrijven van alle groottes over het algemeen uniform vertegenwoordigd zijn, zoals in uw steekproefkader. Met andere woorden, de steekproef is representatief voor de populatie, althans op basis van het sorteercriterium.
Gestratificeerde steekproeftrekking. Bij gestratificeerde steekproeftrekking wordt het steekproefkader verdeeld in homogene en elkaar niet overlappende subgroepen (“strata” genoemd), en wordt binnen elke subgroep een enkelvoudige aselecte steekproef getrokken. In het voorgaande voorbeeld van het selecteren van 200 bedrijven uit een lijst van 1000 bedrijven, kunt u beginnen met het categoriseren van de bedrijven op basis van hun grootte als groot (meer dan 500 werknemers), middelgroot (tussen 50 en 500 werknemers), en klein (minder dan 50 werknemers). U kunt dan willekeurig 67 bedrijven selecteren uit elke subgroep om uw steekproef van 200 bedrijven samen te stellen. Aangezien er echter veel meer kleine bedrijven in een steekproefkader zitten dan grote bedrijven, zal het hebben van een gelijk aantal kleine, middelgrote en grote bedrijven de steekproef minder representatief maken voor de populatie (d.w.z. vertekend ten gunste van grote bedrijven die minder in aantal zijn in de doelpopulatie). Dit wordt niet-proportionele gestratificeerde steekproeftrekking genoemd omdat de proportie van de steekproef binnen elke subgroep niet overeenkomt met de proporties in het steekproefkader (of de populatie van belang), en de kleinere subgroep (grote ondernemingen) wordt overbevolkt. Een alternatieve techniek is het selecteren van subgroepsteekproeven in verhouding tot hun grootte in de populatie. Indien er bijvoorbeeld 100 grote ondernemingen, 300 middelgrote ondernemingen en 600 kleine ondernemingen zijn, kunt u 20 ondernemingen bemonsteren uit de “grote” groep, 60 uit de “middelgrote” groep en 120 uit de “kleine” groep. In dit geval blijft de evenredige verdeling van de bedrijven in de populatie behouden in de steekproef, en daarom wordt deze techniek evenredige gestratificeerde steekproeftrekking genoemd. Merk op dat de niet-proportionele benadering bijzonder doeltreffend is voor de vertegenwoordiging van kleine subgroepen, zoals grote ondernemingen, en niet noodzakelijk minder representatief is voor de bevolking dan de proportionele benadering, zolang de bevindingen van de niet-proportionele benadering worden gewogen overeenkomstig het aandeel van een subgroep in de totale bevolking.
Clustersteekproeftrekking. Als u een populatie hebt die verspreid is over een groot geografisch gebied, is het misschien niet haalbaar om een eenvoudige aselecte steekproef van de gehele populatie uit te voeren. In dat geval kan het redelijk zijn de populatie in “clusters” te verdelen (gewoonlijk langs geografische grenzen), willekeurig een paar clusters te bemonsteren en alle eenheden binnen die cluster te meten. Als u bijvoorbeeld stadsbesturen in de staat New York wilt bemonsteren, kunt u, in plaats van de hele staat af te reizen om de belangrijkste stadsambtenaren te ondervragen (zoals u met een eenvoudige aselecte steekproef zou moeten doen), deze besturen clusteren op basis van hun graafschappen, willekeurig een reeks van drie graafschappen selecteren, en dan ambtenaren van elke ambtenaar in die graafschappen ondervragen. Afhankelijk van de verschillen tussen de clusters zal de variabiliteit van de steekproefschattingen in een clustersteekproef over het algemeen echter groter zijn dan die van een enkelvoudige aselecte steekproef, en daarom zijn de resultaten minder generaliseerbaar naar de populatie dan die van enkelvoudige aselecte steekproeven.
Matched-pairs steekproeftrekking. Soms willen onderzoekers twee subgroepen binnen een populatie vergelijken op basis van een specifiek criterium. Bijvoorbeeld, waarom zijn sommige bedrijven consequent winstgevender dan andere bedrijven? Om een dergelijke studie uit te voeren, zou u een steekproefkader van firma’s in “zeer winstgevende” firma’s en “weinig winstgevende firma’s” moeten categoriseren, gebaseerd op brutomarges, winst per aandeel, of een andere maatstaf van winstgevendheid. U zou dan een eenvoudige aselecte steekproef van bedrijven in één subgroep selecteren, en elk bedrijf in deze groep vergelijken met een bedrijf in de tweede subgroep, gebaseerd op zijn grootte, industriesegment, en/of andere overeenstemmingscriteria. Nu hebt u twee gematchte steekproeven van bedrijven met hoge winstgevendheid en met lage winstgevendheid die u in meer detail kunt bestuderen. Een dergelijke matched-pairs sampling techniek is vaak een ideale manier om bipolaire verschillen tussen verschillende subgroepen binnen een bepaalde populatie te begrijpen.
Multi-stage sampling. De eerder beschreven technieken voor kansbemonstering zijn allemaal voorbeelden van monsternemingstechnieken in één fase. Afhankelijk van uw bemonsteringsbehoeften kunt u deze technieken combineren om een meerfasensteekproef uit te voeren. U kunt bijvoorbeeld een lijst van bedrijven stratificeren op basis van bedrijfsgrootte, en vervolgens binnen elk stratum systematisch steekproeven nemen. Dit is een combinatie van gestratificeerde en systematische steekproeven in twee fasen. Evenzo kunt u beginnen met een cluster van schooldistricten in de staat New York, en binnen elke cluster een enkelvoudige aselecte steekproef van scholen selecteren; binnen elke school een enkelvoudige aselecte steekproef van klassen selecteren; en binnen elk klasseniveau een enkelvoudige aselecte steekproef van leerlingen selecteren voor onderzoek. In dit geval hebt u een bemonsteringsproces in vier fasen dat bestaat uit cluster- en enkelvoudige aselecte steekproeven.
Non-probability Sampling
Non-probability sampling is een bemonsteringstechniek waarbij sommige eenheden van de populatie nul kans op selectie hebben of waarbij de selectiekans niet nauwkeurig kan worden bepaald. Gewoonlijk worden eenheden geselecteerd op basis van bepaalde niet-willekeurige criteria, zoals quota of gemak. Omdat de selectie niet-willekeurig is, kunnen bij niet-willekeurige steekproeven geen steekproeffouten worden geschat en kan er sprake zijn van een vertekening van de steekproef. Daarom kan informatie uit een steekproef niet worden gegeneraliseerd naar de populatie. Voorbeelden van niet-probability sampling-technieken zijn:
Gemaksbemonstering. Dit is een techniek waarbij een steekproef wordt getrokken uit dat deel van de bevolking dat dicht bij de hand, gemakkelijk beschikbaar of handig is. Als u bijvoorbeeld buiten een winkelcentrum gaat staan en vragenlijsten uitdeelt aan mensen of hen interviewt als ze binnenlopen, is de steekproef van respondenten die u verkrijgt een gemakssteekproef. Dit is een niet-waarschijnlijkheidssteekproef omdat u systematisch alle mensen uitsluit die in andere winkelcentra winkelen. De meningen die u uit uw gekozen steekproef zou krijgen, kunnen de unieke kenmerken van dit winkelcentrum weerspiegelen, zoals de aard van de winkels (bijv. winkels in het hogere segment trekken een meer welgestelde bevolkingsgroep aan), het demografische profiel van de klanten, of de locatie (bijv. een winkelcentrum in de buurt van een universiteit trekt voornamelijk universiteitsstudenten met unieke koopgewoonten aan), en zijn daarom mogelijk niet representatief voor de meningen van de winkelpubliek in het algemeen. De wetenschappelijke generaliseerbaarheid van dergelijke waarnemingen zal dan ook zeer beperkt zijn. Andere voorbeelden van convenience sampling zijn het trekken van steekproeven onder studenten die in een bepaalde klas staan ingeschreven of het trekken van steekproeven onder patiënten die in een bepaalde medische kliniek aankomen. Deze vorm van steekproeftrekking is het nuttigst voor modelproeven, waarbij het doel eerder het testen van instrumenten of het valideren van metingen is dan het verkrijgen van generaliseerbare conclusies.
Quota steekproeftrekking. Bij deze techniek wordt de populatie gesegmenteerd in elkaar uitsluitende subgroepen (net als bij gestratificeerde steekproeftrekking), en vervolgens wordt uit elke subgroep een niet-willekeurige reeks waarnemingen gekozen om aan een vooraf bepaald quotum te voldoen. Bij proportionele quotasteekproeftrekking moet het aandeel van de respondenten in elke subgroep overeenstemmen met dat van de bevolking. Als de Amerikaanse bevolking bijvoorbeeld voor 70% uit blanken, voor 15% uit Latijns-Amerikanen en voor 13% uit Afro-Amerikanen bestaat, en u wilt in een steekproef van 98 mensen hun stemvoorkeur kennen, dan kunt u buiten bij een winkelcentrum gaan staan en de mensen naar hun stemvoorkeur vragen. Maar u zult moeten stoppen met het vragen aan Spaans uitziende mensen wanneer u 15 antwoorden van die subgroep hebt (of Afro-Amerikanen wanneer u 13 antwoorden hebt), terwijl u doorgaat met het steekproeven van andere etnische groepen, zodat de etnische samenstelling van uw steekproef overeenkomt met die van de algemene Amerikaanse bevolking. Niet-proportionele quotasteekproeftrekking is minder beperkend in die zin dat u geen proportionele vertegenwoordiging hoeft te bereiken, maar misschien een minimumomvang in elke subgroep kunt halen. In dit geval kunt u besluiten om 50 respondenten te hebben uit elk van de drie etnische subgroepen (blanken, Latijns-Amerikanen en Afro-Amerikanen), en te stoppen wanneer uw quotum voor elke subgroep is bereikt. Geen van beide soorten quotasteekproeven zal representatief zijn voor de Amerikaanse bevolking, want afhankelijk van het feit of uw onderzoek werd uitgevoerd in een winkelcentrum in New York of Kansas, kunnen uw resultaten totaal verschillend zijn. De niet-proportionele techniek is nog minder representatief voor de bevolking, maar kan wel nuttig zijn omdat zij het mogelijk maakt de mening van kleine en ondervertegenwoordigde groepen te achterhalen door middel van oversampling.
Expert sampling. Dit is een techniek waarbij respondenten op niet-willekeurige wijze worden gekozen op basis van hun deskundigheid inzake het bestudeerde verschijnsel. Om bijvoorbeeld de gevolgen van een nieuw overheidsbeleid zoals de Sarbanes-Oxley-wet te begrijpen, kunt u een steekproef trekken onder een groep accountants uit het bedrijfsleven die met deze wet vertrouwd zijn. Het voordeel van deze aanpak is dat, aangezien deskundigen doorgaans meer vertrouwd zijn met het onderwerp dan niet-deskundigen, de meningen van een steekproef van deskundigen geloofwaardiger zijn dan een steekproef die zowel deskundigen als niet-deskundigen omvat, hoewel de bevindingen nog steeds niet generaliseerbaar zijn naar de algemene bevolking.
Sneeuwbalsteekproeftrekking. Bij sneeuwbalsteekproeftrekking begint u met het identificeren van een paar respondenten die voldoen aan de criteria voor opname in uw onderzoek, en vraagt u hen vervolgens om anderen aan te bevelen die zij kennen en die ook aan uw selectiecriteria voldoen. Als u bijvoorbeeld een enquête wilt houden onder computernetwerkbeheerders en u slechts een of twee van dergelijke mensen kent, kunt u met hen beginnen en hen vragen anderen aan te bevelen die ook aan netwerkbeheer doen. Hoewel deze methode nauwelijks tot representatieve steekproeven leidt, kan het soms de enige manier zijn om moeilijk bereikbare populaties te bereiken of wanneer er geen steekproefkader beschikbaar is.
Statistiek van steekproeven
In de voorgaande hoofdstukken hebben we termen geïntroduceerd als populatieparameter, steekproefstatistiek, en steekproefvertekening. In deze paragraaf zullen we proberen te begrijpen wat deze termen betekenen en hoe ze met elkaar in verband staan.
Wanneer je een bepaalde waarneming van een bepaalde eenheid meet, zoals de reactie van een persoon op een Likert-geschaald item, dan wordt die waarneming een respons genoemd (zie figuur 8.2). Met andere woorden, een respons is een meetwaarde die door een bemonsterde eenheid wordt verstrekt. Elke respondent zal u verschillende antwoorden geven op verschillende items in een instrument. Antwoorden van verschillende respondenten op hetzelfde item of dezelfde waarneming kunnen worden uitgezet in een frequentieverdeling op basis van de frequentie waarmee ze voorkomen. Voor een groot aantal antwoorden in een steekproef heeft deze frequentieverdeling de neiging te lijken op een klokvormige curve, een normale verdeling genoemd, die kan worden gebruikt om algemene kenmerken van de gehele steekproef te schatten, zoals steekproefgemiddelde (gemiddelde van alle waarnemingen in een steekproef) of standaardafwijking (variabiliteit of spreiding van waarnemingen in een steekproef). Deze steekproefschattingen worden steekproefstatistieken genoemd (een “statistiek” is een waarde die wordt geschat op basis van waargenomen gegevens). Populaties hebben ook gemiddelden en standaardafwijkingen die zouden kunnen worden verkregen als we de hele populatie zouden kunnen bemonsteren. Aangezien echter nooit de gehele populatie kan worden bemonsterd, zijn de populatiekenmerken altijd onbekend, en worden zij populatieparameters genoemd (en geen “statistiek” omdat zij niet statistisch worden geschat uit de gegevens). Steekproefstatistieken kunnen afwijken van populatieparameters als de steekproef niet perfect representatief is voor de populatie; het verschil tussen de twee wordt steekproeffout genoemd. Theoretisch, als we de steekproefgrootte geleidelijk zouden kunnen vergroten zodat de steekproef steeds dichter bij de populatie komt, dan zal de steekproeffout afnemen en zal een steekproefstatistiek steeds meer de overeenkomstige populatieparameter benaderen.
Als een steekproef werkelijk representatief is voor de populatie, dan zouden de geschatte steekproefstatistieken identiek moeten zijn aan overeenkomstige theoretische populatieparameters. Hoe weten we of de steekproefstatistieken op zijn minst redelijk dicht bij de populatieparameters liggen? Hiervoor moeten we het concept van een steekproefverdeling begrijpen. Stel je voor dat je drie verschillende aselecte steekproeven uit een gegeven populatie hebt genomen, zoals in figuur 8.3, en dat je voor elke steekproef steekproef steekproefstatistieken hebt afgeleid, zoals steekproefgemiddelde en standaardafwijking. Als elk willekeurig monster werkelijk representatief was voor de populatie, dan zullen je drie steekproefgemiddelden uit de drie willekeurige steekproeven identiek zijn (en gelijk aan de populatieparameter), en de variabiliteit in steekproefgemiddelden zal nul zijn. Maar dit is uiterst onwaarschijnlijk, gezien het feit dat elke willekeurige steekproef waarschijnlijk een andere deelverzameling van de populatie zal vormen, en bijgevolg kunnen hun gemiddelden lichtjes van elkaar verschillen. U kunt echter deze drie steekproefgemiddelden nemen en een frequentiehistogram van steekproefgemiddelden uitzetten. Als het aantal van dergelijke steekproeven toeneemt van drie tot 10 tot 100, wordt het frequentiehistogram een steekproefverdeling. Een steekproefverdeling is dus een frequentieverdeling van een statistische steekproefgrootheid (zoals het steekproefgemiddelde) uit een reeks steekproeven, terwijl de gebruikelijke frequentieverdeling de verdeling van een respons (waarneming) uit een enkele steekproef is. Net als een frequentieverdeling zal ook de steekproefverdeling de neiging hebben meer steekproefstatistieken rond het gemiddelde te clusteren (dat vermoedelijk een schatting is van een populatieparameter), met minder waarden verspreid rond het gemiddelde. Met een oneindig groot aantal steekproeven zal deze verdeling een normale verdeling benaderen. De variabiliteit of spreiding van een statistische steekproefgrootheid in een steekproefverdeling (d.w.z. de standaardafwijking van een statistische steekproefgrootheid) wordt de standaardfout genoemd. De term standaardafwijking is daarentegen gereserveerd voor de variabiliteit van een waargenomen respons uit een enkele steekproef.
Figuur 8.2. Sample Statistic.
De gemiddelde waarde van een sample statistic in een steekproefverdeling wordt verondersteld een schatting te zijn van de onbekende populatieparameter. Op basis van de spreiding van deze steekproefverdeling (d.w.z. op basis van de standaardfout) is het ook mogelijk betrouwbaarheidsintervallen te schatten voor die voorspelde populatieparameter. Het betrouwbaarheidsinterval is de geschatte kans dat een populatieparameter binnen een specifiek interval van steekproefstatistische waarden ligt. Alle normale verdelingen hebben de neiging een 68-95-99 percent-regel te volgen (zie figuur 8.4), die zegt dat meer dan 68% van de gevallen in de verdeling binnen één standaardafwijking van de gemiddelde waarde ligt (µ + 1σ), meer dan 95% van de gevallen in de verdeling binnen twee standaardafwijkingen van het gemiddelde ligt (µ + 2σ), en meer dan 99% van de gevallen in de verdeling binnen drie standaardafwijkingen van de gemiddelde waarde ligt (µ + 3σ). Aangezien een steekproefverdeling met een oneindig aantal steekproeven een normale verdeling zal benaderen, geldt dezelfde 68-95-99-regel, en kan worden gezegd dat:
- (Steekproefstatistiek + één standaardfout) een 68%-betrouwbaarheidsinterval voor de populatieparameter vertegenwoordigt.
- (Steekproefstatistiek + twee standaardfouten) staat voor een 95%-betrouwbaarheidsinterval voor de populatieparameter.
- (Steekproefstatistiek + drie standaardfouten) staat voor een 99%-betrouwbaarheidsinterval voor de populatieparameter.
Figuur 8.3. Een steekproef is “vertekend” (d.w.z. niet representatief voor de populatie) als de steekproefverdeling niet kan worden geschat of als de steekproefverdeling in strijd is met de 68-95-99-procentsregel. Terzijde zij opgemerkt dat in de meeste regressieanalyses waarbij wij de significantie van regressiecoëfficiënten met p<0,05 onderzoeken, wij trachten te zien of de bemonsteringsstatistiek (regressiecoëfficiënt) de overeenkomstige populatieparameter (ware effectgrootte) voorspelt met een betrouwbaarheidsinterval van 95%. Interessant is dat de “zes sigma”-norm probeert fabricagefouten te identificeren buiten het 99%-betrouwbaarheidsinterval of zes standaarddeviaties (standaarddeviatie wordt weergegeven met de Griekse letter sigma), wat significantietests bij p<0,01 vertegenwoordigt.
Figuur 8.4. De 68-95-99 procent-regel voor het betrouwbaarheidsinterval.