Stikprøveudtagning er den statistiske proces, hvor man udvælger en delmængde (kaldet en “stikprøve”) af en population af interesse med henblik på at foretage observationer og statistiske slutninger om denne population. Samfundsvidenskabelig forskning handler generelt om at udlede adfærdsmønstre inden for specifikke populationer. Vi kan ikke undersøge hele populationer af hensyn til gennemførlighed og omkostninger, og derfor må vi udvælge en repræsentativ stikprøve fra den pågældende population med henblik på observation og analyse. Det er yderst vigtigt at vælge en stikprøve, der virkelig er repræsentativ for populationen, således at de konklusioner, der udledes af stikprøven, kan generaliseres tilbage til den pågældende population. Ukorrekt og skæv stikprøveudtagning er den primære årsag til de ofte divergerende og fejlagtige konklusioner, der rapporteres i meningsmålinger og exit polls, der gennemføres af forskellige meningsmålingsgrupper som CNN/Gallup Poll, ABC og CBS forud for hvert amerikansk præsidentvalg.
Stikprøveudtagningsprocessen
Figur 8.1. Stikprøveudtagningsprocessen
Stikprøveudtagningsprocessen består af flere faser. Det første trin er at definere målpopulationen. En population kan defineres som alle personer eller genstande ( analyseenhed ) med de karakteristika, som man ønsker at undersøge. Analyseenheden kan være en person, en gruppe, en organisation, et land, et objekt eller en hvilken som helst anden enhed, som man ønsker at drage videnskabelige slutninger om. Nogle gange er populationen indlysende. Hvis en producent f.eks. ønsker at afgøre, om færdige varer, der fremstilles på en produktionslinje, opfylder visse kvalitetskrav eller skal kasseres og omarbejdes, består populationen af hele mængden af færdige varer, der fremstilles på det pågældende produktionsanlæg. I andre tilfælde kan målpopulationen være lidt sværere at forstå. Hvis du ønsker at identificere de primære drivkræfter bag akademisk læring blandt gymnasieelever, hvad er så din målpopulation: gymnasieelever, deres lærere, skoleledere eller forældre? Det rigtige svar i dette tilfælde er gymnasieelever, fordi du er interesseret i deres præstationer og ikke i deres læreres, forældres eller skolers præstationer. På samme måde, hvis du ønsker at analysere roulettehjuls adfærd for at identificere skæve hjul, er din population af interesse ikke forskellige observationer fra et enkelt roulettehjul, men forskellige roulettehjul (dvs. deres adfærd over et uendeligt sæt af hjul).
Det andet trin i prøveudtagningsprocessen er at vælge en prøveudtagningsramme . Dette er en tilgængelig del af målpopulationen (normalt en liste med kontaktoplysninger), hvorfra der kan udtages en stikprøve. Hvis din målpopulation er professionelle medarbejdere på arbejdspladsen, vil en mere realistisk stikprøveramme, fordi du ikke kan få adgang til alle professionelle medarbejdere i hele verden, være medarbejderlister fra en eller to lokale virksomheder, som er villige til at deltage i din undersøgelse. Hvis din målpopulation er organisationer, kan Fortune 500-listen over virksomheder eller Standard & Poor’s (S&P) liste over virksomheder, der er registreret på børsen i New York, være acceptable stikprøverammer.
Bemærk, at stikprøverammer måske ikke er helt repræsentative for befolkningen som helhed, og i så fald kan de konklusioner, der udledes af en sådan stikprøve, måske ikke generaliseres til befolkningen som helhed. Hvis din målpopulation f.eks. er organisatoriske medarbejdere som helhed (f.eks. hvis du ønsker at undersøge medarbejdernes selvværd i denne population), og din stikprøveramme er medarbejdere i bilvirksomheder i den amerikanske midtvesten, kan resultaterne fra sådanne grupper måske ikke engang generaliseres til den amerikanske arbejdsstyrke som helhed, for slet ikke at tale om den globale arbejdsplads. Dette skyldes, at den amerikanske bilindustri har været under hårdt konkurrencepres i de sidste 50 år og har oplevet adskillige episoder med reorganiseringer og nedskæringer, hvilket muligvis har resulteret i lav medarbejdermoral og lavt selvværd. Desuden er størstedelen af den amerikanske arbejdsstyrke ansat i serviceindustrien eller i små virksomheder og ikke i bilindustrien. Derfor er en stikprøve af ansatte i den amerikanske bilindustri ikke særlig repræsentativ for den amerikanske arbejdsstyrke. Ligeledes omfatter Fortune 500-listen de 500 største amerikanske virksomheder, hvilket ikke er repræsentativt for alle amerikanske virksomheder generelt, hvoraf de fleste er mellemstore og små virksomheder snarere end store virksomheder, og er derfor en skæv prøveudtagningsramme. I modsætning hertil giver S&P-listen mulighed for at vælge store, mellemstore og/eller små virksomheder, afhængigt af om man bruger S&P-listen over store, mellemstore eller små virksomheder, men den omfatter offentligt handlede virksomheder (og ikke private virksomheder) og er derfor stadig skævvredet. Bemærk også, at den population, som en stikprøve er udtaget fra, ikke nødvendigvis er den samme som den population, som vi faktisk ønsker oplysninger om. Hvis en forsker f.eks. ønsker at undersøge succesraten for et nyt rygestopprogram, er målpopulationen det univers af rygere, der har haft adgang til dette program, hvilket kan være en ukendt population. Derfor kan forskeren udtage en stikprøve af patienter, der ankommer til en lokal medicinsk institution med henblik på rygestopbehandling, hvoraf nogle måske ikke har været udsat for dette særlige rygestopprogram, og i så fald svarer stikprøverammen ikke til den relevante population.
Det sidste trin i stikprøveudtagningen er at vælge en stikprøve fra stikprøverammen ved hjælp af en veldefineret stikprøveteknik. Prøvetagningsteknikkerne kan inddeles i to brede kategorier: sandsynlighedsprøver (tilfældige prøver) og ikke-sandsynlighedsprøver. Sandsynlighedsstikprøver er ideelle, hvis det er vigtigt for din undersøgelse, at resultaterne kan generaliseres, men der kan være særlige omstændigheder, hvor ikke-sandsynlighedsstikprøver også kan være berettigede. Disse teknikker behandles i de næste to afsnit.
Probability Sampling
Probability Sampling er en teknik, hvor hver enhed i populationen har en chance (ikke-nul sandsynlighed) for at blive udvalgt i stikprøven, og hvor denne chance kan bestemmes nøjagtigt. De således fremkomne stikprøvestatistikker, som f.eks. stikprøvens gennemsnit eller standardafvigelse, er uvildige skøn over populationsparametre, så længe de enheder, der indgår i stikprøven, vægtes i forhold til deres sandsynlighed for udvælgelse. Alle sandsynlighedsstikprøver har to egenskaber til fælles: (1) hver enhed i populationen har en kendt sandsynlighed på ikke-nul for at blive udtaget, og (2) stikprøveproceduren indebærer tilfældig udvælgelse på et eller andet tidspunkt. De forskellige typer sandsynlighedsstikprøvetagningsteknikker omfatter:
Simpel tilfældig stikprøveudtagning. Ved denne teknik får alle mulige delmængder af en population (mere præcist af en stikprøveramme) samme sandsynlighed for at blive udvalgt. Sandsynligheden for at udvælge et sæt af n enheder ud af i alt N enheder i en stikprøveramme er N C n . Stikprøvestatistikker er derfor uvildige skøn over populationsparametre uden nogen vægtning. Ved simpel tilfældig stikprøveudtagning udvælges respondenterne tilfældigt fra en stikprøveramme, men ved store stikprøverammer anvendes normalt en tabel med tilfældige tal eller en computerstyret tilfældig talgenerator. Hvis man f.eks. ønsker at udvælge 200 firmaer til en undersøgelse fra en liste på 1000 firmaer, kan man, hvis denne liste indtastes i et regneark som Excel, bruge Excels RAND()-funktion til at generere tilfældige tal for hver af de 1000 kunder på listen. Derefter sorterer man listen i stigende rækkefølge efter deres tilsvarende tilfældige tal og udvælger de første 200 kunder på den sorterede liste. Dette er den enkleste af alle sandsynlighedsstikprøvetagningsteknikker; enkelheden er dog også denne tekniks styrke. Fordi prøveudtagningsrammen ikke er underopdelt eller opdelt, er stikprøven upartisk, og konklusionerne er mest generaliserbare blandt alle sandsynlighedsstikprøvetagningsteknikker.
Systematisk stikprøveudtagning. Ved denne teknik er stikprøverammen ordnet efter nogle kriterier, og der udvælges elementer med regelmæssige intervaller gennem denne ordnede liste. Systematisk stikprøveudtagning indebærer en tilfældig start og fortsætter derefter med udvælgelse af hvert k-te element fra dette punkt og fremefter, hvor k = N / n , hvor k er forholdet mellem prøveudtagningsrammens størrelse N og den ønskede stikprøvestørrelse n , og formelt kaldes stikprøveforholdet . Det er vigtigt, at startpunktet ikke automatisk er det første på listen, men at det i stedet vælges tilfældigt blandt de første k elementer på listen. I vores tidligere eksempel med udvælgelse af 200 virksomheder fra en liste med 1 000 virksomheder kan man sortere de 1 000 virksomheder i stigende (eller faldende) rækkefølge efter deres størrelse (dvs. antal ansatte eller årlig omsætning), tilfældigt vælge en af de første fem virksomheder på den sorterede liste og derefter vælge hver femte virksomhed på listen. Denne proces vil sikre, at der ikke er nogen overrepræsentation af store eller små virksomheder i din stikprøve, men at virksomheder af alle størrelser generelt er ensartet repræsenteret, som det er tilfældet i din stikprøveramme. Med andre ord er stikprøven repræsentativ for populationen, i det mindste på grundlag af sorteringskriteriet.
Stratificeret stikprøveudtagning. Ved stratificeret stikprøveudtagning opdeles stikprøverammen i homogene og ikke-overlappende undergrupper (kaldet “strata”), og der udtages en simpel tilfældig stikprøve inden for hver undergruppe. I det foregående eksempel med udvælgelse af 200 virksomheder fra en liste med 1000 virksomheder kan man starte med at kategorisere virksomhederne efter deres størrelse som store (mere end 500 ansatte), mellemstore (mellem 50 og 500 ansatte) og små (under 50 ansatte). Derefter kan du tilfældigt udvælge 67 virksomheder fra hver undergruppe til at udgøre din stikprøve på 200 virksomheder. Da der imidlertid er langt flere små virksomheder i en stikprøveramme end store virksomheder, vil et lige stort antal små, mellemstore og store virksomheder gøre stikprøven mindre repræsentativ for populationen (dvs. den vil være skævvredet til fordel for store virksomheder, som er færre i målpopulationen). Dette kaldes ikke-proportional stratificeret stikprøveudtagning, fordi andelen af stikprøven inden for hver undergruppe ikke afspejler proportionerne i stikprøverammen (eller i den pågældende population), og den mindre undergruppe (store virksomheder) er overudtaget i stikprøven. En alternativ teknik vil være at udvælge stikprøver af undergrupper i forhold til deres størrelse i populationen. Hvis der f.eks. er 100 store virksomheder, 300 mellemstore virksomheder og 600 små virksomheder, kan man udtage 20 virksomheder fra den “store” gruppe, 60 fra den “mellemstore” gruppe og 120 fra den “lille” gruppe. I dette tilfælde bevares den proportionale fordeling af virksomhederne i populationen i stikprøven, og derfor kaldes denne teknik for proportional stratificeret stikprøveudtagning. Bemærk, at den ikke-proportionale metode er særlig effektiv til at repræsentere små undergrupper, f.eks. store virksomheder, og ikke nødvendigvis er mindre repræsentativ for populationen end den proportionale metode, så længe resultaterne af den ikke-proportionale metode vægtes i overensstemmelse med en undergruppes andel af den samlede population.
Klyngestikprøveudtagning. Hvis du har en population, der er spredt over et stort geografisk område, er det måske ikke muligt at foretage en simpel tilfældig stikprøveudtagning af hele populationen. I et sådant tilfælde kan det være rimeligt at opdele populationen i “klynger” (normalt langs geografiske grænser), udtage en tilfældig stikprøve af nogle få klynger og måle alle enheder inden for den pågældende klynge. Hvis man f.eks. ønsker at udtage en stikprøve af bystyrer i staten New York, kan man i stedet for at rejse rundt i hele staten for at interviewe de vigtigste embedsmænd i byerne (som man måske er nødt til at gøre med en simpel tilfældig stikprøve), gruppere disse myndigheder på grundlag af deres amter, tilfældigt udvælge et sæt på tre amter og derefter interviewe embedsmænd fra alle embedsmænd i disse amter. Afhængigt af forskellene mellem klyngerne vil variabiliteten af stikprøvestimaterne i en klyngestikprøve imidlertid generelt være større end i en simpel tilfældig stikprøve, og derfor er resultaterne mindre generaliserbare for populationen end dem, der opnås ved simple tilfældige stikprøver.
Matched-pairs sampling. Nogle gange ønsker forskere måske at sammenligne to undergrupper inden for en population på grundlag af et bestemt kriterium. Hvorfor er nogle virksomheder f.eks. konsekvent mere rentable end andre virksomheder? For at gennemføre en sådan undersøgelse skal man kategorisere en stikprøveramme af virksomheder i “meget rentable” virksomheder og “lidet rentable virksomheder” på grundlag af bruttomarginaler, indtjening pr. aktie eller et andet mål for rentabilitet. Derefter skal man udvælge en simpel tilfældig stikprøve af virksomheder i den ene undergruppe og matche hver virksomhed i denne gruppe med en virksomhed i den anden undergruppe på grundlag af dens størrelse, branchesegment og/eller andre matchningskriterier. Nu har du to matchede stikprøver af virksomheder med høj og lav rentabilitet, som du kan undersøge nærmere. En sådan matched-pairs stikprøveteknik er ofte en ideel metode til at forstå bipolære forskelle mellem forskellige undergrupper inden for en given population.
Multi-stage sampling. De tidligere beskrevne sandsynlighedsstikprøvetagningsteknikker er alle eksempler på enkeltfasede stikprøvetagningsteknikker. Afhængigt af dine behov for stikprøveudtagning kan du kombinere disse enkeltfasede teknikker for at foretage en flerfaset stikprøveudtagning. Du kan f.eks. stratificere en liste over virksomheder på grundlag af virksomhedsstørrelse og derefter foretage systematisk stikprøveudtagning inden for hvert stratum. Dette er en totrins-kombination af stratificeret og systematisk stikprøveudtagning. På samme måde kan man starte med en klynge af skoledistrikter i staten New York og inden for hver klynge udvælge en simpel tilfældig stikprøve af skoler; inden for hver skole udvælge en simpel tilfældig stikprøve af klassetrin; og inden for hvert klassetrin udvælge en simpel tilfældig stikprøve af elever til undersøgelse. I dette tilfælde har du en prøveudtagningsproces i fire faser bestående af klynge- og simpel tilfældig prøveudtagning.
Non-probability Sampling
Nonprobability Sampling er en prøveudtagningsteknik, hvor nogle enheder i populationen har nul chance for at blive udvalgt, eller hvor sandsynligheden for udvælgelse ikke kan bestemmes nøjagtigt. Typisk udvælges enhederne på grundlag af visse ikke-tilfældige kriterier, f.eks. kvoter eller bekvemmelighed. Da udvælgelsen ikke er tilfældig, giver ikke-sandsynlighedsstikprøver ikke mulighed for at estimere stikprøvefejl, og de kan være udsat for en stikprøveforvridning. Oplysninger fra en stikprøve kan derfor ikke generaliseres tilbage til populationen. Typer af ikke-sandsynlighedsbaserede stikprøvetagningsteknikker omfatter:
Betimelighedsstikprøveudtagning. Denne teknik, der også kaldes tilfældig stikprøveudtagning, er en teknik, hvor stikprøven udtages fra den del af populationen, der er tæt på, let tilgængelig eller bekvem. Hvis du f.eks. står uden for et indkøbscenter og uddeler spørgeskemaundersøgelser til folk eller interviewer dem, mens de går ind, vil den stikprøve af respondenter, du vil få, være en bekvemmelighedsstikprøve. Der er tale om en ikke-probabilitetsudvælgelse, fordi du systematisk udelukker alle personer, der handler i andre indkøbscentre. De udtalelser, som du får fra den valgte stikprøve, kan afspejle dette indkøbscenters særlige karakteristika, f.eks. butikkernes art (f.eks. vil butikker i den dyre ende tiltrække en mere velhavende befolkningsgruppe), kundernes demografiske profil eller dets beliggenhed (f.eks. vil et indkøbscenter tæt på et universitet primært tiltrække universitetsstuderende med særlige indkøbsvaner), og er derfor måske ikke repræsentative for holdningerne hos den brede kundegruppe. Derfor vil den videnskabelige generaliserbarhed af sådanne observationer være meget begrænset. Andre eksempler på bekvemmelighedsstikprøver er stikprøver af studerende, der er indskrevet i en bestemt klasse, eller stikprøver af patienter, der kommer til en bestemt lægeklinik. Denne type stikprøveudtagning er mest nyttig i forbindelse med pilottest, hvor målet er afprøvning af instrumenter eller validering af målinger snarere end at opnå generaliserbare konklusioner.
Kvoteudtagning. Ved denne teknik segmenteres populationen i gensidigt udelukkende undergrupper (ligesom ved stratificeret stikprøveudtagning), og der vælges derefter et ikke tilfældigt sæt observationer fra hver undergruppe for at opfylde en foruddefineret kvote. Ved proportional kvoteudvælgelse skal andelen af respondenter i hver undergruppe svare til andelen af respondenter i populationen. Hvis den amerikanske befolkning f.eks. består af 70 % hvide, 15 % latinamerikanere og 13 % afroamerikanere, og man ønsker at forstå deres stemmepræferencer i en stikprøve på 98 personer, kan man f.eks. stå uden for et indkøbscenter og spørge folk om deres stemmepræferencer. Men du bliver nødt til at stoppe med at spørge spansktalende personer, når du har 15 svar fra denne undergruppe (eller afroamerikanere, når du har 13 svar), selv om du fortsætter med at udtage prøver fra andre etniske grupper, således at den etniske sammensætning af din stikprøve svarer til sammensætningen af den generelle amerikanske befolkning. Ikke-proportional kvotestikprøveudtagning er mindre restriktiv, idet man ikke behøver at opnå en proportional repræsentation, men måske opfylder en minimumsstørrelse i hver undergruppe. I dette tilfælde kan du beslutte at have 50 respondenter fra hver af de tre etniske undergrupper (kaukasiere, latinamerikanere og afroamerikanere) og stoppe, når din kvote for hver undergruppe er nået. Ingen af disse to former for kvoteudvælgelse vil være repræsentative for den amerikanske befolkning, da resultaterne kan være helt forskellige alt efter, om din undersøgelse blev gennemført i et indkøbscenter i New York eller Kansas. Den ikke-proportionelle teknik er endnu mindre repræsentativ for befolkningen, men kan være nyttig, idet den gør det muligt at indfange meninger fra små og underrepræsenterede grupper gennem overudvælgelse.
Stikprøveudvælgelse af eksperter. Dette er en teknik, hvor respondenterne udvælges på en ikke tilfældig måde på grundlag af deres ekspertise inden for det fænomen, der undersøges. For eksempel kan man for at forstå virkningerne af en ny regeringspolitik som Sarbanes-Oxley-loven udtage en gruppe af virksomhedsrevisorer, der er bekendt med denne lov, som stikprøve. Fordelen ved denne fremgangsmåde er, at da eksperter har en tendens til at være mere fortrolige med emnet end ikke-eksperter, er udtalelser fra en stikprøve af eksperter mere troværdige end en stikprøve, der omfatter både eksperter og ikke-eksperter, selv om resultaterne stadig ikke kan generaliseres til den samlede befolkning i almindelighed.
Snowball sampling. Ved snowball sampling starter du med at identificere nogle få respondenter, der opfylder kriterierne for at indgå i din undersøgelse, og beder dem derefter om at anbefale andre, de kender, som også opfylder dine udvælgelseskriterier. Hvis du f.eks. ønsker at undersøge administratorer af computernetværk, og du kun kender en eller to af disse personer, kan du starte med dem og bede dem om at anbefale andre, der også beskæftiger sig med netværksadministration. Selv om denne metode næppe fører til repræsentative stikprøver, kan det nogle gange være den eneste måde at nå ud til befolkningsgrupper, der er svære at nå, eller når der ikke er nogen stikprøveramme til rådighed.
Stikprøvestatistik
I de foregående afsnit har vi introduceret begreber som populationsparameter, stikprøvestatistik og stikprøveforvridning. I dette afsnit vil vi forsøge at forstå, hvad disse udtryk betyder, og hvordan de er relateret til hinanden.
Når man måler en bestemt observation fra en given enhed, f.eks. en persons svar på et Likert-skaleret emne, kaldes denne observation for et svar (se figur 8.2). Med andre ord er et respons en måleværdi, der leveres af en prøveudtaget enhed. Hver respondent vil give dig forskellige svar på forskellige elementer i et instrument. Svar fra forskellige respondenter på det samme emne eller den samme observation kan grafisk vises i en frekvensfordeling baseret på deres hyppighed af forekomster. For et stort antal svar i en stikprøve har denne frekvensfordeling tendens til at ligne en klokkeformet kurve kaldet en normalfordeling , som kan bruges til at estimere de overordnede karakteristika for hele stikprøven, f.eks. stikprøvens gennemsnit (gennemsnit af alle observationer i en stikprøve) eller standardafvigelse (variabilitet eller spredning af observationer i en stikprøve). Disse stikprøvestimater kaldes stikprøvestatistikker (en “statistik” er en værdi, der estimeres ud fra observerede data). Populationer har også middelværdier og standardafvigelser, som man kunne få, hvis man kunne udtage en stikprøve af hele populationen. Da man imidlertid aldrig kan udtage prøver fra hele populationen, er populationskarakteristika altid ukendte og kaldes populationsparametre (og ikke “statistik”, fordi de ikke er statistisk estimeret ud fra data). Stikprøvestatistik kan afvige fra populationsparametre, hvis stikprøven ikke er fuldstændig repræsentativ for populationen; forskellen mellem de to kaldes stikprøvefejl . Hvis vi teoretisk set kunne øge stikprøvens størrelse gradvist, så stikprøven kommer tættere og tættere på populationen, vil stikprøvefejlen falde, og en stikprøvestatistik vil i stigende grad nærme sig den tilsvarende populationsparameter.
Hvis en stikprøve virkelig er repræsentativ for populationen, så bør de estimerede stikprøvestatistikker være identiske med de tilsvarende teoretiske populationsparametre. Hvordan ved vi, om stikprøvestatistikken i det mindste ligger rimeligt tæt på populationsparametrene? Her er vi nødt til at forstå begrebet stikprøvefordeling . Forestil dig, at du har taget tre forskellige tilfældige stikprøver fra en given population, som vist i figur 8.3, og for hver stikprøve har du udledt stikprøvestatistikker som f.eks. stikprøvens gennemsnit og standardafvigelse. Hvis hver tilfældig stikprøve virkelig var repræsentativ for populationen, vil dine tre stikprøvegennemsnit fra de tre tilfældige stikprøver være identiske (og lig med populationsparameteren), og variationen i stikprøvegennemsnit vil være nul. Men dette er yderst usandsynligt, da hver tilfældig stikprøve sandsynligvis vil udgøre en anden delmængde af populationen, og derfor kan deres gennemsnit være lidt forskellige fra hinanden. Man kan imidlertid tage disse tre stikprøvens gennemsnit og tegne et frekvenshistogram af stikprøvens gennemsnit. Hvis antallet af sådanne stikprøver øges fra tre til 10 til 100, bliver frekvenshistogrammet en stikprøvefordeling. En stikprøvefordeling er således en frekvensfordeling af en stikprøvestatistik (som f.eks. stikprøvens gennemsnit) fra et sæt stikprøver , mens den almindeligt anvendte frekvensfordeling er fordelingen af et svar (en observation) fra en enkelt stikprøve . Ligesom en frekvensfordeling vil stikprøvefordelingen også have en tendens til at have flere stikprøvestatistikker, der er samlet omkring middelværdien (som formodentlig er et skøn over en populationsparameter), med færre værdier spredt omkring middelværdien. Med et uendeligt stort antal stikprøver vil denne fordeling nærme sig en normalfordeling. Variabiliteten eller spredningen af en stikprøvestatistik i en stikprøvefordeling (dvs. standardafvigelsen af en stikprøvestatistik) kaldes dens standardafvigelse . I modsætning hertil er udtrykket standardafvigelse forbeholdt variabiliteten af et observeret svar fra en enkelt prøve.
Figur 8.2. Stikprøvestatistik.
Middelværdien af en stikprøvestatistik i en stikprøvefordeling antages at være et estimat af den ukendte populationsparameter. På grundlag af spredningen af denne stikprøvefordeling (dvs. baseret på standardfejl) er det også muligt at estimere konfidensintervaller for denne forudsigelsespopulationsparameter. Tillidsinterval er den anslåede sandsynlighed for, at en populationsparameter ligger inden for et bestemt interval af stikprøvestatistiske værdier. Alle normalfordelinger har tendens til at følge en 68-95-99-procent-regel (se figur 8.4), som siger, at over 68 % af tilfældene i fordelingen ligger inden for en standardafvigelse fra middelværdien (µ + 1σ), over 95 % af tilfældene i fordelingen ligger inden for to standardafvigelser fra middelværdien (µ + 2σ), og over 99 % af tilfældene i fordelingen ligger inden for tre standardafvigelser fra middelværdien (µ + 3σ). Da en stikprøvefordeling med et uendeligt antal stikprøver vil nærme sig en normalfordeling, gælder den samme 68-95-99-regel, og man kan sige, at:
- (stikprøvestatistik + en standardfejl) repræsenterer et konfidensinterval på 68 % for populationsparameteren.
- (stikprøvestatistik + to standardfejl) repræsenterer et 95 % konfidensinterval for populationsparameteren.
- (stikprøvestatistik + tre standardfejl) repræsenterer et 99 % konfidensinterval for populationsparameteren.
Figur 8.3. Prøveudtagningsfordelingen.
En prøve er “skæv” (dvs. ikke repræsentativ for populationen), hvis dens prøveudtagningsfordeling ikke kan estimeres, eller hvis prøveudtagningsfordelingen overtræder 68-95-99-procentsreglen. Som en sidebemærkning skal det bemærkes, at i de fleste regressionsanalyser, hvor vi undersøger regressionskoefficienters signifikans med p<0,05, forsøger vi at se, om stikprøvestatistikken (regressionskoefficienten) forudsiger den tilsvarende populationsparameter (den sande effektstørrelse) med et 95 % konfidensinterval. Interessant nok forsøger “six sigma”-standarden at identificere fabrikationsfejl uden for 99% konfidensintervallet eller seks standardafvigelser (standardafvigelse repræsenteres ved hjælp af det græske bogstav sigma), hvilket svarer til signifikanstestning ved p<0,01.
Figur 8.4. Reglen 68-95-99 procent for konfidensinterval.