A mintavétel az a statisztikai folyamat, amelynek során a sokaság egy részhalmazát (az úgynevezett “mintát”) választják ki a sokaságra vonatkozó megfigyelések és statisztikai következtetések céljából. A társadalomtudományi kutatások általában arra irányulnak, hogy bizonyos populációkon belüli viselkedésmintákra következtessenek. A megvalósíthatósági és költségkorlátok miatt nem tudunk teljes populációkat vizsgálni, ezért a megfigyelés és elemzés céljából reprezentatív mintát kell kiválasztanunk az érdeklődésre számot tartó populációból. Rendkívül fontos, hogy olyan mintát válasszunk, amely valóban reprezentatív a populációra nézve, hogy a mintából levont következtetések általánosíthatók legyenek a vizsgált populációra. A helytelen és torzított mintavétel az elsődleges oka a különböző közvélemény-kutató csoportok, például a CNN/Gallup Poll, az ABC és a CBS által minden egyes amerikai elnökválasztás előtt végzett közvélemény-kutatások és exit pollok által közölt, gyakran eltérő és téves következtetéseknek.
A mintavételi folyamat
8.1. ábra. A mintavételi folyamat
A mintavételi folyamat több szakaszból áll. Az első szakasz a célsokaság meghatározása. A populáció úgy definiálható, mint az összes olyan ember vagy elem ( elemzési egység ), amely rendelkezik azokkal a jellemzőkkel, amelyeket vizsgálni kívánunk. Az elemzési egység lehet személy, csoport, szervezet, ország, tárgy vagy bármely más olyan entitás, amelyről tudományos következtetéseket kíván levonni. Néha a populáció nyilvánvaló. Ha például egy gyártó meg akarja határozni, hogy egy gyártósoron gyártott késztermékek megfelelnek-e bizonyos minőségi követelményeknek, vagy selejtezni és átdolgozni kell őket, akkor a sokaságot az adott gyártóüzemben gyártott késztermékek teljes halmaza alkotja. Máskor a célsokaságot egy kicsit nehezebb lehet megérteni. Ha a középiskolások tanulmányi tanulásának elsődleges mozgatórugóit szeretné azonosítani, akkor mi a célsokaság: a középiskolások, a tanáraik, az iskolaigazgatók vagy a szülők? A helyes válasz ebben az esetben a középiskolás diákok, mert az ő teljesítményük érdekli, nem pedig a tanáraik, szüleik vagy iskoláik teljesítménye. Hasonlóképpen, ha a rulettkerekek viselkedését kívánja elemezni, hogy azonosítsa az elfogult kerekeket, az Önt érdeklő populáció nem egyetlen rulettkerék különböző megfigyelései, hanem a különböző rulettkerekek (azaz azok viselkedése a kerekek végtelen sokaságában).
A mintavételi folyamat második lépése a mintavételi keret kiválasztása . Ez a célsokaság egy hozzáférhető része (általában egy lista elérhetőségi adatokkal), ahonnan a mintát ki lehet venni. Ha a célsokasága a munkahelyi hivatásos alkalmazottak, mivel nem férhet hozzá a világ összes hivatásos alkalmazottjához, a reálisabb mintavételi keret egy vagy két olyan helyi vállalat munkavállalói listája lesz, amelyek hajlandóak részt venni a vizsgálatban. Ha a célsokasága szervezetek, akkor a Fortune 500 cégek listája vagy a New York-i tőzsdén bejegyzett cégek Standard & Poor’s (S&P) listája elfogadható mintavételi keret lehet.
Megjegyzendő, hogy a mintavételi keretek nem feltétlenül reprezentálják teljes mértékben a teljes sokaságot, és ha így van, akkor az ilyen mintából levont következtetések nem biztos, hogy általánosíthatók a sokaságra. Például, ha a célpopuláció a szervezeti alkalmazottak egésze (pl. a munkavállalók önbecsülését szeretné tanulmányozni ebben a populációban), és a mintavételi keret az amerikai középnyugati régió autóipari vállalatainak alkalmazottai, az ilyen csoportokból származó megállapítások még az amerikai munkaerő egészére sem biztos, hogy általánosíthatók, nemhogy a globális munkahelyekre. Ennek oka, hogy az amerikai autóipar az elmúlt 50 évben súlyos versenynyomásnak volt kitéve, és számos átszervezési és leépítési epizódot élt meg, ami valószínűleg alacsony munkavállalói morált és önbecsülést eredményezett. Ráadásul az amerikai munkaerő többsége a szolgáltatóiparban vagy kisvállalkozásoknál dolgozik, nem pedig az autóiparban. Ennélfogva az amerikai autóiparban dolgozók mintája nem különösebben reprezentatív az amerikai munkaerőre nézve. Hasonlóképpen, a Fortune 500-as listája az 500 legnagyobb amerikai vállalatot tartalmazza, ami nem reprezentatív az összes amerikai cégre általánosságban, amelyek többsége inkább közepes és kis méretű cég, mint nagyvállalat, és ezért elfogult mintavételi keret. Ezzel szemben az S&P lista lehetővé teszi a nagy, közepes és/vagy kisvállalatok kiválasztását, attól függően, hogy az S&P large-cap, mid-cap vagy small-cap listát használja, de nyilvánosan forgalmazott cégeket tartalmaz (és nem magánvállalatokat), és ezért még mindig elfogult. Vegyük figyelembe azt is, hogy a populáció, amelyből a mintát kivonjuk, nem feltétlenül azonos azzal a populációval, amelyről valójában információt szeretnénk kapni. Ha például egy kutató egy új “leszokási program” sikerességi arányára kíváncsi, akkor a célpopuláció azon dohányosok összessége, akik hozzáférhettek ehhez a programhoz, ami lehet, hogy egy ismeretlen populáció. Ezért a kutató mintát vehet a helyi egészségügyi intézménybe dohányzásról leszoktató kezelésre érkező betegekből, akik közül néhányan esetleg nem voltak kitéve ennek a bizonyos “leszokás a dohányzásról” programnak, ebben az esetben a mintavételi keret nem felel meg a vizsgált populációnak.
A mintavétel utolsó lépése a minta kiválasztása a mintavételi keretből egy jól meghatározott mintavételi technika segítségével. A mintavételi technikák két nagy csoportba sorolhatók: valószínűségi (véletlenszerű) mintavétel és nem valószínűségi mintavétel. A valószínűségi mintavétel ideális, ha az eredmények általánosíthatósága fontos a vizsgálat szempontjából, de lehetnek olyan egyedi körülmények, amikor a nem valószínűségi mintavétel is indokolt lehet. Ezeket a technikákat a következő két szakaszban tárgyaljuk.
Valószínűségi mintavétel
A valószínűségi mintavétel olyan technika, amelyben a sokaság minden egységének van esélye (nem nulla valószínűsége) arra, hogy a mintába kerüljön, és ez az esély pontosan meghatározható. Az így előállított mintavételi statisztikák, mint például a minta átlaga vagy szórása, a sokasági paraméterek torzítatlan becslései, amennyiben a mintavételezett egységeket a kiválasztás valószínűségének megfelelően súlyozzák. Minden valószínűségi mintavételnek két közös jellemzője van: (1) a sokaság minden egységének ismert, nem nulla valószínűsége van a mintavételre, és (2) a mintavételi eljárás valamikor véletlenszerű kiválasztást tartalmaz. A valószínűségi mintavételi eljárások különböző típusai a következők:
Egyszerű véletlen mintavétel. Ennél a technikánál a sokaság (pontosabban a mintavételi keret) minden lehetséges részhalmaza azonos valószínűséggel kerül kiválasztásra. A mintavételi keretben lévő N egységből bármely n egységből álló halmaz kiválasztásának valószínűsége N C n . A mintavételi statisztikák tehát a sokasági paraméterek torzítatlan, súlyozás nélküli becslései. Az egyszerű véletlenszerű mintavétel során a válaszadókat véletlenszerűen választják ki egy mintavételi keretből, de nagy mintavételi keretek esetén általában véletlenszám-táblázatot vagy számítógépes véletlenszám-generátort használnak. Ha például egy 1000 céget tartalmazó listából 200 céget szeretne kiválasztani a felméréshez, ha ezt a listát egy Excelhez hasonló táblázatkezelőbe írja be, akkor az Excel RAND() függvényét használhatja a listán szereplő 1000 ügyfél mindegyikének véletlenszámok generálásához. Ezután rendezze a listát a megfelelő véletlen számok növekvő sorrendjébe, és válassza ki a rendezett lista első 200 ügyfelét. Ez a legegyszerűbb a valószínűségi mintavételi technikák közül; azonban az egyszerűség egyben a technika erőssége is. Mivel a mintavételi keret nincs felosztva vagy partícionálva, a minta torzítatlan, és a következtetések az összes valószínűségi mintavételi technika közül a legjobban általánosíthatók.
Szisztematikus mintavétel. Ennél a technikánál a mintavételi keretet bizonyos kritériumok szerint rendezik, és az elemeket rendszeres időközönként választják ki a rendezett listán keresztül. A szisztematikus mintavételezés véletlenszerű kezdéssel kezdődik, majd ettől a ponttól kezdve minden k-adik elem kiválasztásával folytatódik, ahol k = N / n , ahol k az N mintavételi keret méretének és a kívánt n mintaméretnek az aránya, és formálisan mintavételi aránynak nevezik. Fontos, hogy a kezdőpont nem automatikusan az első a listán, hanem véletlenszerűen választják ki a lista első k eleméből. Előző példánkban, amikor egy 1000 céget tartalmazó listából 200 céget választunk ki, az 1000 céget méretük (azaz az alkalmazottak száma vagy az éves bevétel) szerint növekvő (vagy csökkenő) sorrendbe rendezhetjük, véletlenszerűen kiválaszthatjuk a rendezett lista első öt cégének egyikét, majd kiválaszthatjuk a lista minden ötödik cégét. Ez az eljárás biztosítja, hogy a mintában nem lesznek felülreprezentálva a nagy vagy a kis cégek, hanem hogy minden méretű cég általában egyenletesen legyen képviselve, ahogyan a mintavételi keretben is. Más szóval a minta reprezentatív a sokaságra nézve, legalábbis a válogatási kritérium alapján.
Stratifikált mintavétel. A rétegzett mintavétel során a mintavételi keretet homogén és nem átfedő alcsoportokra (úgynevezett “rétegekre”) osztják, és minden alcsoporton belül egyszerű véletlenszerű mintát húznak. Az előző példában, amikor egy 1000 céget tartalmazó listából 200 céget választunk ki, kezdhetjük azzal, hogy a cégeket méretük alapján nagy (több mint 500 alkalmazott), közepes (50 és 500 alkalmazott között) és kis (50 alkalmazottnál kevesebb) kategóriákba soroljuk. Ezután minden alcsoportból véletlenszerűen kiválaszthat 67 céget, hogy kialakítsa a 200 cégből álló mintát. Mivel azonban a mintavételi keretben sokkal több kisvállalat van, mint nagyvállalat, a kis-, közép- és nagyvállalatok egyenlő számának megléte miatt a minta kevésbé lesz reprezentatív a sokaságra nézve (azaz a célsokaságban kisebb számban szereplő nagyvállalatok javára torzít). Ezt nem arányos rétegzett mintavételnek nevezik, mivel a minta aránya az egyes alcsoportokon belül nem tükrözi a mintavételi keretben (vagy a célsokaságban) lévő arányokat, és a kisebb alcsoport (nagyméretű cégek) túlságosan nagy mintát kap. Egy alternatív technika az alcsoportok mintáinak a sokaságon belüli méretük arányában történő kiválasztása. Például, ha 100 nagyvállalat, 300 közepes méretű vállalat és 600 kisvállalat van, akkor a “nagy” csoportból 20, a “közepes” csoportból 60 és a “kis” csoportból 120 vállalatot lehet mintavételezni. Ebben az esetben a mintában megmarad a cégek arányos eloszlása a sokaságban, ezért ezt a technikát arányos rétegzett mintavételnek nevezzük. Megjegyzendő, hogy a nem arányos megközelítés különösen hatékony a kis alcsoportok, például a nagyméretű cégek reprezentálásában, és nem feltétlenül kevésbé reprezentatív a sokaságra nézve, mint az arányos megközelítés, amennyiben a nem arányos megközelítés eredményeit az alcsoportnak a teljes sokaságon belüli arányának megfelelően súlyozzák.
Klaszteres mintavétel. Ha a populáció széles földrajzi területen szétszórtan helyezkedik el, előfordulhat, hogy nem lehetséges a teljes populációból egyszerű véletlenszerű mintavételt végezni. Ilyen esetben ésszerű lehet a populációt “klaszterekre” osztani (általában földrajzi határok mentén), néhány klaszterből véletlenszerű mintát venni, és az adott klaszteren belüli összes egységet megmérni. Például, ha New York államban városi önkormányzatokat szeretne mintavételezni, ahelyett, hogy az egész államot beutazná a legfontosabb városi tisztviselők megkérdezése céljából (ahogyan azt egy egyszerű véletlenszerű minta esetében megtehetné), ezeket az önkormányzatokat megyéik alapján klaszterbe sorolhatja, véletlenszerűen kiválaszthat három megyét, majd megkérdezhet minden tisztviselőt ezekből a megyékből. A klaszterek közötti különbségektől függően azonban a klasztermintában a minta becsléseinek változékonysága általában nagyobb lesz, mint az egyszerű véletlenszerű mintában, és ezért az eredmények kevésbé általánosíthatók a populációra, mint az egyszerű véletlenszerű mintából nyert eredmények.
Matched-pairs sampling. Előfordulhat, hogy a kutatók egy populáción belül két alcsoportot akarnak összehasonlítani egy adott kritérium alapján. Például, miért következetesen jövedelmezőbbek egyes cégek, mint más cégek? Egy ilyen vizsgálat elvégzéséhez a cégek mintavételi keretét “magas nyereségességű” és “alacsony nyereségességű” cégekre kell kategorizálni a bruttó árrés, az egy részvényre jutó nyereség vagy a nyereségesség valamilyen más mutatója alapján. Ezután az egyik alcsoportba tartozó cégekből egyszerű véletlenszerű mintát választana ki, és minden egyes, ebbe a csoportba tartozó céget a második alcsoportba tartozó céggel párosítana, méretük, iparági szegmensük és/vagy más megfeleltetési kritériumok alapján. Most már van két illesztett mintája a magas és alacsony nyereségességű vállalatokból, amelyeket részletesebben tanulmányozhat. Az ilyen párosított páros mintavételi technika gyakran ideális módszer egy adott populáción belül a különböző alcsoportok közötti kétpólusú különbségek megértésére.
Többlépcsős mintavétel. A korábban ismertetett valószínűségi mintavételi technikák mind az egylépcsős mintavételi technikák példái. A mintavételi igényektől függően kombinálhatja ezeket az egylépcsős technikákat, hogy többlépcsős mintavételt végezzen. Például rétegezheti a vállalkozások listáját a cég mérete alapján, majd szisztematikus mintavételt végezhet az egyes rétegeken belül. Ez a rétegzett és a szisztematikus mintavétel kétlépcsős kombinációja. Hasonlóképpen kezdheti New York államban az iskolai körzetek egy csoportjával, és minden egyes csoporton belül kiválaszthatja az iskolák egyszerű véletlenszerű mintáját; minden egyes iskolán belül kiválaszthatja az osztályok egyszerű véletlenszerű mintáját; és minden egyes osztályon belül kiválaszthatja a tanulók egyszerű véletlenszerű mintáját a vizsgálathoz. Ebben az esetben egy négylépcsős mintavételi eljárásról van szó, amely klaszteres és egyszerű véletlen mintavételből áll.
Nem valószínűségi mintavétel
A nem valószínűségi mintavétel olyan mintavételi technika, amelyben a sokaság egyes egységeinek esélye a kiválasztásra nulla, vagy ahol a kiválasztás valószínűsége nem határozható meg pontosan. Az egységeket általában bizonyos nem véletlenszerű kritériumok alapján választják ki, például kvóta vagy kényelmi szempontok alapján. Mivel a kiválasztás nem véletlenszerű, a nem valószínűségi mintavétel nem teszi lehetővé a mintavételi hibák becslését, és a mintavételi torzításnak is ki lehet téve. Ezért a mintából származó információk nem általánosíthatók vissza a sokaságra. A nem valószínűségi mintavételi technikák típusai a következők:
Kényelmi mintavétel. Más néven véletlen vagy alkalmi mintavétel, ez egy olyan technika, amelyben a mintát a sokaság azon részéből vonják ki, amely kéznél van, könnyen elérhető vagy kényelmes. Ha például egy bevásárlóközpont előtt áll, és kérdőíves felméréseket osztogat az embereknek, vagy meginterjúvolja őket, amikor besétálnak, akkor a válaszadókból nyert minta kényelmi minta lesz. Ez egy nem valószínűségi minta, mivel szisztematikusan kizárja azokat az embereket, akik más bevásárlóközpontokban vásárolnak. Az Ön által kiválasztott mintából származó vélemények tükrözhetik az adott bevásárlóközpont egyedi jellemzőit, például az üzletek jellegét (pl. a magas árfekvésű üzletek a tehetősebb lakosságot vonzzák), a vásárlók demográfiai profilját vagy az elhelyezkedését (pl. egy egyetemhez közeli bevásárlóközpont elsősorban egyetemi hallgatókat vonz, akik egyedi vásárlási szokásokkal rendelkeznek), és ezért nem biztos, hogy reprezentatívak a vásárlói populáció egészének véleményére nézve. Ezért az ilyen megfigyelések tudományos általánosíthatósága nagyon korlátozott lesz. Más példák a kényelmi mintavételre az egy bizonyos osztályba beiratkozott diákok mintavétele vagy egy bizonyos orvosi rendelőbe érkező betegek mintavétele. Ez a fajta mintavétel leginkább a kísérleti teszteléshez hasznos, ahol a cél inkább az eszköz tesztelése vagy a mérés validálása, mintsem általánosítható következtetések levonása.
Kvótás mintavétel. Ennél a technikánál a populációt egymást kizáró alcsoportokra szegmentálják (akárcsak a rétegzett mintavételnél), majd minden alcsoportból kiválasztják a megfigyelések nem véletlenszerű halmazát, hogy megfeleljenek egy előre meghatározott kvótának. Az arányos kvótás mintavétel során az egyes alcsoportok válaszadóinak arányának meg kell egyeznie a sokaság arányával. Például, ha az amerikai népesség 70%-a fehér bőrűekből, 15%-a spanyolajkú amerikaiakból és 13%-a afroamerikaiakból áll, és egy 98 fős mintán szeretné megérteni a szavazási preferenciáikat, akkor kiállhat egy bevásárlóközpont elé, és megkérdezheti az embereket a szavazási preferenciáikról. De abba kell hagynia a spanyolajkúnak tűnő emberek megkérdezését, amikor 15 választ kap ebből az alcsoportból (vagy az afroamerikaiakét, amikor 13 választ kap), még akkor is, ha folytatja a mintavételt más etnikai csoportoktól, hogy a minta etnikai összetétele megegyezzen az általános amerikai lakosságéval. A nem arányos kvótás mintavétel kevésbé korlátozó, mivel nem kell arányos reprezentációt elérnie, de talán megfelel egy minimális méretnek az egyes alcsoportokban. Ebben az esetben dönthet úgy, hogy mindhárom etnikai alcsoportból (fehérek, spanyolajkúak és afroamerikaiak) 50 válaszadóval rendelkezik, és megáll, amikor az egyes alcsoportok kvótáját elérte. A kvótás mintavétel egyik típusa sem lesz reprezentatív az amerikai lakosságra nézve, mivel attól függően, hogy a vizsgálatot egy New York-i vagy egy kansasi bevásárlóközpontban végezték, az eredmények teljesen eltérőek lehetnek. A nem arányos technika még kevésbé reprezentatív a népességre nézve, de hasznos lehet, mivel lehetővé teszi a kis és alulreprezentált csoportok véleményének megragadását a túlmintavétel révén.
Szakértői mintavétel. Ez egy olyan technika, ahol a válaszadókat nem véletlenszerűen választják ki a vizsgált jelenséggel kapcsolatos szakértelmük alapján. Például egy új kormányzati politika, például a Sarbanes-Oxley törvény hatásainak megértése érdekében olyan vállalati könyvelők egy csoportjából lehet mintát venni, akik ismerik ezt a törvényt. Ennek a megközelítésnek az az előnye, hogy mivel a szakértők általában jobban ismerik a témát, mint a nem szakértők, a szakértőkből álló mintából származó vélemények hitelesebbek, mint a szakértőket és nem szakértőket egyaránt tartalmazó minta, bár a megállapítások még mindig nem általánosíthatók a teljes populációra.
Hógolyó mintavétel. A hólabdamintázás során először azonosít néhány olyan válaszadót, akik megfelelnek a vizsgálatba való bekerülés kritériumainak, majd megkéri őket, hogy ajánljanak másoknak, akiket ismernek, és akik szintén megfelelnek a kiválasztási kritériumoknak. Ha például számítógépes hálózati rendszergazdákat szeretne megkérdezni, és csak egy vagy két ilyen embert ismer, velük kezdheti, és megkérheti őket, hogy ajánljanak másokat, akik szintén hálózati adminisztrációval foglalkoznak. Bár ez a módszer aligha vezet reprezentatív mintákhoz, néha ez lehet az egyetlen módja a nehezen elérhető populációk elérésének, vagy ha nem áll rendelkezésre mintavételi keret.
A mintavétel statisztikája
Az előző szakaszokban olyan fogalmakat mutattunk be, mint a populációs paraméter, a mintavételi statisztika és a mintavételi torzítás. Ebben a szakaszban megpróbáljuk megérteni, hogy mit jelentenek ezek a kifejezések, és hogyan kapcsolódnak egymáshoz.
Ha egy adott egységből egy bizonyos megfigyelést mérünk, például egy személy válaszát egy Likert-skálás tételre, akkor ezt a megfigyelést válasznak nevezzük (lásd a 8.2. ábrát). Más szóval a válasz a mintavételezett egység által szolgáltatott mérési érték. Minden egyes válaszadó különböző válaszokat ad egy eszköz különböző elemeire. A különböző válaszadók ugyanarra a tételre vagy megfigyelésre adott válaszai előfordulási gyakoriságuk alapján gyakorisági eloszlásban ábrázolhatók. A mintán belüli nagyszámú válasz esetén ez a gyakorisági eloszlás egy normál eloszlásnak nevezett harang alakú görbéhez hasonlít, amely a teljes minta általános jellemzőinek becslésére használható, mint például a minta átlaga (a minta összes megfigyelésének átlaga) vagy a szórás (a minta megfigyeléseinek szórása vagy variabilitása). Ezeket a mintabecsléseket minta-statisztikáknak nevezzük (a “statisztika” a megfigyelt adatokból becsült érték). A populációknak is vannak átlagai és szórásai, amelyeket akkor kaphatnánk meg, ha a teljes populációból mintát vehetnénk. Mivel azonban a teljes populációból soha nem lehet mintát venni, a populáció jellemzői mindig ismeretlenek, és ezeket populációs paramétereknek nevezzük (és nem “statisztikának”, mivel ezeket nem az adatokból becsülik meg statisztikailag). A mintavételi statisztikák eltérhetnek a populációs paraméterektől, ha a minta nem tökéletesen reprezentatív a populációra nézve; a kettő közötti különbséget nevezzük mintavételi hibának . Elméletileg, ha fokozatosan növelhetnénk a minta méretét, hogy a minta egyre közelebb kerüljön a populációhoz, akkor a mintavételi hiba csökkenni fog, és a mintavételi statisztika egyre jobban meg fogja közelíteni a megfelelő populációs paramétert.
Ha a minta valóban reprezentatív a populációra nézve, akkor a becsült mintavételi statisztikáknak azonosnak kell lenniük a megfelelő elméleti populációs paraméterekkel. Honnan tudjuk, hogy a mintastatisztikák legalább viszonylag közel állnak-e a populációs paraméterekhez? Itt meg kell értenünk a mintavételi eloszlás fogalmát . Képzeljük el, hogy három különböző véletlen mintát vettünk egy adott sokaságból, amint azt a 8.3. ábra mutatja, és minden egyes mintára vonatkozóan levezettük a mintavételi statisztikákat, például a mintaátlagot és a szórást. Ha minden egyes véletlen minta valóban reprezentatív volt a sokaságra nézve, akkor a három véletlen minta három mintaátlaga azonos (és egyenlő a sokasági paraméterrel), és a mintaátlagok szórása nulla lesz. Ez azonban rendkívül valószínűtlen, mivel minden egyes véletlen minta valószínűleg a sokaság különböző részhalmazát fogja alkotni, és ezért az átlagaik kissé eltérhetnek egymástól. Azonban foghatjuk ezt a három mintaátlagot, és felrajzolhatjuk a mintaátlagok gyakorisági hisztogramját. Ha az ilyen minták száma háromról 10-ről 100-ra nő, a gyakorisági hisztogram mintavételi eloszlássá válik. A mintavételi eloszlás tehát egy mintavételi statisztika (például mintaátlag) gyakorisági eloszlása egy mintahalmazból , míg az általánosan hivatkozott gyakorisági eloszlás egy válasz (megfigyelés) eloszlása egyetlen mintából . A gyakorisági eloszláshoz hasonlóan a mintavételi eloszlás is hajlamos arra, hogy több mintavételi statisztika csoportosuljon az átlag körül (ami feltehetően egy populációs paraméter becslése), és kevesebb érték szóródjon az átlag körül. Végtelenül nagy számú minta esetén ez az eloszlás megközelíti a normális eloszlást. A mintavételi eloszlásban a mintavételi statisztika szórását vagy szórását (azaz a mintavételi statisztika szórását) standard hibának nevezzük. Ezzel szemben a szórás kifejezést az egyetlen mintából származó megfigyelt válasz variabilitására tartjuk fenn.
8.2. ábra. Mintavételi statisztika.
A mintavételi eloszlásban a mintavételi statisztika középértéke feltételezhetően az ismeretlen populációs paraméter becslése. Ennek a mintavételi eloszlásnak a szórása alapján (azaz a standard hiba alapján) konfidenciaintervallumokat is lehet becsülni az adott prediktív populációs paraméterre. A konfidenciaintervallum annak becsült valószínűsége, hogy egy populációs paraméter a mintavételi statisztika értékeinek egy adott intervallumán belül van. Minden normális eloszlás általában a 68-95-99 százalékos szabályt követi (lásd a 8.4. ábrát), amely szerint az eloszlásban szereplő esetek több mint 68%-a az átlagérték egy szórásán (µ + 1σ), több mint 95%-a az átlagérték két szórásán (µ + 2σ), és több mint 99%-a az átlagérték három szórásán (µ + 3σ) belül van. Mivel egy végtelen számú mintával rendelkező mintavételi eloszlás megközelíti a normális eloszlást, ugyanez a 68-95-99 szabály érvényes, és azt mondhatjuk, hogy:
- (mintavételi statisztika + egy standard hiba) 68%-os konfidenciaintervallumot jelent a populációs paraméterre.
- (Minta-statisztika + két standard hiba) 95%-os konfidenciaintervallumot jelent a populációs paraméterre.
- (Minta-statisztika + három standard hiba) 99%-os konfidenciaintervallumot jelent a populációs paraméterre.
8.3. ábra. A mintavételi eloszlás.
A minta “torzított” (azaz nem reprezentatív a sokaságra nézve), ha a mintavételi eloszlása nem becsülhető, vagy ha a mintavételi eloszlás sérti a 68-95-99 százalékos szabályt. Mellékesen megjegyezzük, hogy a legtöbb regresszióelemzésben, ahol a regressziós együtthatók szignifikanciáját vizsgáljuk p<0,05 értékkel, azt próbáljuk megnézni, hogy a mintavételi statisztika (regressziós együttható) 95%-os konfidenciaintervallummal előrejelzi-e a megfelelő populációs paramétert (valódi hatásméretet). Érdekes módon a “hat szigma” szabvány a 99%-os konfidenciaintervallumon vagy hat standard eltérésen kívüli gyártási hibákat próbálja azonosítani (a standard eltérést a görög szigma betűvel ábrázolják), ami p<0,01-nél jelent szignifikancia vizsgálatot.
8.4. ábra. A 68-95-99 százalékos szabály a konfidenciaintervallumra.