-
-
第5章 樣本容量的確定
來源:默認(rèn)管理員點擊數(shù):2111發(fā)布時間:2012-12-18主要內(nèi)容:
l樣本容量確定的方法
l 正態(tài)分布及其評價
l理解總體、樣本和抽樣分布
l點估計與區(qū)間估計
l 抽樣平均數(shù)和抽樣比例
5.1 確定概率抽樣的樣本量
在確定概率抽樣樣本容量的過程中會遇到涉及財務(wù)、統(tǒng)計和管理三個方面的問題。一般原則是,樣本越大,抽樣誤差就越小。但樣本大,耗費的成本也高,而且一個項目可支配資源畢竟是有限的。雖然抽樣成本隨著樣本容量的增加呈直線遞樣(樣本容量增加1倍,成本也增加1倍)。抽樣誤差卻只是以樣本量相對增長速度的平方根遞減。即如果樣本量增加了3倍,數(shù)據(jù)搜集成本也增加了3倍,而抽樣誤差只降低了1/2。最后一點,樣本容量計算還反映了管理方法的問題。要求多高的估計精確度?實際總體值在所選定的置信區(qū)間內(nèi)的置信度是多少?正如你將在本章中學(xué)到的,有許多種可能性。有的情況要求精確度較高(抽樣誤差很小),并且要求總體值在較小誤差范圍以內(nèi)的置信度較高。而有些情況則不要求這些。
5.2 確定樣本容量的方法
5.2.1 可支配預(yù)算
某一研究對象的樣本容量通常直接或間接地由可支配的預(yù)算額所決定。因此,順序上,樣本容量通常是稍后才確定的。一個品牌經(jīng)理如果有40000美元預(yù)算可用于某項市場研究,那么除去其他項目成本(如調(diào)查方案和問卷的設(shè)計、數(shù)據(jù)的處理、分析等)后,余下的那部分預(yù)算才決定著被調(diào)查的樣本容量的大小。如果可支配資金太少,可以確定的樣本量太小,就必須做出決策,是補充更多的資金還是放棄這一項目。
雖然這種方法看來缺乏科學(xué)性和過于武斷,但是在一個離不開財務(wù)資源預(yù)算編制的整體環(huán)境下它確實存在。財務(wù)上的限制要求調(diào)查人員的設(shè)計方案要利用有限的資源提供有利于決策的高品質(zhì)的數(shù)據(jù)資料。“可支配預(yù)算”方法使調(diào)研人員不得不尋求多種選擇的搜集方法并謹(jǐn)慎衡量信息的價值及其成本。
5.2.2 單憑經(jīng)驗的做法
一些客戶會指定REPs(對計劃的具體要求),他們會要求樣本容量為200、400、500或其他的特定量。這個數(shù)據(jù)的確定有時是出于對抽樣誤差的考慮,而有時則只是依據(jù)以往的經(jīng)驗和過去進(jìn)行的相似調(diào)研中采用的樣本量。對指定樣本容量這種做法的全理解釋歸結(jié)起來只能說是“一種強(qiáng)烈的感覺”,認(rèn)為某一特定的樣本容量是必要的或適當(dāng)?shù)摹?/p>
也許有人認(rèn)為客戶指定的樣本容量有利于計劃調(diào)研目標(biāo)的實現(xiàn)。有些情況下,調(diào)研人員會認(rèn)為指定的樣本容量不符合要求。這時,調(diào)研人員有職責(zé)向客戶提出擴(kuò)大樣本容量的建議并讓客戶做出最后的決定。如果擴(kuò)大樣三容量的建議遭到了否決,調(diào)研人員會拒絕提交計劃,因為他(她)認(rèn)為樣本容量不合要求會嚴(yán)重影響調(diào)研成果。
5.2.3 要分析的子群數(shù)
在任何確定樣本容量的問題中,都必須認(rèn)真考慮所要分析并要據(jù)此做統(tǒng)計推斷的總體樣本的各個子群的數(shù)目的預(yù)期容量。例如,從整體上看樣本容量為400很符合要求,但若要分別分析男性和女性被調(diào)查者,并且要求男性與女性的樣本各占一半,那么每個子群的容量僅為200。這個數(shù)字是否符合要求,能使分析人員對兩組的特征做出預(yù)期的統(tǒng)計推斷呢?再如,要按年齡和性別分析調(diào)研結(jié)果,問題就變得更復(fù)雜了。假設(shè)要按以下方式將總體樣本劃分為四組:
l 35歲以下的男性
l35歲以上的男性
l35歲以下的女性
l 35歲以上的女性
如果預(yù)計每組約占總樣本的25%,那么子群容量僅有100。 這個數(shù)字能否使我們按照調(diào)研目標(biāo)的要求對各組分別做出統(tǒng)計推斷呢?隨著樣本量的縮小,抽樣誤差的增加,會出現(xiàn)這樣一個問題,那就是調(diào)查人員很難辨別依據(jù)現(xiàn)象所得的兩組間的差別(如表明打算購買新產(chǎn)品的百分比)是真正意義上的差別還只是由抽樣誤差引起的差別。
在其他條件相同的情況下,所要分析的子群數(shù)目越大,所需的總樣本容量也就越大。一般認(rèn)為樣本量要足夠大,以便每個主子群的容量至少為100,而每個次子群的容量至少也有20-50。
5.2.4 傳統(tǒng)的統(tǒng)計方法
你可能在其他書上見過確定簡單隨機(jī)樣本的傳統(tǒng)方法?;仡櫼幌逻@些方法。在利用抽樣結(jié)果做重要推斷時需要三條信息:
• 總體標(biāo)準(zhǔn)差的估計值
• 抽樣的允許誤差范圍
• 抽樣結(jié)果在實際總體值的特定范圍(抽樣結(jié)果±抽樣誤差)內(nèi)的預(yù)期置信度。
有了以上三條,就可以計算出簡單隨機(jī)抽樣所需的樣本容量了。
5.3 正態(tài)分布
5.3.1 總體特征
在古典統(tǒng)計推斷中,正態(tài)分布居于特別重要的地位。這有以下幾面原因:首先,市場人員遇到的許多變量其概率分布都趨于正態(tài)分布。如,軟飲料包裝的數(shù)量;愛吃快餐的人平均每月吃快餐的次數(shù);每星期看電視的平均小時數(shù)。其次,有理論上的原因。比較重要的一條是大數(shù)定理、中心極限定理。根據(jù)該定理,對于任何總體,不論其分布如何,隨著樣本容量的增加,其抽樣平均數(shù)的分布趨于正態(tài)分布。這種趨向的重要性將在后面做詳細(xì)說明。再次,許多離散型概率的分布也近似于正態(tài)分布。例如,將大量的某地男性身高值標(biāo)在一張圖表上,就會得到如圖5-1的分布圖,這種分布就是正態(tài)分布,它有以下幾個重要的特征:
(1) 正態(tài)分布呈現(xiàn)鐘形且只有一個眾數(shù)。眾數(shù)代表著集中的趨勢,是發(fā)生頻率最高的那個特殊值。兩峰的(兩個眾數(shù))分布有兩個峰值;
(2) 正態(tài)分布關(guān)于其平均對稱。也就是說它是對稱的。它集中趨勢的三個衡量標(biāo)準(zhǔn)(平均數(shù)、中位數(shù)和眾數(shù))是相等的。
(3) 一個正態(tài)分布的特殊性由其平均數(shù)和標(biāo)準(zhǔn)差決定。
(4) 正態(tài)曲線下方面積等于1,表明它包括了所有的調(diào)查結(jié)果。
(5) 正態(tài)曲線下方在任意兩個變量值之間的面積,等于在這一范圍內(nèi)隨機(jī)抽取一個觀察對象的概率。以圖5.1為例,一次抽取到一名男性,其身高在172cm-177cm之間的概率為34.13%。
(6) 正態(tài)分布還有一個特點,就是所有的正態(tài)分布在平均數(shù)±1個標(biāo)準(zhǔn)差之間的面積相同,都占曲線下方面積的68.26%或者說是占全部調(diào)查總體結(jié)果的68.26%。這叫做正態(tài)分布的比例性,這一特點為本章將要計論的統(tǒng)計推斷提供了基礎(chǔ)。
5.3.2 標(biāo)準(zhǔn)正態(tài)分布
任何正態(tài)分布都可以轉(zhuǎn)換為標(biāo)準(zhǔn)正態(tài)分布。標(biāo)準(zhǔn)正態(tài)分布的特點與正態(tài)分布相同。只有標(biāo)準(zhǔn)正態(tài)分布的平均值等于0,標(biāo)準(zhǔn)差等于1。正態(tài)分布的任何一變量值X通過一個簡單的轉(zhuǎn)化公式就能變換成相應(yīng)標(biāo)準(zhǔn)正態(tài)分布中的Z值。這種轉(zhuǎn)換是由正態(tài)分布的比例性決定的。用符號表示:
用符號表示:
式中X——變量值;
μ——變量平均值;
σ——變量標(biāo)準(zhǔn)差。
圖5.2 標(biāo)準(zhǔn)正態(tài)分布圖
變量Z的標(biāo)準(zhǔn)正態(tài)分布曲線下各塊面積(全部百分比)都列在表5.1中。
表5.1 Z值為1,2,3時標(biāo)準(zhǔn)正態(tài)曲線下方的面積
5.4 總體分布、樣本分布和抽樣分布
進(jìn)行抽樣調(diào)查,目的是要對總體做出推斷,而不是為了描述樣本的特征。總體,就像前面定義的,包括可以從中獲取信息達(dá)到調(diào)研目標(biāo)的全部可能的人體或物體。樣本是總體的子集。
總體分布是總體中所有單位的頻率分布。這一頻率分布的平均數(shù),通常用希臘字母μ表示,標(biāo)準(zhǔn)差用希臘字母σ表示。樣本分布是單個樣本中所有單位的頻率分布。樣本分布的平均數(shù)常用 表示,標(biāo)準(zhǔn)差用S表示。
在這里,有必要介紹一下三種分布,樣本平均數(shù)的抽樣分布。理解這一分布對于充分認(rèn)識估計簡單隨機(jī)抽樣誤差的依據(jù)十分重要。樣本平均數(shù)的抽樣分布是指從一個總體中抽取一定數(shù)量的樣本,由樣本平均數(shù)構(gòu)成的概率分布。雖然人們對很少計算這種分布,但它的特性具有很大的實際意義。要獲得樣本平均數(shù)的分布,首先要從特定總體中抽取一定量的樣本(如25000),接著,計算各樣本的平均數(shù),并排列出頻率分布。因為每個樣本由樣本單位的不同子集構(gòu)成,因此樣本平均數(shù)不會完全相同。
當(dāng)樣本的單位數(shù)和隨機(jī)性足夠大,樣本平均數(shù)的分布近似于正態(tài)分布。這一論斷的基礎(chǔ)是中心極限定理。該定理說明,隨著樣本容量的增加,從任一總體中抽取的大量隨機(jī)樣本的平均數(shù)的分布接近正態(tài)分布且平均數(shù)等于μ,標(biāo)準(zhǔn)差(也稱之為標(biāo)準(zhǔn)誤差)等于:
式中n——樣本單位數(shù)。
值得注意的是,中心極限定理的成立不考慮樣本總體的分布形狀,也就是說忽略了總體的分布類型,樣本平均數(shù)的分布會趨于正態(tài)分布。常用來表示總體分布、樣本分布和抽樣分布的平均數(shù)及標(biāo)準(zhǔn)差的符號都列在表5-2中。
表5.2 參數(shù)、統(tǒng)計量符號
平均數(shù)的標(biāo)準(zhǔn)誤差(
)之所以按前面所示的方法計算是因為,一個特定的樣本平均數(shù)分布的方差或是離差會隨著樣本數(shù)量的增加而減少。由常識可知,樣本數(shù)越大,單個樣本的平均數(shù)就越接近總體平均數(shù)。圖13-3表明了平均數(shù)的總體分布、樣本分布和抽樣分布之間的關(guān)系。我們將深入討論平均數(shù)的抽樣分布,而另一個比例抽樣分布,將在以后介紹。
5.5 平均數(shù)的抽樣分布
5.5.1 基本概念
考慮一個抽樣案例:一位調(diào)查人員以“在最近30天內(nèi)至少吃過一次快餐的所有顧客”為總體,從中抽取了1000組容量為200的簡單隨機(jī)樣本。調(diào)查目的是要估計平均一個月內(nèi)這些人吃快餐的平均次數(shù)。計算出每一組的平均數(shù),按相關(guān)值確定區(qū)間,整理后便得到表中5-3的頻率分布圖。而圖5-4以直方圖的形式表示這些頻率,直主圖上方還可見到一條正態(tài)曲線。正如你所看見的,直方圖十分接近正態(tài)曲線的形狀。如果我們選取足夠的容量為200的樣本,計算每組的平均數(shù),整理排列后所得的分布就是正態(tài)分布。圖5-4的正態(tài)曲線就是這項調(diào)查中平均數(shù)的抽樣分布。大樣本平均數(shù)的抽樣分布有以下特征:
(1)是正態(tài)分布
(2)分布的平均數(shù)等于總體平均數(shù)。
(3)分布有標(biāo)準(zhǔn)差,稱為平均數(shù)的標(biāo)準(zhǔn)誤差,它等于總體標(biāo)準(zhǔn)差除以樣本容量的平方根:
將標(biāo)準(zhǔn)差稱為平均數(shù)的標(biāo)準(zhǔn)誤差表明它更適用于樣本平均數(shù)的分布,而不是總體或樣本的標(biāo)準(zhǔn)差分布。記住這種計算只適合簡單隨機(jī)樣本,其他類型的樣本(如分層樣本和整群樣本)要用非常復(fù)雜的分式計算標(biāo)準(zhǔn)誤差。
表5.3 1000個樣本平均數(shù)的頻數(shù)分布
圖5.3 平均數(shù)的實際抽樣分布
5.5.2 根據(jù)單個樣本做出推斷
在實際操作中,人們往往不愿從總體中抽出所有可能的隨機(jī)樣本,畫出像表5.3和圖5.4那樣的頻率分布表和直方圖來。人們希望進(jìn)行簡單的隨機(jī)抽樣,并據(jù)此對總體進(jìn)行統(tǒng)計推斷。問題出現(xiàn)了,通過任一簡單的隨機(jī)樣本對總體均數(shù)進(jìn)行的估計,其估計值在總體平均值±1個標(biāo)準(zhǔn)誤差內(nèi)的概率究竟為多大?根據(jù)表5.2可知概率為68%,因為所有樣本平均數(shù)有68%都在此范圍內(nèi)。而通過簡單隨機(jī)樣本對總體做的估計為實際總體平均值2倍標(biāo)準(zhǔn)誤差范圍內(nèi)的概率為95%,在實際總體平均值3倍標(biāo)準(zhǔn)誤 差范圍內(nèi)的概率為99.7%。
5.5.3點估計和區(qū)間估計
當(dāng)利用抽樣要對總體平均值進(jìn)行估計時,有兩種估計方法:點估計和區(qū)間估計。點估計是指把樣本平均值作為總體平均數(shù)的估計值。觀察圖5.3的平均數(shù)抽樣分布可知某一特定的抽樣結(jié)果,其平均數(shù)很可能相對更接近總體平均數(shù)。但是,樣本平均數(shù)分布中的任一個值都可能是這一特定樣本的平均值。有一小部分的樣本平均值與實際總體平均值有相當(dāng)?shù)牟罹啵@種差距就叫抽樣誤差。
抽樣結(jié)果的點估計在很少的情況下完全準(zhǔn)確,因此人們更偏于區(qū)間估計。區(qū)間估計就是對變量值如總體平均值的區(qū)間或范圍進(jìn)行估計。除了要說明區(qū)間大小外,習(xí)慣上還要說明實際總體平均值在區(qū)間范圍以內(nèi)的概率。這一概率通常被稱為置信系數(shù)或者置信度,區(qū)間則被稱為置信區(qū)間。
平均數(shù)的區(qū)間估計按以下步驟推導(dǎo)。從總體上抽出一定量的隨機(jī)樣本,計算出樣本平均數(shù),可知這個樣本平均值存在于所有樣本平均數(shù)的抽樣分布中,但確切位置不清楚。此外還知道,這個樣本平均數(shù)在實際總體平均值±1個標(biāo)準(zhǔn)誤差范圍內(nèi)的概率為68%,由此可知,實際值等于樣本值加上或減去1個標(biāo)準(zhǔn)誤差的信度為68%。用符號表示如下:
同理可知,實際值等于樣本估計值加上或減去2倍標(biāo)準(zhǔn)誤差(嚴(yán)格上是1.96,但為了計算簡單便通常用2)的置信度為95%,實際值等于樣本值加上或減去3倍標(biāo)準(zhǔn)誤差的置信度為99.7%。
以上都假設(shè)總體標(biāo)準(zhǔn)差已知,大多數(shù)時候,情況不是這樣。如果總體標(biāo)準(zhǔn)差已知,根據(jù)定義可以知道總體平均值,那就沒有必要事先抽取樣本了。而如果不知道總體標(biāo)準(zhǔn)差,那就必須通過樣本差去估計。
5.6 比例的抽樣分布
市場研究中經(jīng)常會偏于進(jìn)行比例或百分比方面的估計。下面是一些常見例子:
l 知道某一廣告的總體百分比;
l 平均一周上網(wǎng)1次以上的總體的百分比;
l 最近30天內(nèi)吃過快餐和吃過4次以上快餐的總體百分比;
l 觀看某一電視節(jié)目的觀眾的總體百分比;
在上述情況下,總體比例或百分比是重要的因素,因此有必要介紹比例抽樣分布。
從特定總體中抽出大量隨機(jī)樣本,這些樣本的抽樣比例的相對頻率分布就是比例抽樣分布,它有以下特征:
Ø 近似于正態(tài)分布
Ø 所有樣本比例的平均值等于總體比例。
Ø 比例抽樣分布的標(biāo)準(zhǔn)誤差可以按下面的公式計算:
式中Sp—比例抽樣分票吳差;
P—總體比例的估計值;
n—樣本單位數(shù)。
考慮一下,如果需要估計一下最近90天內(nèi)曾在網(wǎng)上購物的所有成年人的百分比,那么就像要得到平均數(shù)的抽樣分布一樣,要從成年人總體中選取1000組容量為200的隨機(jī)樣本,計算出1000組樣本中所有在最近90天內(nèi)曾在網(wǎng)上購物的人數(shù)比例。這些值排列將形成一個趨于正態(tài)分布的頻率分布。這一分布的估計比例標(biāo)準(zhǔn)誤差可以用在前面計算比例標(biāo)準(zhǔn)誤差的公式來計算。
讀完下一節(jié),你就會明白,市場人員對于樣本容量問題,更趨 于進(jìn)行比例估計而不是平均值估計,是有其原因的。
5.7 樣本容量的確定
5.7.1平均值問題
考慮前面那個估計平均一個月快餐族吃快餐次數(shù)的案例,如果管理層需要對顧客的平均光顧次數(shù)做出估計,從而決定是否實行正在擬定的新促銷計劃。為了得到這個估計值,市場調(diào)研經(jīng)理打算在總體中考察某個簡單隨機(jī)樣本。問題是,確定本次調(diào)查樣本容量的要素是什么?首先,對于估計平均值問題,計算所需的樣本容量的公式是:
式中 Z―標(biāo)準(zhǔn)誤差的置信水平;
σ―總體標(biāo)準(zhǔn)差;
E―可接受的抽樣誤差范圍(允許誤差)
計算所需的樣本容量要有三種資料:
(1) 抽樣誤差的可接受的或允許的詳細(xì)范圍(E)。
(2) 標(biāo)準(zhǔn)誤差置信水平的允許確切值,也就是Z值。換一種說法,即總體平均值包括在指定置信區(qū)間內(nèi)的置信度是多少?
(3) 最后需要估計一下總體標(biāo)準(zhǔn)差(σ)。
計算中要用到的置信水平(Z)和誤 差(E)必須由調(diào)查人員與他(她)的客戶進(jìn)行磋商后才能確定。如前所述,置信水平與誤差范圍的確定不僅要根據(jù)統(tǒng)計原則,同時要顧及財務(wù)與管理方面的要求。理想的情況下,我們總是希望置信度很高,誤差很小。但要知道,這是經(jīng)營決策,必須考慮成本問題。因此,要在精確度、置信度與成本之間進(jìn)行權(quán)衡。有的時候,不要求很高的精確度與置信度。例如,你也許只想通過調(diào)查基本了解一下消費者對產(chǎn)品的普遍態(tài)度是正面有還是負(fù)面的。這里精確度就顯得不太重要了。但如果是一項產(chǎn)品創(chuàng)意測試,就需要精確度較高的銷售估計值,以便做出是否向市場推薦某種新產(chǎn)品的高成本、高風(fēng)險的決策。
第三項是總體標(biāo)準(zhǔn)差的估計值,這是一個更麻煩的問題。我們在前面說過,如果總體標(biāo)準(zhǔn)差已知,那么也就能知道總體平均數(shù)(總體平均數(shù)是用來計算總體標(biāo)準(zhǔn)差的)。這樣的話就沒必要抽取樣本了。但調(diào)查人員如何不抽取樣本就估計出總體標(biāo)準(zhǔn)呢?結(jié)合使用以下四種方法可以解決這個問題:
(1) 利用以前的觀察結(jié)果。許多情況下,公司以前曾經(jīng)進(jìn)行過類似的調(diào)查,這時,可以利用以前的調(diào)查結(jié)果作為本次總體標(biāo)準(zhǔn)差的估計值。
(2) 進(jìn)行試點調(diào)查。如果調(diào)查對象規(guī)模太大,可以投入一定的時間和資源對總體進(jìn)行小規(guī)模的試驗調(diào)查。根據(jù)調(diào)查結(jié)果估計總體標(biāo)準(zhǔn)差確定樣本容量。
(3) 利用二手?jǐn)?shù)據(jù)。有時候通過二手?jǐn)?shù)據(jù)也可以對總體標(biāo)準(zhǔn)差做出估計。
(4) 通過判斷。如果其他方法都失敗了,還可以判斷總體標(biāo)準(zhǔn)差。即把許多管理人員的判斷集中起來進(jìn)行分析,而這些管理人員都有能力對有關(guān)的總體參數(shù)做出有所根據(jù)的猜測。
當(dāng)完成了調(diào)查,計算出樣本平均值和樣本標(biāo)準(zhǔn)差后,調(diào)查人員就可以正確估計出總體標(biāo)準(zhǔn)差,并確定所需的樣本容量了。這時如果需要,可以對以前的抽樣誤差估計做出調(diào)查。
再來考慮估計快餐族平均每月吃快餐的平均次數(shù)。以下這些值將代入下面的公式。
l與公司的管理者進(jìn)行磋商后,市場調(diào)研經(jīng)理認(rèn)為有必要估計一下吃快餐的平均次數(shù)。考慮到管理者對精確度的要求,她規(guī)定估計值不得超過實際的0.10(1/10)。這個值(0.01)將作為E值代入公式。
l此外,市場調(diào)研經(jīng)理還認(rèn)為,考慮全局,需要把實際總體平均值在(樣本平均值±E)區(qū)間以內(nèi)的置信度定為95%。而若要置信度為95%,就必須在2倍標(biāo)準(zhǔn)誤差范圍內(nèi)(嚴(yán)格是1.96)。因此,2作為Z值代入公式。
l最后,確定公式中的值。幸好公司一年前曾做過類似的調(diào)查。調(diào)查對象是最近30天內(nèi)吃快餐的平均次數(shù)。其標(biāo)準(zhǔn)差是1.39,以此作為s值最好不過。因此把1.3代入公式。然后進(jìn)行計算,通過計算,可知樣本容量為772時可以滿足提出的要求。
5.7.2計算比例的問題
考慮估計最近90天內(nèi)曾在網(wǎng)上購物的所有成年人的比例或百分比的案例。其目標(biāo)是從成年人總體中抽取一個簡單隨機(jī)樣本,估計其比例是多少。下面討論一下如何確定代入公式的那幾個值:
l 像前面說的,要根據(jù)抽樣結(jié)果估計總體平均值,首先要確定E的值。例如,假設(shè)可接受的誤差范圍為±2%,那么將0.02作為E的值代入公式。
l 其次,假設(shè)調(diào)查人員要求抽樣估計在實際總體比例的2%范圍以內(nèi)的置信度為95%,那么按前面講的,把2作為值代入公式。
l 最后一點,在一年前的一次類似調(diào)查中,有5%的被調(diào)查者表示在最近90天內(nèi)曾在網(wǎng)上購物。我們可以用0.05作為P值代入公式。
計算過程如下:
根據(jù)要求,需要一個475個人的隨機(jī)樣本。要注意的是,與確定估計平均值所需的樣本容量的過程相比,調(diào)查人員在確定估計比例所需的樣本容量時有一個優(yōu)勢:如果缺乏估計P的依據(jù),可以對P值做最悲觀或最糟糕的假設(shè)。給定Z值和E值,P值為多大時要求的樣本量最大呢?當(dāng)P=0.5時,“P(1-P)”有極大值0.25存在,如此設(shè)定P值樣本是最大。而給定Z值和E值,對于與平均估計所需樣本量有關(guān)的值就沒有最悲觀的假設(shè)。
5.7.3總體容量樣本容量
你也許會注意到計算樣本容量的公式中沒有一個用到總體容量。學(xué)生們(和經(jīng)理們)經(jīng)常會注意到這個問題。表面上看來好像是要抽取的樣本量越大,其總體容量也應(yīng)該增大。其實不然。通常,總體容量與在一定誤差和可靠度范圍內(nèi)估計總體參數(shù)所需的樣本容量之間沒有直接的關(guān)系。實際上,總體容量只有當(dāng)樣本容量相對它而言過大時才會起作用。根據(jù)經(jīng)驗,當(dāng)樣本容量超過總體的5%時,就需要調(diào)整樣本容量了。一般都假設(shè)樣本的抽取是相互獨立的(獨立假設(shè)),這一假設(shè)在樣本相對于總體很小時成立。當(dāng)樣本量占總體比例相對較大(5%以上)時就不成立了。因此, 們必須調(diào) 整一下標(biāo)準(zhǔn)公式。譬如,前面的計算平均數(shù)標(biāo)準(zhǔn)誤差的公式是:
當(dāng)樣本量占總體5%以上,就要推翻獨立假設(shè)。調(diào)整后的正確公式是:
其中,(N-n)/(N-1)被稱為有限總體修正系數(shù)(FPC)。當(dāng)樣本占總體的5%以上,調(diào)查人員可以通過FPC來減少所需的樣本容量。計算公式如下:
式中,n’為修改后的樣本量;n為原樣本量;N為總量。
如果總量為2000,原樣本量為400,則:
經(jīng)過FPC的調(diào)整,需要的樣本量由原先的400變成了333。
問題關(guān)鍵不是樣本量大小與總量大小的關(guān)系,而是選取的樣本是否能真實代表總體的特性。經(jīng)驗表明,經(jīng)過仔細(xì)挑選的樣本,盡管容量不大,卻也能十分準(zhǔn)確地反映總體特征。許多著名的全國性調(diào)查和民意測驗的樣本數(shù)都不超過2000。蓋洛普民意測驗、哈里斯民意測驗和尼爾森電視節(jié)目受歡迎程度調(diào)查都是很好的例子。這些例子都表明,即使調(diào)查對象是數(shù)千萬人的行為,也可以通過對于總體相當(dāng)小的一部分樣本進(jìn)行十分準(zhǔn)確的預(yù)測。
5.7.4確定分層樣本和整體樣本的容量
本章列出的計算樣本容量的公式只適用于簡單隨機(jī)樣本。當(dāng)然也有適用于其他如分層樣本、整群樣本確定樣本容量和抽樣誤差范圍的公式。雖然本章提到的許多概念對這些樣本都適用,但它們的計算公式卻要復(fù)雜很多。而且,公式中要用到的數(shù)據(jù)往往很難得到。因此,這些樣本的容量確定問題超過了本書的介紹范圍。有興趣的讀者可以參考高級教材。
5.8統(tǒng)計權(quán)
盡管在市場調(diào)研中用本章節(jié)公式計算樣本量是十分標(biāo)準(zhǔn)的作法,但這些公式都只承認(rèn)第一類誤差(不存在差值時推斷差值存在而產(chǎn)生的誤差)。它們顯然不考慮第二類誤差,即實際存在差值時認(rèn)為沒有差值而產(chǎn)生的誤差。不發(fā)生第二類誤差的概率叫統(tǒng)計權(quán)。計算樣本容量的標(biāo)準(zhǔn)公式默認(rèn)統(tǒng)計權(quán)為50%。舉個例子,如果要確定兩種產(chǎn)品中哪一個對目標(biāo)顧客群更有吸引力,并且可能進(jìn)行購買的目標(biāo)顧客的百分比之間可以有5%的差值,這時標(biāo)準(zhǔn)樣本容量公式要求每項產(chǎn)品需要的樣本容量大約為400。通過這一計算,我們默認(rèn)了一個事實,即有50%的可能我們會錯誤地推斷出兩種產(chǎn)品具有相等的吸引力。
參考文獻(xiàn):
1 《當(dāng)代市場調(diào)研》 Carl McDaniel,Jr and Roger Gates 著,范秀成等譯 機(jī)械工業(yè)出版社出版 2001
2 《實用統(tǒng)計分析方法》 蔣慶瑯著,方積乾等譯 北京大學(xué)、中國協(xié)和醫(yī)科大學(xué)聯(lián)合出版社出版 1998
3 《社會統(tǒng)計分析方法》 郭志剛主編 中國人民大學(xué)出版社出版 1999
上一篇下一篇