หน้าปกหนังสือ

Undergraduate

生命科學與醫學

生物統計學筆記

428

霹靂民族

2025.11.04 公開

ความคิดเห็น

ยังไม่มีความคิดเห็น

ノートテキスト

ページ1:

35
常联分布
常態分布面績績分
68.26%
M±16=68%
M±2O=95%
M±36=99.7%
常態
右偏
左偏
35

ページ2:

統計方法
前表現→
→ 是否得病比較
→ 是否得病比較
(類別)
有較
無用权
> 個類別变项(独立是否服的zb人 Pearsonx²tost Fisher's
前後測 服药前後的一組人 McNemar
exact
test
(類) (類)
x²test
(類別)
1個類別
独立
個連續
是否服药的兩組人 Student Mann-Whitney
(類別)
T-Test
Rank Sunh
Wilcoxon
→体重差異(連續)
rank sum test
兩組互比
test
前後測
服药前後的一組人 Paired Wilcoxon sign
t test rank test
→体重差異(連續)
1個類別
独立
1 個連續
2個連續 独立
变项
兩組以上
互比
是否服药多組人 one way.
(類別
→重差異(連續)
前後测 服药後我次門診 Repeated
追蹤的体重差異 measures
(連續)
ANOVA
9783
(符號檢定)
ANOVA
体重(連續)的
身高(連讀)ò Linear regression
相關性

ページ3:

/母體與樣本
挑選適當樣本的重要性
母體代表有著共同顯著特徵的一群人或事件的集合,
樣本(sample)則是母體的子集合。
統計面臨的挑戰是如何從樣本資料中,對母體做出正確
的推估。樣本的選擇關係著對推論母體的正確性。母體
可以包括人、事、物。被用來綜合母體特性的指標稱爲
參數(parameter)
被用來綜合樣本特性的指標稱爲統計量
樣本的統計量用來幫助我們推估出母體的參數。
母體的參數爲不變的常數,但通常是無法得知;而統計
量的數值可以從樣本資料計算得知。不同樣本的觀察值
不同,因此會計算出不相同的統計量。
抽樣
利用一個樣本就可以得到既快速又經濟,符合研究目的
的資訊。統計學家的任務之一,就是設計有效率的、足
夠樣本數的研究。如何挑選樣本
要評估樣本對母體的可靠性,在於母體的特異性及使用
抽樣的方法。
母體特異度不高或使用不當的抽樣方法都會導致偏差。
改善偏差最好的方法是隨機抽樣(random sampling),
例如可以利用亂數表來挑選
方便抽樣(convenieneesempling) 是指模本來自個人
自願參與或特定計畫或降教目的來進行,分
析資料時會產生一些問題,並且會扭曲正確的推論。
方便抽樣通常用在無法隨機抽樣的情形 方便抽樣很可
能引導研究者做不正確或令人誤解的推論。
等距抽樣(systematic sampling)常用在抽樣名冊
(samplingframe)存在時,首先隨機抽出第一個研究對
象,之後以等距方式抽出研究對象,直到抽出第n個樣
本。n代表樣本數,N則通常代表母體總人數,抽樣名冊
則是指可完整列出母體內所有人的編號。
分層抽樣(stratified sampling)是對每一分層都進行簡
單隨機抽樣,以提高估計的精確度。
集體抽樣(cluster sampling)是將母體的小團體編號,
隨機抽出某一號碼,屬此編號的小團體的人便全部納入
研究對象。這個方法較隨機抽樣整個城市來得經濟。

ページ4:

眾數(mode)是出現次數最多的數值
從次數分佈圖中,眾數為最高點縱軸標示的數值。雙峰
分佈圖中,則有兩個眾數;如果樣本的所有觀察值均不
相等,則此樣本沒有眾數。該使用哪種中央趨勢測量可
視情況決定何種中央趨勢的測量方式比較合適,算術平
均數是目前最常用的方式
,一個對稱的分佈,3個中央趨勢測量值都相同。不對稱
分佈圖,眾數爲最高點,中位數在中間,平均數則往右
移動,眾數適用於名目資料,中位數則適用於有序資
料,不均數適用於等距資料。
變異量的測量
雖然中央趨勢測量很有用,但是並不足夠,還需另一個
指標表達資料的同質性(homogeneous) 異質性
(heterogeneous),即描述資料的變異情形。最常用來
測量資料的變異量(variation)爲全距(range)、平均
離差(mean deviation),和標準差(standard
deviation)
全距(range)
全距的定義爲觀察僱中最大值與最小值的差異
平均離差mean devmron)每一個觀察值和平均數的差
異平均數值,每個觀察質檢調平均數,可計算觀察植平
均數的距離。(absolute ralne)
標準差
目前最廣泛使用的變異量測量值(standard deviation)
表示符號爲s,相等於變異數的平方根。變異數
(variance)s'的計算法是將所有觀察值減平均值的平方
加總,再除上樣本數(n)減1
樣本變異數可視為各數值與平均數相差平方之平均數。
平均數和標準差之等式
常以符號 SD表示標準差,s則是從s'中求得的。如果 SD
已知,便可計算出樣本的雙異數SD”。
在眾多變異量測量中,標準差為較佳的選擇。因爲標準
差的單位與原始資料使用的單位相同(如:英吋、公
尺、公斤),而變異數的單位為原來資料單位的平方。
標準差的計算較容易,避免絕對值的正負值轉換。至於
原來資料單位的標準差的大小與測量變項有關差則很
小。
瞭解變異量的來源讓我們更喜歡應用標準差來表示資料
的變異情形。
變異量可能源自於個人特質。另一種可能是個別的差
異,或不同情境
田区新

ページ5:

料。
次數多邊圖表3.中63名非吸菸者次數多邊圖可以有許多
不同的形狀,圖4是常見的形狀圖形, (a)是「鐘形」
(bell-shaped)的對稱分佈(symmetrical
distribution),
(b)雙峰分佈(bimodal
distribution) (c)長方形分佈
(rectangulardistribution)每一個組距的人數均相
等。(a)與(c)均屬於對稱圖形,而(d)和(e)是
偏斜的(skewed)或不對稱的, (d)是往正方向偏
斜,因爲它以正方向(右)逐漸減少, (e)是往負方向
(左)偏斜。
各式不同形狀的次數多邊圖
(c)長方形分佈
(b)雙峰分佈
(a)對稱分佈
(d)右向偏斜
(e)左向偏斜
累積次數多邊圖
累積次數多邊圖(cumulative frequency polygon)或次
數曲線圖(ogive)對資料特性之瞭解亦有幫助,屬第三
種圖形,水平軸刻度與直方圖相同,垂直軸的刻度則爲
累積次數或累積相對次數。
嬰作累積次數多邊圖時,在每細的組界上方畫點,每個
點代表累積相對次數,在上組界的上方點出該累積相對
次數,再將這些點連接起來便完成曲線圖用來比較兩組
資料時很有用,曲線圖表示出每組累積相對次數,表多
少人(或百分比)在該收縮壓內。
從曲線圖中可找到百分位(percentile)
90百分位為觀察值數目達
到90%,只有10%的觀察數高於此點。
莖葉圖
莖葉圖的裡「莖」(stem)是資料的組別,
「葉」
(leaf)是每組內的一連串的數值。每一個莖(組)所含
的數字,是將觀察值的百及十位從小排到大依序列出,
這樣排列如同散開出來的樹枝。所有的葉子(觀察值的
個位數)排列成一個橫式的長方圖,每個葉子代表一個
觀察值,容易記錄整個資料的觀察個數和出現次數。總
括而言,可以從所有觀值分佈的形狀,提供視覺上快速
的清楚瞭解資料的概況。莖葉圖通常和次數分佈一起
長條圖是一種便利的統計圖,特別適用於名目數字或是
有序數字的資料,
性別和治療方式,變項的數
加任

ページ6:

WIDTHMDX J H / JU
THANXAT
比較兩組數目不相等的資料,
組界(class boundary)為實際區分兩組間的上界和下
界的數值;上界為區分上一組的界線,下界則區分下組
的界線,組界也可能取代組限。
累積相對次數(cumulative relative fregueney), 如同
累積百分比
(cumulative percentage)
為小於或等於某組下界所有觀察數的百分
比。
第3章/資料的整理與呈現
圖是一個可以概略表現資料特性的好方式。圖相對於表
格,可在視覺上幫助瞭解資料的特性,描述的標題,標
示清楚的座標,和觀察值所用的測量單位。
7種圖,為直方圖(histogram)
、
次數多邊圖(frequency、polygon) 累積次數多邊
圖(cumulative frequency polygon)、莖葉圖 (stem-
and-leaf display)
•長條圖 (bar chart)、圓餅圖 (pie chart)和盒鬚圖
(box and whisker plot)直方圖
最常用的圖可能是直方圖(histogram)直方圖是圖像化
的次數表,包括橫座標(abscissa)即水平線軸·可表示
組界;和垂直的縱座標《ordinate)即垂直軸,表示觀察
值的次數(或是相對次數)。垂直座標刻度應該從零開
始,通常縱座標長度約為橫座標長度的3/4,兩軸刻度均
要標示出來,垂直條狀的高度爲此組的觀察值次數
次數不只可以從直條高度看出,也可從直條的面積看出
來,總面積為100%,
面積和觀察數成比例(直方圖中的長條面積表示次數,
必須將每個長條分配合適的面積。高度=相對次數 /組別
寬度
次數多邊圖
次數多邊圖(fiequeney polygon),與直方圖有相同的
橫軸與縱軸。與圖的點在組距的中間點(midpoint)
點的高度表示次數,同直方圖的長條高度,再將這些點
連成線,未端烏之前與之後一組的中間點,其次數為0。
次數多邊圖,尤其是兩個次數分佈可以重疊在同一圖
上,可以藉此作比較,這是它優於直方圖的地方。在次
數多邊圖中,某組的觀察值次數是以面積表示,即烏線
條以下和組距之間的面積。在次數分佈中觀察值的總數
和圖中的面積呈一定的比例。次數多邊圖必須是量性資
料,不可以是質性資料,因爲質性資料不是連續性資
料。

ページ7:

相加法則(addition rule)說明A事件或B事件,或A、B
事件都出現的機率相等於單一事件出現機率相加 再減掉
兩事件同時出現的機率。以符號表示:
P(AUB) = P(A) + P(B)- P(AnB)
要減掉 P(AnB)是為避免此部份重覆計算,溫氏圖
(Venndiagram)。在圖的方框中的圓圈代表A、B事
件,從圓圈的分離或交集表示兩事件的關聯性。
運算法則
在運算各種事件的機率時,首先要知道所有可能發生的
事件
規則1:計算所有可能出現情形
規則2:排列
列出所有可能出現情形,要考慮順序(order)的重要性
排列(permuration)是從n個物件中選出r個,且爲依序
選擇。 所有可能排列n種,其中驚歎號「!」表示階乘
規則3:組合
當要決定選擇r物件,順序不重要,•組合
(combination)便是考慮從n個物件中選取r件,順序不
重要。使可以下面公式計算
機率分佈
機率在統計上的一個重要應用是估計不同事件的發生和
發生機率。例
組成機率分布(probability distribution/
一事件各種結果可以數字來表示
(random variable) 隨機變項,代表一個實驗有不同機
率(隨機)
二項分佈(binomial distribution),它適用於只有兩種
可能情形—一生病或健康、死亡或存活、暴露在危險因
子下或未暴露在危險因子下,
機率分佈可以代數表示,二項(binomial term)展開 式
(p+g)n P為成功的機率,q=1-p是失敗機率,n 爲試
驗次數
在以下
的條件下,二項展開式是適用的;
1. 每次試驗只能出現兩種結果一成功或失敗
2.
每次試驗的結果均為獨立。
3. 在任何一次的試驗中,成功結果的機率p爲常數,
不會改愛

ページ8:

有序數字的資料,如種族、性別和治療方式,變項的數
值通常置於橫軸,可依序排列,也可以字母排列,再標
示出其出現次數。
通常依出現次數來製作長條圖,次數最高者通常放在最
前面,次數最低放在最後一組。每個長條的高度代表次
數,為避免讓人誤認為是連續性的資料,所以每一個長
條寬度必須相等,而每一個長條必須分開,見圖3.6°
在長條圖 (bar chart)中,高度代表該組的相對次數,
與直方圖
(histogram)不同,直方圖所圍的面積代表相對次數。
長條圖不一定要以零開始,因實際狀況的不同,可以將
縱
軸截斷,不以零點開始。
圓餅圖(pie chart)
用來表現類別資料的分佈圖:一個圓被切成多個扇形,
其面積對應類別次數多寡。
盒鬚圖
有時可能會處理勵於地域性的資料
先定義中位數和百分位。
中位数(median)即將資料依大小順字掛好,取中間
值:如果中間的數字有兩個,則取這兩個數的平均值即
可。
盒鬚圖,的兩端表示中間50%數值的範圍,而中位數則
為中間原點部份,兩端的鬚線則表示資料的分散情形。
第4章 資料的概述
平均數
算術平均數,簡稱平均數(mean)是將所有觀察值加總
除上觀察值的數目。除算術平均數外,還有其他的平均
數:調和平均數和幾何平均數。算術平均數可以視為所
有觀察值的平衡點或重心,它考慮到每個觀察值及平衡
正偏差和負偏差的差距。平均數受每一個觀察值影響,
因此較極端的數值會影響,甚至扭曲平均數,因此它就
不再能代表所有觀察值的數值。
中位數
將資料數值從小排到大後,分為兩個相等數目,中點即
是中位數(median),中位數被認為整個資料中最典型
的觀察值。簡單地說,中位數就是中間值,對於樣本數
為偶數時,中位數則是中間的兩個觀察值之平均。
眾數(mode)是出現次數最多的數值

ページ9:

變異係數
平均數和標準差的其中一種重要應用是計算變異係數
(coefficient of
variation),標準差相對於平均數的比例,並以百分比
表示:
變異係數表示標準差相對平均數的大少,因爲兩者的單
位相同,所以雙異係數是後有單位,與原始資料的測量
單位無關。因此可以用來比較單位不相同的變項之相對
變異情形。
用平均數和標準差的公式便可計算樣本的平均數和標準
差。要計算母體的平均數和標準差,可使用相同公式,
但符號不同。
母體平均數符號為(希臘字母小寫的mu)所有數值加
總,除上整個母體的個數,樣本平均數x是推估mu的
數值,所有樣本觀察值的總和除上樣本數n(習慣上以希
臘字母表示母體的參數,羅馬字母則用來表示樣本的統
計量)母體的變異數c,觀察值和母體不均數的距離平方
上N·樣本變異數(估計值),是觀察值和樣本平均數x
距離平方的總和除上n-1;大多數樣本變異數的分母為
n-1,計算出較精確的計值·
對標準差和變異數解釋-10和mu是母體的特質,x bar
和s 代表樣本,稱為統計量
正確代表資科的中央趨勢測量是很重要。又最好使用兩
個指標:中央趨勢和變異性來綜合資料的特性,而最常
應用的是算術平均數和標準差

ページ10:

機率
1. 機率(probabiliy))主要是應用在未來發生的事
件,不用在過去事件(就算過去的結果未知,也
不估計官)。
2. 機率是以數字表示的,範圍在0到1間,不能低於
O或高於1。機率為1.0表示事件必定會發生;0表
示事件不會發生。如果機率為.5,表示平均每二
次試驗會有一次會發生,如果機率接近1.0,表示
事件很可能發生;機率接近0,表示不太可能會發
生。
機率(probability)是某特定事件發生次數對於所有同樣
可能出現的事件(equally likelyevents)發生次數的比
例。某事件發生的機率P(E),被定義為在一連串重覆
的試驗中某事件出現
次數的比例:某事件出現次数
P(E)=某事件出現次數/所有可能出現次數
互斥事件(mutually exclusive event),E:
表示某些
事件不可能同時發(,即當某一事件發生時,另一事件
就不可能發生。
5.2-互補事件
事件A是A的互補事件(complementary events
機率法則
相乘法則和相加法則是兩個不可或缺的法則,用來解決
最常計算的複合事件發生機率的問理(複合事件兩個或
以上不同的事件)
。
事件發生並不彰響另一事件的發生機會,此二事件稱寫
獨立
(independent)
「獨立(independent)」和「互斥
(mutoally exclusve)」並不相同。過立事件是在同一
時間出現時,不能響其他事件的出現機率;互斥事件則
不可能同時間出現。
在測量兩個獨立事件的發生機率可以使用相乘法則。
.相乘法則 (maltfp icafon rule)兩個獨立事件A和同時
發生的機率等於A事件和B事件個別發生機率相乘
條件機率(conditional probability)
分母爲所有符合條件的子集「而分子則爲符合條件及出
現某事件者。
(條件機率以P(AIB)表示,代表在B 事件發生情況
下,發生A事件的機率

ページ11:

2.4
第2章 母體與樣本
19
如何挑選隨機抽樣的樣本
最容易挑選隨機樣本的方法是使用亂數表亂數表所列的
每一個數字出現機率均等。挑選隨機樣本有三個步
驟:(1)定義母體,2)編號,和(3)使用亂數表選出
樣本。
22
在無以計數的情況。無論多麼複雞的抽棧方法,運用簡
單隨機抽樣。
2.5
抽樣的可信度,可利用一個人數很小的母體,然後用樣
本數很小(n=3),得到所有樣本。對於每一個樣本計算
出平均數,比較與母體的參數差異情形。比較樣本的平
均數(統計量)和母體的平均數(參數)便可以瞭解抽
樣的可信度。
第3章 資料的整理與呈現
在做總結或呈現資料時,最便利的方式也許就是利用次
數表(第一個步驟為測量和計算資料的區間,可以將資
料整齊排成列(array),將所有觀察值從小排到大列
出,算出它們的間隔。
°
第二步驟是將觀察值範圍分成幾個等距且不重疊的間
隔,稱爲組距通常間隔等於組距的長度,比較任兩組次
數的差異。
34
第3章/資料的整理與呈現
分局6組 離野則S6G-193或20 在夫32中第一組
390-10wml
組限(chans LnmitD)再組限觀察數目稱為每組出現次
數(class freguceney)這個記錄(tally)記錄製察所得
的個數。
次數分佈可以是一個表格(或圖,或是一個等式),包
括了一群區間和區間內所有的觀察值——也就是說可以
顯示出母體的比例或是樣本特有的特性
次數表通常還包括某些項目,例如相對次數(relative
frequency)表示某組相對於總數的百分比,就是將某組
數除總數後,再乘上100
它表示某組佔所有總數的百分比。相對次數特別有助於
比較兩組數日不相等的資料

ページ12:

常態分佈
常態分佈的重要性
醫師通常依賴正常界限 (normal limit)區分病人與健康
者。
血漿蛋白(senomwahuoin.)是加獎中主要的蛋白質,
對任何族群来說-血消蛋白液度依循一常態分佈( normal
distrition)、血清蛋白的正常界限超過一大群正常人的
血清蛋白,然使以平均限加減2倍的標準差˙定成正常界
限。這種計算方式包含測量值位於中間的95%的人/不包
括括5% 即不包含最低的2.5%和最高的
2.50的人。
極端處的概察值,即曲線圖上的尾部,可觀為異常值並
且可以當作判定是否健康的依據。然而,並非所有的變
項均呈常態分佈,常見的兩個反例為尿素和鹼性活性磷
酸脂酶(alkaline phosphatase),如果為平均值士2倍
標準差來定義正常界限,不包含最高和最低尾部各2.5%
的觀察值,便不正確。爲了解決這樣的問題,醫
「監床界」取代「常態界限」&臨床界限(clinical/
fimit)是正常族群的資料,不論其分佈是否為常態,最
高和最
低的2.5%的人即為有病的人。臨味界限是從數據實證而
來,並非由平均
數加減2倍的標準差。應用臨床界限優於常態界限

ページ13:

將常態分佈稱爲「高斯分佈」(Gaussian
Distribution ),因為他們不同意事件不是「常態」
常態分布
第一,形狀為對稱的鐘形曲線(bell-shaped
curve),平均數對稱,並向外左右延伸至負無限大或正
無限
第二,所有常態分佈都可算出在曲線下的面積,無論平
均數或標準差多大或多小,曲線下某兩點間的相對面積
永遠相同。
第三,常態分布需兩個參數分布,平均數和標準差,常
態分布的指數方程式
標準化分數(aandardized score)z表示在整個分佈中觀
察值的相對位置。設某一變項呈常態分佈,任何原始數
值都能轉換
爲Z分数,有時Z値又稱爲Z分数(Zscore)、Z値
( Zvalue)或標準常態分數(standard normal score )
步驟1,設變項X的平均數為MU及標準差為 LO
步驟2,各原來數值X
均減去MU,平均數由MU變爲0,標準差為LO。不改變。
步驟3,再除上LO。,平均數依舊為0,標準差由の轉為
1.
這種Z 轉換,就是將任何常態分佈的變項轉換為標準常
態分佈standard normal distribution ),標準常態分佈的
MU=0,LO =1。標——
標準常態分佈曲線下的面積
13.59%
34.13%
34.13%
13.59%
2.15%
知道如何科算標準帶態分佈曲線下的面積後,很容易便
可求出来變項數值人數百分比(或出現機率) 某特定事
件發生的機率便可
對事件的發生做適當的推論。

ページ14:

學生氏t分佈
很多時候母體的標準差。是亦知道的,就無法計算Z分
數。所以當lo
未知時,可採用s來估計樣本標準差,
經s取代後之分佈不再是標準常態分佈,而是在t 分
佈。Cossett 以「學生」的假名發表可因此稱(Student's t
distribution)
1分佈與標準常態分佈復相似,爲單峰、鐘形、對稱,且
兩邊無限延伸,t分布曲線變易量高於常態分佈,面積總
和仍為1.0
曲線下面積 阿發表示為自由度(degree of freedom
df) 表示之函数。
df = n - 1
自由度在某資料有多少個案資料可以用來估計母體變異
數,樣本數越大,s用來估計 Lo 的可信度越高,平均
數t分布變異量隨樣本數增加而降低
T 分布說明了大樣本中無限大的自由度的觀念:自由度
無限大時,t分布相等於常態分布。當母體的標準差未知
時。如果母體的
Lo 已知或是樣本數是超過25時,採用常態分佈 否則,
應探用t分佈。
執行t檢定必要的假設
執行1檢定時必須符合以下的前题假設
1. 觀察者必須是隨機選出的
2. 此分佈必須是常態分佈
儘管母體分佈不是常態分佈,只要樣本颗夠大( ≥30,
其機本平均組成之抽樣之分佈仍接近常態分佈。樣本分
布平均組成之平均數等於母體分佈之平均數。樣本平均
數之標準誤等於母體標準差除上樣本數的平方根。

ページ15:

母體不均數之估計
8.2
點估計和信賴區間
對母體參數作估計包括兩部份
點估計(point estimate)和信賴區間
confidence interval)的估計
母體本均數mu 的點估計(point estimate)為母體中隨
機採本的樣本均數x bar,
。
點估計的缺點是無法以機率說明點估計與母體參數多
接近,卻可以(confidence interval, CI)來補救,
信賴區間可估計未知參數 mu,並提供一個誤差範圍來標
示此估計好壞的程度。信賴區間主要是利用Z分數推導,
在一特定機率下此區間包含母體平均數mu
有95%的樣本上,平均數將落在母體平均數 士1.96個標
準誤範圍內
重覆抽樣,預期(機率為.95)欲估計的母體平均數!將
被包含在1.96(c/Vm)和至+1.96(0分)的範圖內。
此區間稱為母體平均數之
95%信賴區間(95% con fidence interval),通常表
示:
(8.3)
H之 95% CI =〒土1.96
a
也可以代入不同機率,如99%的信賴區間為
H之99% CI =z±2.576-
少。
(8.4)
上面的得賴區間公式並不是常常被使用,因爲,通常是
不知道的。所以當。未知時,則以樣本標準差s取代。如
同公式8.3和84,只是以士值
力一/自由度)代替値・因比當只有s己知(未知)時,
賴區
間為:
H,Z (1-a) 100% CI = x ‡ t-
(8.5)
其中 -
爲賴區間的誤差界限值及測量樣本統計量的誤差情形。

ページ16:

/母體平均數之估計
29
的95%和 df=24之1值寫2.064,因此95%信賴區間為
p之95% CI =x=2.064
S
Vn
=47.5 2.064-
4.8
V25
=47.5±1.98
=
(45.5,49.5)
4
結果:在重覆多次的實驗中,我們可以預期95%的機率
母體平均數H
會被包含在,又一2.064s/m和子+2.064s/間
45.5 和49.5倍頼界
哦
信賴區間為一範圍,有95%的機率涵蓋母體平均數。儘
管如此,仍有,5%的機率會沒有涵蓋到H,即仍有2.5%
的機率可能落在z=1.96以上的位置(或乙=-1.96以
下),因此利用Zos 1.96和ZO2s =-1.96計算信賴區間的
上限和下限。雖然信賴區間是以樣本資料及涵蓋母體參
數的機率來計算,但在求得特定信賴界限後,此區間含
蓋 之事後機率(posteriori probability
8.3
兩個獨立樣本
跑者和非慢跑者的身體狀沙兩個獨立模本(two
independent samples)
計算兩組人平均數,下個步驟計算兩個樣本的平均數之
差,是兩個母體平均數差之點估計
平方根為兩平均數的差異標準誤
(standard error of the difference)
如同前面所說 lo
平方 很少為已知,所以利用樣本變異數估計, 再從常態
分佈轉為t分布,
綜合兩個樣本變異數,得到綜合標準差(pooled
standard deviation)
S1和S2 加權後平均稱為綜合樣本變異數
I(pooled sample variance)
8.4 兩個平均數差之信賴區間
估計兩母體平均數之差後,下一步便是建立此差異之信
賴區間。
利用t 分數計算信賴區間值為(n1+m2-2)df 中間佔
阿

ページ17:

平方根為兩平均數的差異標準誤
(standard error of the difference),如同前面所說 lo
平方 很少為已知,所以利用樣本變異數估計,再從常態
分佈轉為t分布,
綜合兩個樣本變異數,得到綜合標準差(pooled
standard deviation)
S1和S2 加權後平均稱為綜合樣本變異數
I(pooled sample variance)
8.4 兩個平均數差之信賴區間
估計兩母體平均數之差後,下一步便是建立此差異之信
賴區間。
利用t 分數計算信賴區間,t值為(n1+m2-2)df 中間佔
(1- 阿發 )
狹窄的信賴區間對於母體參數的估計比較好,因爲錯誤
程度較少。
要使信賴區間的變窄,可
1.增加樣本數
2減少信賴程度(可將99%信賴度Z=2.58,以95%信賴
度Z=1.96替代 )
3.藉由減少測量誤差來增加特確度,與造出較小的雙與
量)
配對t檢定
配對t檢定絕對不可以兩個獨立樣本來處理,即統計上可
視為只有一個樣本的問題,所以計算賴區間也視為單-
母體平均數的問題。在計算配對t檢定的程序中,將單一
樣本的資料相減,得到成對的觀察值,便可用單一樣本
方式來處理。
樣本數的計算
若考慮樣本數,亦要問「在估計母體平均數時,多少誤
差是可接受的?怎賴程度訂為多少?觀察值的變異情形
是多少?」獲得答案後,便可計算樣本數大小。
母體平均數之差異估計可利用二種方法:運用兩個獨立
樣本,或同一樣本實驗前和後的資料

ページ18:

假說(hypothesis)陳述對母體數值的評估所基於的信
念。
虛無假說(nulbypothesis)
的數值之間沒有差異。
。
宣稱母體平均數mu和假說
對立假說(alternative hypothesis)。宣稱mu不等於
muo,不同意虛無假說
檢定統計量(test statistic)
。
用來決定一樣本平均值在
假設的樣本平均數機率分佈的相對位置。
臨界域(critical region)。在分佈未端的區域。若只有
牽涉到分佈的一未端,適用於單尾檢定(one-tailed
test):若牽涉到分佈的兩個末端適用於雙尾檢定(two-
tailed test)。當計算得之z值落在臨界域時,則拒絕虛
無假說,臨界域有時也被稱拒絕域(rejection region)
顯著水平(significantlevel)。對應臨界域的一水平
值,常以 阿發 表示。
當檢定統計量落在此面積時,表示這個結果達a的顯著意
義。
P值(Pvalue) 超越檢定統計量的值之分佈上尾端
O
(單尾或雙尾)之面積。出現檢定統計量值,或是更極
端值的機率,以p表示。
非拒絕域(nonrejection region) 。抽樣分佈中不包含o
的區域,即位於曲線中間部份。若檢定統計量落在此區
域,表沒有足夠證據拒絕虛無假說;意味著這樣的結果
落在此域是被預期的。非拒絕域是以(1-a)表示。
顯著性檢定(test of significance),藉由檢定統計量是
否落在臨界域,若檢定統計量落在臨界域,結果便視爲
顯著。這種檢定有時也稱為假說檢定(hypothesis
test)
O

ページ19:

顯者性檢定的依據
顯著性檢定是稽由資料的證據去判斷是否要拒絕虛無假
說,一般而言,虛無假說為無影響或沒有差異之猜測,
而對立假說(alternativehypothesis)則是有影響
如果小於顯著水平(雙尾)發生機率,表示事件不尋常
或是統計上顯著。為什麼要考慮雙尾的面積?因為樣本
平均值可能是大於或小於平均數从,如果接近中央值
時,則事件的發生機率將會相當地高。某事件發生機率
高時,代表統計上不顯著(not significant)。樣本平均
數是距母體平均數很遠,顯著性檢定獲得解答
顯著性檢定的步驟
執行顯著性檢定,應依循以下步驟:
1. 列出H。
2. 選擇顯著水平
3. 計算檢定統計量(z分數):
4.決定臨界域,也就是Z分佈中兩個尾端各爲a/2之區域
5.若檢定統計量Z 落在臨界域內,則拒絕虛無假說。
若檢定統計量Z 落在非拒絕域內,則無法拒絕虛無假
說。
6.下結論。
若考康平均否大於給定的母體平均時,應使用單尾檢定
(one-tailed test):同樣地,若是只考慮平均年齡小於
MU,也是單尾檢定。
9.5
「統計顯著」的意義Stafisical significant)
<.05),觀察到的差與並非一偶然事件,顯著水平
(signilicance level)是任意決定,
05.025..01或.001,來表示結果的顯著程度。顯著水平也
是決定拒絕虛無假說可能錯誤判斷的可能性大小
第一型和第二型錯誤
在前面假說檢定和刑事審判的說明中,提及陪審團可能
犯以下二個其中之一個錯膜:C)當被合的確是無率
時,拒絕無罪的F。或2)營被告確質有罪時,無法拒絕
無罪的 H。 同樣地,在檢定虛無假說(H),司以有
以
。
下兩種正確的決定:
1.H.為僑且拒絕H。 即證明樣本來自不同的母體,且此
母體的本心。

ページ20:

以
下兩種正確的決定:
1.H.為僑且拒絕H。;即證明樣本來自不同的母體,且此
母體的M本心。
2. H 為真且無法拒絕H。;即觀察得至k和从間的差異非
常小,相對的變異量在合理範圍內。
若你判斷H。為偽,且事實也是如此,表示你做了一個
正確決定;若你判斷比為偽,而事實上為真,此事件發
生的機率固定為《,即觸犯第一型錯誤(type L error)
或o錯誤(a eTTor)一一推翻正確虛無假說,好比法院
審判中將無辜的人判定有罪。若H,爲真時,當判斷H。
為正確,也做了一個正確決定;若H為僑時,而判斷H。
爲正確,這樣的情況發生機率為B,可以說觸犯了第二型
錯誤(type II error)或稱阝錯誤(B
erTor)一一接受一個錯誤的對立假說,如同法院審判將
有罪的人判定為無罪。這兩種型錯誤總結如圖9.6。
圖9.6假說檢定中可能的錯誤
[判斷
真實的情況
Ho為真
Ho為偽
(Hg為真)
接受 Ho
正確判斷(1-
a)
第二型錯誤(3)
拒絕 Ho
第一型錯誤
正確判斷
(若H、爲真)
a
(1-3)
P(接受HoHo為真)=1-a
P(拒絕HoHo為偽)=1-
統計檢定之檢力,也就是當Ho偽,拒絕Ho之機率。嘗
試設計提高檢力的統計檢定(可以降低顯書水平。,從
0.01降低到0.05,或是增加樣本數。
兩獨立樣本平均數的顯著性檢定
不同樣本之平均數,

ページ21:

x1-X2
t =
1 1
Sp
+
n₁ n2
其自由度爲n1+n2-2。這個檢定統計量可以比較兩個樣
本平均數之差(母體平均數之差的估計值)和未知母體
平均數之差ju1-2。在虛無假說爲真時,兩平均數之差=
配對t則是檢定兩樣本非獨立時平均有沒有差異。配對t
的做法是將兩組數據用相減的方式降為單一母體統計量
的問題,信賴區間也受z 或 t的統計量所決定,所以大
致會猜測顯著性檢定所得的結果,與採用信賴區間所得
的結果會相同。事實上,在雙尾檢定時,結果是一樣•
一般而言,以下有兩種方式藉由信賴區間判斷其差異是
否為顯著:
1. 當假說平均之差異如
1-2 =0包含在信賴區間
內,則H。無法被拒絕。
2.
。
當假設平均之差異並不包含在信賴區間內,則拒
絕H。
9.10 靈敏度和特異度
為了能夠區分受檢者有病或没病,需對臨床檢驗值設定
一切點。當臨床測量數值在異常範圍內,便認為此人有
病:當臨床測量值落在正常範園內時,便診獅此人降正
常。診斷病入就後執行統計中之賈現檢定過程。可能觸
犯以下二個錯誤:
1. 當受檢者正常時,被診斷為有病(稱假陽性
·False positive)
。
2.
當受檢者有病時,被診斷為沒病(稱假陰性,
false negative)
下面說明了診斷錯誤如何發生:
受檢者實際狀態
有病 沒病
有病 a
b a+b
沒病 c
C+d
a+b+c+d
其中c爲假陰性,b爲假陽性。

ページ22:

"
變異數分析
雙異數分析的理論基礎
變異數分析是利用兩個不同變異數 估計值來達到比較多
組平均數之差異。其中一個變異數的估計值寫組內平方
和(within-group sum ofsquare)上其對應自由度, 組
內平方和是算合了各組肉變異的情形。另一個變異數估
計值為組間平方和(between-grouswu orsguare)除上
具對應目由度,即各組平均與總平均之變異情形。組內
或組間變異數文稱寫均方、mean square縮寫MS),
可藉兩者比值,來檢定各組平均數相等之假統。
如果組內與組間變異數相同:比值應接近1
即各組平均數相等之假說是正確。
而樣本’便是母體 之估計值 所以此例會大於或小於1。
而S:/S品比值呈F分佈
見圖10.1。
F分佈不是唯一的,而是一個家族,一對自由度對應一個
F分布。F分佈爲一偏斜分佈,有兩個自由度
變異數分析之計算
組間平方和(between-group sum of squares) (SS)
均差異平方的總和,即組間之變異情形
組內平方和 (within-group sum of squares))
平均的差異平方的總和,即組內之變異情形
總平方和(SS.)所有數值與總平均差異平方
變異數分析有兩項前題假設:
1. 各觀察值為獨立,
案之觀察值無關。
即任一個案之觀察值與其他個
2. 每組數據屬常態分佈,而各組之變異數相同,即
變異數具同質性
(homogeneous) •
變異數分析是一個很穩健的統計檢定方法(robust
technique),即對每組數據之常態性和變異數同質性並
不很敏感,特別是大樣本及各組人數
表10.3

ページ23:

變異數分析 (analysis of variance, ANOYA)只有兩組
的雙異數分析和t 檢定一模一樣,其質雙異數分析是t
檢定的延伸,用來比較二或以上獨立組別之平均數有沒
有差異。
單維的變異數分析變異數分析的前題假設爲各觀察值為
獨立
雙異數分析是一種藉比較組間及組內變異來檢定多組平
均有沒有差異的統計檢定方法。將總變異量分割成組間
及組內雙異量來估計母體幾異數
。,兩者的比值就是F統計量。如果計算得之F檢定大於
臨界值,表示至少有一組之平均值與其他組平均值不
同。要進一步知道哪些組有差異,可以進行多重比較,
而不是多個t檢定。
而變異數分析就是將依變項變異數分割成來自組間及組
內的變異,檢定平均數有沒有差異。使用的抽樣分佈為F
分佈(F distribution)而不是t分佈(F分佈是紀念推導出
此檢定之統計學家 R.A.Fisher 而命名)
°

ページ24:

單維變異數分析表
變異來源 平方和
組間
組內
總和
自由度
均方
Source of
Sum of
Degrees of
Mean
F value
Variation
Square
Freedom
Square
Between
MSB
SSB
k-1
MSB
Group
F-5號~F(k- 1, N - k)
Within Group
SSW
N-k
MSW
Total
SST
N-1
涂基 HSD 檢定
涂基 HSD(Tukey's honestly significant difference)適
用於各組人數相同並同時要比較各組之平均是否有差
異。在進行多重此較檢定(multiplecomparison test)
首先決定整體顯著水平a,即一或以上之虛無假說(所
有組平均都相等)為偽之第一型錯誤的可能性。HSD 方
法計算出,差異值,只要任兩組之差異值大於此 HSD 差
異值,即有統計顯著差異。
隨機集區設計
隨機集區設計(randomized block design)是將某影響
因子分割成很多集區,成為實驗單位,然後再以隨機方
式分派到不同處置,使得每個處置都有相同集區,進而
去除此影響因子對測量值之影響。有k種處置
(treatment)及n個集區(block),集區通常是一些欲
控制影響因子之分層,如年齡的分層,體重的分層,社
會經濟地位的層級等。
總自由度亦可分割如下:
總自由度一集區自由度+處置自由度+殘餘自由度
kn -1 = (n - 1)+ (k-1)+(n-1)(k - 1)

ページ25:

11.2 二項分佈的平均數及標準差
(^)
n
pk (1 − p)n-k.
人數需要30或以上才符合常態分佈,但對於二項分佈不
能用相同法則來判斷,常應分佈與
二項分佈相近:
p<q且npz5,或p>q且nqz5
因此,便可計算二項分佈的平均數及標準差。
a = Vnpq
由於以常態(連續)分佈來估計離散分佈,需要加入一
連續性校正項(continuity correction)作調整。校正方
式為分子取絕對值然後減1/2。
當n非常大,母體成功機率非常小時,應使用卜瓦松分佈
(Poisson
Distribution)
11.4
二項分佈的統計顯著性檢定
當 N 很大時 p會近似常態介佈-因此可 轉換成標準化分
數(Z作顯著性檢定。
有加連續校正項與沒有加連續校正項所得結果差異不
大。
檢定兩組比例是否有差異
在寶務上,很少作單樣本比例顯著性的檢定,因爲母體
具某特質比例常常是不知道的。比較常見的是比較兩個
比例(p1-p2)是否有差異, 譬如比較對照組與實驗
組具某特質之比例有沒有差異。首先,我們需要知 道
(p1-p2))之分佈,及其平均數和標準誤。 (p1-
p2)會近似常態分佈,其平均數為(p1-p2)
知道 (p1-p2)平均數及標準誤,可計算標準化分數z
如果母體成功機率不同,則SE(PT-pz)不同

ページ26:

有病 沒病
有病 a
b
a+b
沒病 C
d
C+d
a+b+c+d
其中c爲假陰性,b爲假陽性。
在比較不同之臨床檢驗或篩檢試驗的效果時,常使用靈
敏度和特異度來表達。靈敏度(sensitivity)是在有病的
人中檢查結果為陽性的機率,從表中所示,可得
靈敏度=a/a+c
特異度(specificity)是在沒病的人中檢查結果為陰性的
機率,特異度 d/b+d
假陰性之機率為1減靈敏度,假陽性之機率爲1
22

ページ27:

檢定兩組比例是否有差異
在寶務上,很少作單樣本比例顯著性的檢定,因為母體
具某特質比例常常是不知道的。比較常見的是比較兩個
比例(p1一p2)是否有差異, 譬如比較對照組與實驗
組具某特質之比例有沒有差異。首先,我們需要知 道
(p1-p2))之分佈,及其平均數和標準誤。(p1-
p2)會近似常態分佈,其平均數為(p1-p2)
知道 (p1-p2)平均數及標準誤可計算標準化分數z
如果母體成功機率不同,則SE(p1一p2)不同
當樣本數足夠大時,可用樣本比例p來估計 信賴區間
至於小樣本時,需從二項分佈來推導信賴區間•

ページ28:

卡方檢定的基本原理
因爲T檢定分析量性資料,卻不能處理類別資料。便是所
謂次數資料(frguency data);又稱為計次資料
(enumeration data),因爲是列出各類別有多少人
數;又稱類別資有料(chiesorical dase)•因計算有多少
人落於某類別內:或稱質性受料(gualiative data)·因
是依興趣將資料理成有沒有特質。
呈現這類資料的表格稱爲列聯表(contingencytable)
列聯表不是要去求兩個量性變項x及y之線性相關係數
°
。
卡方檢定主要是比較觀祭次數(Observed freacney)及
期玺次數(expected frequency) 一抽樣問題,或真
是一不尋常事件,即出現機率非常小的事件,100次小於
5次。要回答此問題,需要知道上述統計量卡方x之分
佈,即需要決定卡方檢定之機率分佈
Xi,j
2
(O-E)²
E
當樣本數或期望次數不要太小時,」述之檢定量之分佈
近的卡方分佈(Chi-square distribution)。 卡方分佈爲
一正向偏斜,由零開始的分佈。
卡方分佈也是一個家族,依自由度不同而不同,就像T分
佈依自由度
不同而不同・卡方分布定自由度是由列聯表有多少個自
由變動
決定。陰影部份 是不同自由度卡方分佈之5%尾巴。當
自由度愈推加,拒絕虛無假驗約臨界值也跟著增加。直
覺來說,自由度獨立類列數目成正此,當`類別數目愈多
時,卡方
之臨界值也應增加。
使用卡方檢定決定:
1. 兩個雙項之間是否獨立
2. 相同雙項內不同組別間之同質性
3. 兩組中是否具有某特定之比例之差異
12.4
檢定兩個類別變項之間的獨立性
。首先依虛無假說回答問題,計算出期望次數,在計算
卡方統計。
依據機率相乘法則:兩獨立事件A及B同時發生之機率為
P(A 及B)=P(A)P(D)。

ページ29:

「兩個變項是杏相關」是一個最令人感每當一不尋常事
件發生,我們都會問它的原因,去採訂其因果關係
(canse-and-effect relationship)。很參變項似乎都與
其他愛項有關,但不見得是一因果關係.
相關及線性迴歸
兩種最常用來分析兩個量性變相xy的統方法就是 線性
相關及線性回歸。前者側兩變相的線性相關強度 後者
預測方程式。
只要兩者之關係為線性,相關係數使是要測重兩者線佳
相關強度。當X及y為隨機變項(變項值會依其分依作獎
動),便可計算兩者之相關係數。
當處理兩雙項資料時,有一些常用代號,X表示自變項
(independent variable),因爲x值的變化不受其他變
項值的影響;y則表示依變項(dependent variable)
因y僅變化受其他變相的影響。
13.3 ˙
散佈圖
也可用畫圖的方式,也就是以散佈圖 (seatter diagram
或
scattergram)來描述兩個愛項之關係。所謂散佈圖是將
兩個變項觀察值() 在水平之x畫一直直線,在垂直之
y一水平線,兩線相交點作一記號:其他成對觀察值亦
用相同方法畫下記號,便得一散佈圖。
散步圖實線(regression line),又稱為最適配之直線
(uine of bestnt)。因為有隨機雙異,比起以預測之期
望少
這個差與稱為殘差(residual)。

ページ30:

生命統計(vitaf statistics) 規劃一個公共衛生方案,評
估一個方系的有效性,部
需要用到人口學及生命統計。
人口學 項(demographic variable)可用來描迹一個族
群的特質。
特定時間的一些問題或多年趨勢。若再加上疾病的資
料,可規劃疾病治療方案
是生命統計的率(vial rate) 對比(ratio)、此例
。
(proportion)、生育事(Gertlite) 疾病率
(morbidlity)及率的調整 (adjustment ofrate)。
在生命統計有三種最常用的率:粗率、特定率及調整率
粗率(crude) 是對整個板群;不考慮年齡、性別、種
族及疾病之差異。特定率 則是考慮子族群之差異,如年
齡、種族、性別及其他雙項子族群。開發化
〈adjusted)或標準化(standardized)率則是一種整合
不同子族群結構(如年齡)之率,用來比敏不同族群間
率之差異。
而對比(ratio) (a/d)c次方
比例(proportion)之計算方式則是
(a/a+b)c 次方。
粗死亡率(crude death rate)
一年中死亡人數,除以該年7月1日的族群人數,乘上
1000)
當兩個族群之年齡、種族及性別結構非常不一樣的時
候。比較合適的比較應該是先將率調整後再比較,使用
特定率(specific rate)來比較就較公平,例如,某年齡
別、某性別或某原因別死亡率。
第15章/生命統計及人口學方法
年齡別死亡率(agO-pecific death rate
一年內某年齡死亡人數,除以當年7月1日相同年齡的人
口數,再乘上1000。
死因別死亡率(cause-specific death rate)
一年內死於某特定原因之人數,除以當年7月1日之人口
數,再乘上100,000
死因、種族別死亡率(cause-race-specific death rate)
死因、種族別死亡率為同时合优网狸特質的特定率的其

ページ31:

用
在單樣本情形
今檢定ho一樣本的中位數等於母體中位數m。將數值高
於母體中位數者給予+代選 低於母體中位數者給予
(一)號,而數值等於母體中位數者給予0分,不列入計
算。如果ho為真,則樣本之中位數與母體中位數相同,
則樣本應該有50%(+)及50%(一)。
然後用二項分佈來決定(+號數目與期望數目有沒有顯著
差異。除了用二項式,
用在成對樣本情形
40
符號檢定也可對成對資料,如前後測、治療及對照組作
檢定。唯一的前題假設為每對資料是獨立,然後只記錄
每對貸料之正負號即可。例如治療是無效,則正號與負
號之數目應該相同(H。)。
14.7 史不曼排序相關係數
計算兩個排序變項之相關一史丕曼排序相關係數
°
(Spearman rank-order correlation soeffcient) 當x與
y排序後排名相同時,則得到完全相關(+-1)。而沒有
關保時,可用排序後產異
每對數字排序後之差異,成對數目。與皮爾森相關係數
相似,史丕曼相關係數之範圍為-1到+1。愈接近士1表
示有高度相關,愈接近0表示沒有相關。正負號則代表相
關之方向。
因為史丕曼相關係數r.之檢力比皮爾森相關係數r為低,
因此,如果沒料能符合皮稱森相關係數之前理假股,儘
可能用皮爾森
費氏精確檢定
卡方檢定有一些限制,就是不適合使用於小樣本,
所有期望次數不能小於1及20%的期望次數不能小於 5。
對於小樣本,可使用費氏精罐檢定(Fisher's exact
test),直接計算在2×2列聯表出現次數機率
費氏精確檢定即真正p值小於計算得之p值,精確檢定結
果較保守

ページ32:

杌可取
(第一個樣本的排序和)與.(期望排序和)不會有明顯
的差異。而且不管母體分佈形態是怎樣,排序和的抽樣
分佈近似於常態。因此,便可對兩個分佈相似與否進行
顯著性檢定。
假如第一個樣本之數值小於第二個樣本,第一個樣本.也
應該比校小,即第一個樣本的排序值會格在兩個樣本混
在一起分佈的低分典一邊,便與兩個分佈沒有差異之虛
無假說相抵觸。
適用於大樣本。所謂大樣本是每組人數必需是6或以上。
Wilcoxon signed-rank test)。假設有一系列成對數據,
我們要檢定的是第一個樣本之中位數與第二個樣本之中
位數相等之假說,計算成對數據的差異(d),扣除差異
爲零之觀祭值,樣本數會因而下降。對此產異之絕對值
從小到大作排序及排名次,取小者1分,最大者n分,同
分之處理與前述相同,然後將原來差異之符號放回排序
之分數,加總符號正排序,得檢定統計量w1。如虛無假
說為真時,正符號之排序和與負符號之排序應該相等。
與配對t檢定比較,魏克森符號排序檢定之統計檢力效率
爲92%,即靈敏度比有母數檢定爲差。
至於符號排序和符合常態分佈之假設在n≥8便能滿足。
K-W 單維排序變異數分析
比較組別為3組或以上,各組又是獨立,母體資料不是常
態,各組變異數不相等時,可用kw檢定。
14.6 符號檢定
符號檢定是最簡單的統計檢定方法之一,是以中夫趨勢
之中位數作運算,唯一前題假設就是資料來自— 連續分
佈。
。
由於將資料轉換為正、負號,然後作計算,所以稱為符
號檢定(signrest) 我們將以單樣本及成對樣本說明符
號檢定之計算及用途。富資料之常態分佈無法滿足 而不
能使用t檢定時,符號檢定就特別有用。
用
在單樣本情形
今檢定ho一樣本的中位數等於母體中位數m。將數值高
於母體中位數者給予+代選 低於母體中位數者給予
(一)號,而數值寺於甘瞑中位数百和予0分,不列入計

ページ33:

相關係數
樣本之相關係數以,数示,甘體之相闆係酸則以。(rho
数表示。相關係數叉稱為皮爾森積差動差為一從-1到+1
之數值,沒有單位。相關係數為「0」表示兩個變項沒有
線性關係。
相關系数愈接近+1或-1,表示兩個雙項之關係愈接近線
性。正相關 (postive correlation)表兩變項之關係傳正
相關,即一個雙項數值
增加(下降):另一個獎項數僅亦會增加(下降):負
相關(negatve correlation)表示兩偏婆項之關係為負
相關,即一個變項數 值增加(下
降),另一個變項數值反而下降(增加)
樣本之相關係數
COV (x, y)
Zi=1(xìx)(Vity)
r(x,y)
SxSy
|Σ=1(x − x)² √ √Σ -1 (Yi − y)²
vi=1
當兩個愛項之關係為非線性,不適合測量兩個愛項為一
曲線之關係,相關係數很低,因為相關係數是測量觀察
點與某一直線有多近的程度。r的大小不會隨著單位而改
雙
曲線關係
假如散佈圖顯示線性模式並不合適 解決之道就是對其中
一個變項作轉換,然後再作線性迴歸。假如殘差項比較
小,表示曲線會比用直線來解釋兩個變項的關係來得
好。
決定係數
r平方永遠在0至1間-當 =0時,表示迴歸直線為水平
線,即斜率=0
R平方愈接近1,迴歸直線愈適合,即殘差牛方和帖對總
平方和來說非常小·所以常當用來表不迴歸分析之適合程
度。
可將r平方看做y總和平方被xy回歸直線模式解釋比例

ページ34:

14.1 無母數分析之適用時機
母數分析 法(paramere methaod)兩樣本平均有沒有
差異。涉到常態分佈及t分佈。至於對兩個變項的關係,
相關係數。檢定都假設常態分佈,變異數同質性,及直
線性關係。
無母數分析方法(nonparametric mnethod)無母數分析
不受數據分佈限制的分析方法(distribution-free
methods),因為不須假設資料爲常態分佈。無母數
分析用於名目、有序的資料或須料分佈未知。無母數分
析方法有三個優點:
1. 不需要假設資料屬常態分佈。事實上,很多資料
都不是常態分佈或樣本數不夠大,而且很多資料
分佈也不是對稱。這是無母數分析方法的最大優
點。
2. 計算容易及快速。
3.適用於一些難以量化的實驗及調查資料結果。雖然有
母數分析方法比較容易得到顯著之結果:但卻沒有無母
數分析方法的可察:而且有母數分析方法對有序資料的
誤差比較不靈敏。
無母數分析也有三個缺點:
1相較於有時數分析法 沒有效率(即需要大的樣本數士
能推翻
錯誤虛無假說)
1. 與有母數分析方法相此,無母數分析所檢定之假
驗較不特異。
2. 沒有應用到資料分佈的特性,所以無母數分析方
法也沒有使用到所有關分佈資訊。
魏克森排序和檢定
魏克森排序和檢定Wilcoxon rank-sum test)適用於檢定
兩個母體分佈沒有差異之虛無假說。魏克森排序和檢定
是以排序來計算,與雙樣本獨立t檢定相似,只是不需要
常態分佈及變異數相同之統計前題假設。
計算過程:
1. 將兩個資料混在一起,依數據值從小到大。
2. 給予排序分數。
3. 將兩個樣本之排序分數分别列出。
4. 分開加總兩個樣本之排序分數。
在虛無假設開成立下,兩組排序平均分數相同,即檢定
統計最
(第一個樣本的排序和)與.(期望排序和)不會有明顯
的差異。而且不管母體分佈形態是怎樣,排序和的抽樣
分佈近似於常態。因此,使可到兩個分布相似與否進行

ページ35:

13.5
對母體相閣係數作假說檢定及計算其印賴區間
樣本相關係數,是母體相關係數估計值,理所當然的要
作顯著性
檢定及賴區間。
假說為 0,自由度為n−2,n為成對觀察點之數目。
相關係數的限制
相關係數要測量兩個雙項與一直線的靠近之程度,但卻
不能檢查線性關係的正確性。另外,假如樣本數很小時
(小於50對時),應該懷疑相關係數的可靠性。此外,
應該畫散佈圖)檢查有沒有極端值
極端值對相關係數值有很人影響,很可能會導致一個錯
誤結果。最大缺點是當相關係數高,時常常有一因果•期
時相關並非指因果關係
13.7 迴歸分析
採用平均數,不用中位數,仍可採用迴歸線
Y=a+bx
Y指預測值(即落在迴歸直線上的點) 而y為觀察值,
通常不會落在迴歸直線上。常數 a及b則是迴歸直線方程
式裡的兩個參數的估計值,指出迴歸線之位置。常數a代
表當x=0時,
Y值應該是多少:b代表迴歸直線的科率(slope)。斜率
的定義爲自雙項x改變一個單位,y改變b單位,因此,
斜率=迴歸係數,是xy關係強度指標
母體迴歸直線之估計式
y=Bo+Bx+e
其中Bo稱y 軸截距(y-axis intercept)最小平方法
(least-squares method),對(y-Y)最小化來估計Bo
Bx。
回歸直線會穿過xy平均數,畫散佈圖時,常常會特別
將x y 平均數加上去,最小平方迴歸直線之特色是觀察
點與迴歸直線之差異總和為零。
13.8
迴歸直線斜率之推論
回歸的前提假設:
給定x 值,y平均落在直線上。離差變異數為同質性,
相對於某x值,y分布為常態
在計算得r及迴歸斜率
b後,應作顯著性檢定或計算信賴區間,以瞭解母體參數
估計的準確性

ページ36:

死因、種族別死亡率(cause-race-specific death rate)
死因、種族別死亡率爲同時合併兩種特質的特定率的其
中一例子。
死因百分比(proportional mortality ratio)
一年內死於某原因的人數,除以同年中全部死亡人數,
再乘100
率涉到傻孕、生產及嬰兒的人數,大部份都是以活產數
作分母。
*產婦死亡比(maternal mortality ratio)
年内因生產或分娩死亡產婦人數:除以該年活產數:乘
以100,000
嬰兒死亡率 (infant mortality rate)
年內年齡小於1歲之嬰兒死亡數,除以該年活產數,乘上
1,000。
新生兒死亡率 一年內出生於28天內死亡之新生兒數,
除以當年活闡述, x1000
胎兒死亡比(fetal death ratio)
胎兒死亡是指滿20週以上或沒有說明懷孕期為多少之胎
兒,沒有生命跡象(没有心眺、呼吸、自主性肌肉活
動)。胎兒死亡比是指一年內胎兒死亡數,除以同年內
活產數,乘以1,000。分子部份是指發生在第二懷孕期胎
兒死亡數,並不包括早期流產數。
周產兒死亡比例(perhatal mortality proporionS
一年內胎兒及新生兒死亡數 除以活產數及胎兒死亡數•乘
上1000
生育率
對於人口控制的問題,生育率是不可缺少。在婦幼衛生
特別重要。對於學校老師及醫療設備之規劃,亦非常有
幫助,
粗出生率(crude birthrate)
一年內活產數,除以同年中的人口數,乘上1,000。
一般生育率
一年活闡述,除以當年中15-44歲婦女,*1000
疾病率

ページ37:

B. tW (Sampling)
抽樣的方法
方法
適用於
(Sampling)
簡單隨機抽樣
(simple random
隨機號碼表、抽籤 小的母群體
幾乎I
sampling)
系統性抽樣
(systematic
sampling)
等距抽樣
分層抽樣
(stratified
sampling)
7、14、21個等)
抽某一群次母群體
(如:1年級全部
學生)
每隔固定的間距抽 須避免具週期性的
樣(如:第
資料想對次母群體
做了解;
平均值時須考慮加
權平均
集束抽樣
隨機抽取一些小團
(cluster sampling)體(如:每個班級
第五小組)
多步驟抽樣
先用「隨機抽樣」 母群體很大
(multi-stage)
選學校一
再用「集束抽樣」
抽每個班級
第五小組

ページ38:

誤差
(error)
1.從母群體(全台灣)抽出一千人當作樣
本,欲由這一千人的統計值(平均身高)
抽樣誤差
推估母群體的統計值(不均身高)
。
(Sampling 2樣本的統計值會和母群體不同,隨機率而
error)
系統誤差
發生,此爲抽樣澳差;意即道次
可能抽到較矮的一群人,下次可能抽到較
高的一群人。
3.抽樣次數增加(抽很多次一千人的樣
本)或抽樣樣本數增加(抽一萬人的樣
本)會越接近母群體的統計值。
1. 因測量儀器的不準確、人員創練不足等
干擾因素(bias),造成的誤差。
(Systemic eror) 2. 不會隨抽樣次數增加
或抽樣樣本增加而越接近母群體的統計
值。
D.集中趨勢 (Central tendency)
計算方法
意義
平均值(Mean)
將所有數值加起
來,再除以樣本
數。
即算術平均數,
般而言,最具代表
性。可以用來計算
標準差,
中位數
(Median)
將所有數值按大小
排列,再取最中間
的數值。
較不受極端值影
響。
眾數(Mode)
取出現頻率最多的
數值。
變異性的表示法
算法
變異數
Variance (var)
標準差
standard deviation
(s)
取各個數值與本均值相
差的值本方->加總後
一取平均
變異數開根號
公式

ページ39:

疾病率
第一死因無法讓人了解各種疾病情形和社區問題
發生率
一年內新罹患疾病人數,除以童年7月1日人口數,
1000或100000
盛行比例
某時段罹患特別疾病數,除以該段時間內人口數,
1000或100000
*
致死比例
*
某時段死於某原因人數,除以相同時段內罹患相同原因
人數,*100
直接方法(direct method)
直接調整法
(direct method of adjustment)對一標準人口,將兩個
比較族群之死亡率代人,算出期望死亡人數之和,便可
得出一調整後死亡率(將期望死亡總人數除以標準人口
總人數)
及
使用直接調整法,需要有待比較族群的(年齡別
死亡率)及一個標準人口之年齡結構(或要調整
的因素的結構)
。
間接方法(direct method of adjustmnent)
之計算方
式與直接法不同 通常用於不知道比較族群的年齡別死亡
率,知道標準人口年齡別死亡率。可計算SMR)(實際
死亡人數除以期望人數),用此標準化因子來調整某族
群的粗死亡率,
公共衛生的決策依賴量化數字,以生命統計及人口學資
料來評估。人口學資料可由人口普查、生命事件之登
記、疾病調查等取得,然後計算出一些率及其他統計數
字來瞭解健康問題的嚴重性。
巧
4

ページ40:

變異係數
coefficient of
variance (cv)
標準差/平均值
用以比較兩種不同變項
的變異情形
E. 變異度 (Variability)
1.愛異性的表示法:
.令一個隨機變數x代表全台灣每個人
(1) 名詞解釋:隨機變數(random variable)
的身高,每個人的X部不一樣,但可求得x的平均值與變
異數,來代表全台灣身高的平均與變異程度。
(2) 最常用來表達一個隨機變數的變異程度即是變異
數(variance),變異數開根號則是標準差(standard
deviation)
(3) 不同的隨機變數的單位、數值大小不同,要彼此
比較變異程度可將標準差除以平
較能標準地反映出每個隨機變數的
均值=變異係數(coefficient of variance)
變異度。
(4) 從台灣人口中,抽出1000人,這1000人的樣本
中,由每個人的身高可計算出此樣本的身高平均值、標
準差(S)。統計推論即是想要由這1000人的樣本中,
樣本的身高平均值、標準差(s)推估全台灣(母群體)
的身高平均值、標準差(6)
(5)變異數的分母不是n,而是n-1,為自由度的概念,
是為了要使由樣本計算出來
的變異數更能代表母群體的變異數,否則會低估離散程
度。
2. 標準誤(standard error)
(1)在母群體中取一個樣本數為n的樣本,此樣本的標
準差為s。在統計推論的過程
中,會進行無限多次樣本數為n 的抽樣。
(2) 這些樣本數為n的抽樣其各自的樣本平均值由小到
大排列,會形成一個分布,此分布的平均值會用來推論
母群體的平均值。此分布的標準差(S)除以樣本數開根
號vr即為標準誤(standard error
);隨著樣本數增加,則標準誤變小。

ページ41:

(2) 95%信賴區間是藉由統計推論得來,故須以統計
推論的角度解釋。其意義是在母群體內進行無限多次抽
樣,即針對國小六年級學童(母群體)進行多次抽樣計
算抽樣平均值,95%的抽樣平均值落在33公斤至37公
斤。然後我們會藉由這樣的結果進行統計檢定得到p值。
但常被誤認為母群體的平均值有95%的機率會落在此區
間,也許臨床應用上感覺不到太大差異,但在統計學上
是完全不同的概念。
<0g
A. 基本步驟
1. 定義出想研究的問題。
2.
定義出虛無假說(null hypothesis),通常與預設
的答案相反。
3.
選擇統計方法進行檢定(下一章節)。
4. 檢定結果進行判斷。
B. 定義出想研究的問題
1. 如同許多臨床試驗,假設想研究的問題是某新藥
是否比舊藥有效?
2. 虛無假設(H):新藥與舊藥的效果一樣。(和
預設相反)
對立假設(H,):新藥比舊藥的效果好。
3.
C.事前訂出可接受的犯錯機率
定義:若事實上虛無假設(H爲真,臨床試驗資
料的統計結論卻認為虛無假設(H,)為假,此
犯錯的機率爲 type lerror (a level)
。
一般情形下,虛無假設會設定為新藥與舊藥的效
果一樣,所以若錯誤認定新藥效果較好,此犯錯
的機率爲 type lerror。
一般可接受的 type lerror (a level)是0.05,某
些狀況下,也有研究者將type lerror(a level)訂
在0.1。
•定義:若事實上對立假設(H)為真,臨床試驗資料的
統計結論卻認為對立假設(H)爲假,此犯錯的機率
為 type II error(B lever)
Rgeet H but toe
°
一般情形下,對立假設會設定爲新藥比舊藥的效
果好,所以若臨床試驗資料的統計結論錯誤認定
新藥與舊藥效果一樣,此犯錯的機率爲 type II
error(BLevel)。一般可接受的type II error (B
level)是0.2。

ページ42:

level) EU.Z.
若事實上新藥比舊藥的效果好,臨床試驗資料的
統計結論也檢定出新藥比舊藥好的機率稱爲檢力
(power)恰為1-B level,一般power 設在0.8,
臨床試驗的藥物效果差異愈大、樣本數愈多,檢
力(power)愈大,意即愈能正確偵測出新藥比
舊藥好。

ページ43:

I. 統計方法
變數種類
2個類別變項
2樣本相互獨立
前後測
獨立
1個類別、1個連續:
兩組互比
前後測 t-test
1個類別、獨立
1個連續;
兩組以上互比
前後測
ANOVA
2個連續變項
獨立
Lin ear
regression
A.兩個等距變項(Interval)
例子
有母數
52
是否服藥的兩組人(類別)Pearson X test 干一是否得
病比較(類別)
Srearman
#啡
服藥前後的一組人
McNemar x* test
→是否得病比較(類別)
是否服藥的兩組人(類別) Student
t-test
→體重差異(連續)
服藥前後的一組人
Paired t test
一體重差異(連續)
是否服藥的多組人(類別) One way ANOVA
→體重差異(連續)
服藥後數次門診追蹤的體重差異(連續)
身高(連續)與
Repeated measures
ANOVA
Linear regression
體重(連續)的相關性
無母數

ページ44:

無母數
Fisher's exact test
Mann-Whitney Rank Sum
Wilcoxon rank sum test
Wilcoxon sign rank test
= sign test (符號檢定)
1. 線性回歸(Linear regression):
(1)兩個連續變項相互比較時。
內科成績
(2) 如術科成績與文科成績間的相關性,
皆為連續變項,所以用直線
迴歸相關。可製成下表,每個點代表一位學生,可看出
是否文科成績愈高、術科成續也愈高:
(3) 相關係數
(correlation coefficient):看兩連續變項間的關係
b. 相關係數值從-1~1,若是正值,表示具有正相關;若
是負值,表示具有負相關;若是0,表示無線性相關。
(4) 迴歸係數 (regression coefficient):看某個連續
變項對另一個連續變項的關係
1. 回歸模型中:y=a+bx 例如:y為內科成績、x為外
科成績)
。
2. 迴歸係數b,解釋為x(外科成績)增加1單位,
y(內科成績)增加b單位。
(5) 決定係數(coefficient of determination) R?
1. 意義:自變項X可解釋依變項Y變異的多少%。
2. 當解釋變項(X)只有一個,決定係數為相關係數
的平方值。
生物統計
B.兩個類別變項
Pearson
53
1. 卡方檢定(Chi-square test or x' test):
(1)兩個類別變項相互比較時。
(2) 想知道男女食道癌病人5年存活的情形是否有差
異,隨機抽樣食道癌病人男60名,女40名,並得知男女
病人中存活時間超過5年者各有40以及10人。男、冬為
類別雙項,有、沒有活過五年,也為類別變項,2個類別
變項相互比較,可以卡方檢定來檢定男女食道癌病人5年
存活的情形是否有差異。可製成下表:
男
女
有活過五年
40

ページ45:

Z score Confidence(雙尾)
Confidence(單尾)
1.96
95%
97.5%
2.58
99%
99.5%
)專
86
G. 信賴區間 (Confidence interval)
1.從一個母群體挑出一些樣本(Sample)後,這些樣本
(Sample)的各種測量值(measurement) 如平均
值,可能不會等於母群體的平均值。通常是加一些、減
-些。若要以樣本的平均值(又)推估母群體的平均值
(w),可用以下公式表示:
2.母群體的平均值(H)一樣本的平均值(X)土乙
(六)
Zscovex標準部
(1) S = Standard deviation 標準差,N=Number 樣本
數。
(2) Z =Z score,代表著信賴程度(degree of
confidence),意即推估的母群體的平均值要有95%的
信賴程度或說是準確程度,z值就帶入1.96;要有99%的
信賴程度或說是準確程度,Z值就帶入2.58°
(3)雙尾檢定用在比較兩個樣本是否有差異時,單尾檢
定用在比較某樣本是否大於某
數值時。 (詳見後面的章節)
3. 信賴區間 (confidence interval)就是指:
(1) 推估的母群體的平均值要有95%的信賴程度時,
推估的區間就約是樣本的平均值
X)士1.96(
)
(2) 推估的母群體的平均值要有99%的信賴程度時,
推估的區間就約是樣本的平均值
(X)±2.58(元元)
(3) 信賴區間若包含0,表示信賴區間含有差為0(沒
有差別)的可能,所以無法拒
絕虛無假說。(詳見後面的章節)
4. 信賴區間解讀:
*19+
(1) 預知國小六年級學童(母群體)的平均體重,對
國小六年級學童抽出100名學童(樣本),發現樣本平均
值為35公斤。95%信賴區間為33公斤至37公斤。
(2) 95%信賴區間是藉由統計推論得來,故須以統計

ページ46:

1. 卡方檢定(Chi-square test or x'test):
(1)兩個類別變項相互比較時。
(2) 想知道男女食道癌病人5年存活的情形是否有差
異,隨機抽樣食道癌病人男60名,女40名,並得知男女
病人中存活時間超過5年者各有40以及10人。男、冬為
類別雙項,有、沒有活過五年,也為類別變項,2個類別
變項相互比較,可以卡方檢定來檢定男女食道癌病人5年
存活的情形是否有差異。可製成下表:
男
有活過五年
女有 40 10
沒有活過五年
20
30
55
(3) 這樣的2x2的卡方檢定,其自由度(df)為1,算
法是(行數一1)x(列數一1);
若是2x2的卡方檢定需做 Yate's correction 修正誤差。
2. McNemar's xtest:又稱為非獨立樣本的卡方檢定。
(1)兩個類別變項(Nominal)相互比較時,兩個比較
的樣本若相互獨立,則用卡方檢定(x2test),但若兩個
比較的樣本相關聯(前後測) 則用McNemar's X2
test 。
(2)如以下例子:檢定懷孕是否會改變婦女的吸菸行
為,100名婦女在懷孕前後吸菸
的狀況如下:
1.
懷孕後
吸菸不吸菸
懷孕前
吸菸
20
20
不吸菸 5
55
(3) 費雪 exact 法(Fisher's exact test) :
a.也屬於檢定類別性變項的方法,當2*2卡方檢定的四個
空格中(如上表格)有值小於5時,需用 Fisher's exact
test。
(4) Mann-Whitney Rank Sum:
a. 屬於檢定類別性變項的方法,當其變項屬於序位變項
(ordinal scale)時使用。

ページ47:

O
C.1個類別、1個等距變項(有兩組互比)
1. t-test:「常態分布、或為大樣本(有母數分析)
(1) Student's t-test:
a.-個類別變項,一個等距變項,需用 student's t-test
b. 測量了兩組(類別變項)噴漆工人工作後的脈搏,
組戴了防塵面罩呼吸器,另一組則戴了供氣式呼吸器,
欲比較二組脈搏(連續變項)是否有差異時,因為兩組
相互獨立,所以可用 Student'st-test。
(2) Paired t-test:
1. 一個類別變項,一個等距變項,但樣本相互相
關,如前後測,則用 paired t-
test。
2.
同一組人,比較戴之前與戴之後的脈搏,則用配
對樣本t檢定(paired t test)
(3) One-tail test(單尾檢定):
a. 比較某個樣本是否大於或小於某個數值時使用。
(4) Two-tail test(雙尾檢定):
2. 較常用的是雙尾檢定,比較兩個樣本是否有差異時使
用。
2. Wilcoxon test: [少數樣本比較(無母數分析)】
(1) 有兩組工作人員,觀察A組組裝10台同款汽車與B
組組裝11台同款汽車所花的平均時間比是否不同,則用
Wilcoxon rank sum test(無母數、兩個比較)。
(2) 有6名男性測試參加減重班前、後膽固醇值是否改
變,為前後測,用Wilcoxon
sign rank test(無母數、前後測)
D. 1個類別、1個等距變項(有兩組以上互比)
1. 變異數分析(Analysis of variance、ANOVA):
(1) 幾組樣本(類別變項)相互比較具平均數(連續
變項)是否有差異,依有幾個變項需分析,分為一方變
異數分析(one-way ANOVA)、二方變異數分析(two-
way ANOVA) 三方變異數分析(three-way
ANOVA)
、
(2) ANOVA的對立假設
: alternative I ypothesis)只
能設定至少有兩種樣本不同,例如有五組樣本比較,檢
定後有明顯的差異,只知道「至少有其中兩組有明顯的
差異」。
甲、生物統計

ページ48:

IV. 用圖形描述集中、離散情形
甲、生物統計
A. 類別分類型資料(Categorical data)
1. 圓形圖 (pie chart)
:所有類別形成一個圓。
2. 長條圖一柱狀圖(bar chart) :每個類別一條bar。
B. 連續型資料(Continuous data)
1.直方圖(histogram):可大致約略了解資料集中、離
散現象、極端現象。
2. 莖葉圖(stem-and-leaf plot):研究月薪>百位數為
葉、十位數與個位數為莖
(1) 區分莖葉一先列出莖,再逐一填上葉(由小到
大)
。
(2)例:
90,102,110,112,120,140,132,122,90,170
。
3.箱鬚圖(Box whisker plot):又柟土數綜合過(Q1,
Q2,Q3,Max,min)
※-----x[鬚鬚延伸到最大值]。
(1) X-------X
(2) Min----Q1----Q2-Q3----Max[愛考注意:箱形圖
的中間是中位數]。
男
(3) 可用於多組比較。
(4) 例:以下為男女的箱型圖,比較資料特徵
女一
a. 描述集中、離散、是否有極端值、分布型態:女生的
算術平均數與中位數相似、較集中,男生較離散且有極
端值、為右偏分布。
莖 葉
9
10
11
12
13
0,2
0,2,4
0,2
2

ページ49:

1. 敘述統計(Descriptive Statistics)
變項
敘述
例子
集中趨勢
(Scale
)
類別變項 不同團體
Nominal
性別(男、女); 眾數
scale)
種族(中國人、日
本人)
序位變項 數字間差距只代表態度(喜歡、普
眾數、中
(Ordinal 強弱
通、討厭);
scale)
名次(第一名、第
二名)
等距變項 數字間差距皆相同長度、時間、重
眾數、中
Interval
量、溫度等
均值
scale)
等比變項 等距變項中,具有長度、時間、重量 眾數、中
( Ratio
scale)
絕對的零*
等,數字間可求倍 均值、倍
數、比例
A. 變項的種類(Scale)
*
絕對的零指的是沒有,如0公分、0秒鐘、0公克,但0°
C不代表沒有溫度,所以溫度沒有絕對的零。
B. tW (Sampling)
抽樣的方法
方法
適用於
(Sampling)
簡單隨機抽樣
(simple random
隨機號碼表、抽籤 小的母群體
幾乎I
sampling)
系統性抽樣
(systematic
sampling)
等距抽樣
分層抽樣
(stratified
sampling)
每隔固定的間距抽 須避免具週期性的
樣(如:第
7、14、21個等)
抽某一群次母群體
(如:1年級全部
學生)
資料想對次母群體
做了解;
平均值時須考慮加
權平均
集束抽樣
隨機抽取一些小團
(cluster sampling)體(如:每個班級
第五小組)
名半臉抽样
生田 「臨機抽样

ページ50:

弢生朋友使用比例汉有以婴,應使用发氏下刀微
(McNemar's Chi-square test)
關係強度之測量
兩個關係之強度測量露相對危險比(Telatve riak,
RR)=a/a+b〕/c/c+d
發生結果
未發生結果
總計
實驗組
A
B
A+B
對照組
C
D
C+D
總計
A+C
B+D
A+B+C+D
另一常用來測量二元資料關係強度之指標為勝算比
(odds ratio,OR),又稱為相對勝算(relative
odds),主要是用於病例對照研究。即a/b對c/d之比
值。
相對危險比用於前瞻性研究,是一個非常有用的觀念,
因為它提供一個暴露變項(及結果雙項關係強度的指
標。
卡方檢定的使用限制
一般採用的法則為期望次數不得小於」及20%格子之期
望次數不得小於5。假如有違反上述法則 可將一些橫列
或直欄合併來增加期望次數,或者使用費氏精確檢定
(Fisher'sexact test ),
因為卡方檢定計算容易,所以使用非常普遍。在各式的
衛生及醫學領域都可以應用。但是有時候太常使用反而
變成濫用。最常錯誤使用卡方檢定的情況就是非獨立樣
本的情況。
卡方檢定適用於類別資料。卡方檢定的目的是要比較觀
察次數與期望次數有沒有統計顯著差異。卡方值之計算
為各格子內觀察次數與期望次數之差異平方,除以期望
次數,然後作總和。計算所得卡万值可與表格卡方臨界
值比較,卡方臨界值大小與calpha自由度有關,大於臨
界值,拒絕虛無假說。

ページ51:

依據俄竿怕乘法則 刚闽立手T AXB何时弢土俄竿為
P(A 及B)=P(A)P(B)。
要檢定兩個雙項是獨立之假稅,便可應用機率相乘法
則,若虛無假設為真,我們可計算期望次數
假如虛無假說為正確。利用相同方式,便可求得所有的
期望人數。
雖然期望人數會出現非整數的情況,但一般都不會作四
捨五入成整數,因爲期望人數總和要等於觀察人數總
和。
同質性之檢定
不同特質在不同組別中分布是否相同,使用卡方檢定作
同質性檢定。
要檢定同質性,便要計算期望次數,有了期望人數後,
便可進行顯著性檢定:
兩個比例有沒有差異之顯著性檢定
另一種卡ㄈㄤ檢定之隱用是比較處置組 及對照組治療成
功比例有沒有差異,也可以想成用2×2列聯表來代替Z檢
定。
2X2 列聯表反應
處置組 對照組
計算得卡方統計量均近似卡方分佈。但自由度很小,或
自由度等於1時,近似性就不好。可利用連續校正項來修
正,在自由度一1時,常用的方法爲葉慈連續校正法
(Yates continuity
使用葉慈連續校正法得到的結果過於保守,使得虛無假
說不容易被推翻,所以很多應用統計學者不建議採用
12.8比較相關比例的麥氏檢定
卡方檢定均是針對兩獨立樣本之比例有沒有差異作檢
定。卡方檢定來比較兩配對樣本(即兩樣本非獨立)之
比例有沒有差異。這種常常出現於前後測設計,比較前
後測之改雙有沒有差
發生前後使用比例沒有改變,應使用麥氏卡方檢定
(McNemar's Chi-square test)

ページ52:

/樣本平均數之分佈
樣本平均組成的分布(distribution of sample means)
和母體分布的差異。樣本平均組成的分布是從母體抽出
相同樣本大小n所有可能的樣本,每個統計量平均數值組
成一個新母體
7.2
中央極限定理
不同的地方是母體分佈為一個平坦的曲線,樣本平均數
抽樣分佈則爲狹窄、尖頂的曲線另個值得注意的特性是
樣本平均數之抽樣分佈接近鐘形且對稱之曲線,母體卻
是一偏科分佈。這是一個數理統計的特性,稱為中央極
限定理
中央極限定理(central limit theorem) 說明隨機抽取樣
本,樣本數爲n《n必須至少25,n.愈大愈接近母體),
母體的平均數爲Mu和母體的標準差lo。
1.不論原來母體是否為常態 樣本平均數元組成。之抽樣
分佈接近常態分
2樣本平均數抽樣分佈的平均數等於母體平均數
3.樣本平均數抽樣分佈的標準差等於母體標準差除上樣
本數的平方根,
樣本平均數抽樣分佈愈趨近於常態分佈,不論原始母體
是否為常態分佈,平均數抽樣分佈的平均數等於母體的
平均數(mu);隨著樣本數增加,樣本平均數抽樣分佈
的標準差也随之變小。
7.3
平均數之標準誤
平均數之標準誤SE(x bar)
SE(x bar) 和標準差極為相似
表示樣本平均數抽樣分佈之變異情形,而
不是測量每個觀察值的變異情形。因爲它是對抽樣誤差
的測量,\
1. 樣本平均數之抽樣分佈的平均數等於母體不均數mu
2. 樣本平均數之抽樣分佈接近常態分佈。
lo幾乎很少知道的,通常是用樣本標準差s來估計,很多
時候資料都不是常態分佈,導致統計分析時會有一些困
難,但對平均數作分析時,只要樣本數足夠大(約25 或
以上)便可以假定它常態分佈。
中央極限定理說明樣本平均數接近常態分佈,便可計算
樣本平均數常態分佈曲線下的面積。先對原來資料值作z
轉換,也就是計算Z分數。