第八章 離散程度
全距
l 最大值減最小值就是全距(range):
全距=最大值-最小值
l 數字大表母體中之數值高的很高,但低的卻很低。
未分組資料之全距
l MAX()-MIN()、LARGE()-SMALL()或下文QUARTILE()與PERCENTILE()與函數求算全距:
l 以『依性別求運動時間全距』工作表F欄之男性部份言,運算公式為:
l F4極大 =DMAX($A$1:$C$116,$C$1,F$2:F$3)
l F5極小 =DMIN($A$1:$C$116,$C$1,F$2:F$3)
l F6全拒 =F4-F5
l F7平均 =DAVERAGE($A$1:$C$116,$C$1,F$2:F$3)
l F8樣本數 =DCOUNT($A$1:$C$116,$C$1,F$2:F$3)
分組資料之全距
全距=最大組之上界 - 最小組之下界
最大組之上界 = 前一組之上界 + 組距
全距之優缺點
優點為:
l 計算方法很簡單
l 意義明顯,容易解釋
缺點為:
l 反應不夠靈敏,當極大、極小數值不變,而其它各項數值皆改變時,全距仍不能反應出變化
l 易受兩極端數值的影響
四分位差
QUARTILE(陣列,類型)
l 求一個數值陣列或儲存格範圍的第幾個四分位數:
l 陣列是要求得四分位數的數值陣列或儲存格範圍。
類型用以指出要傳回的數值:
l 0 表最小值(0%處)
l 1 表第一個四分位數(25%處),下四分位數,Q1
l 2 表第二個四分位數(50%處),即中位數,Q2
l 3 表第三個四分位數(75%處),上四分位數,Q3
l 4 表最大值(100%處)
l 最大值減最小值就是前述之全距。
即四分位差(Q. D.),為Q3與Q1間距之半,故又稱半內距。
其意義為:以母群體居中百分之五十的數值(中位數),
未分組資料之四分位數
l 於Excel可直接使用QUARTILE()函數來求算四分位數,並計算出全距與四分位差:
分組資料之四分位數
l 若原資料係分組資料,
l n為總樣本數
l LQ1為Q1組之下限
l Fi為Q1組以下的累計次數(Q1組之次數不算)
l fi為Q1組之次數,即累計百分比為25%之組別所出現的樣本數
l h為Q1組之組距
l Q3為:
l n為總樣本數
l LQ3為Q3組之下限
l Fi為Q3組以下的累計次數(Q3組之次數不算)
l fi為Q3組之次數,即累計百分比為75%之組別所出現的樣本數
l h為Q3組之組距
四分位差之優缺點
l 優點為:不受少數極端值的影響。
缺點為:
l 僅能表示一次數分配中間一半變量之分散情況;而不是全部變量之分散情況
l 計算稍嫌麻煩,尤其是分組資料。
百分位數
PERCENTILE(陣列,百分比)
l 可用來求一個數值陣列或儲存格範圍的第幾個百分位數
l 百分比是介於0~1之百分比數字
平均絕對差
l 平均絕對差(MAD,mean absolute deviation)之公式為:
即取每一觀測值與其均數間差異的絕對值之算術平均,取其絕對值就是因為無論正差或負差,取絕對值後均為正值,就不會產生正負相抵銷之情況。
AVEDEV(數值1,數值2,...)
l 是一個很理想的離散程度之衡量方法。其值越小,表離散程度越小。
l 優點是:考慮到資料群內的每一個值
l 缺點為:易受極端值之影響,且公式因得取絕對值,不適合代數處理,所以才有變異數與標準差之發明。
母體變異數
l 變異數
l 用來衡量觀測值與平均值間的離散程度
l 值越小表母體的離散程度越小,齊質性越高。
VARP(數值1,數值2,...)
VARPA(數值1,數值2,...)
l 數值1,數值2,...為要計算變異數之儲存格或範圍引數。
l VARP()係所有數值的母體變異數
l VARPA()則求所有非空白儲存格之母體變異數。如
=VARP(C2:C8)
=VARPA(C2:C8)
母體標準差
STDEVP(數值1,數值2,...)
STDEVPA(數值1,數值2,...)
l 數值1,數值2,...為要計算標準差之儲存格或範圍引數,它是對應於母群體的1到30個數字引數。
樣本變異數
VAR(數值1,數值2,...)
VARA(數值1,數值2,...)
l 數值1,數值2,...為要計算變異數之儲存格或範圍引數,它是對應於某母群體抽樣選出的1到30個數字引數樣本。
l 樣本變異數的計算公式為:
變異數與標準差之優缺點
變異數與標準差是最常被用來衡量離散程度的方法,其優點為:
l 感應靈敏
l 嚴密精確
l 適於代數處理
l 受抽樣變動之影響甚小
但其缺點為
l 不是簡明易解
l 計算困難
l 受極端值影響較大
樣本標準差
STDEV(數值1,數值2,...)
STDEVA(數值1,數值2,...)
l 這兩個函數均用來計算樣本標準差。式中,斜體字表該部份可省略。
l 數值1,數值2,...為要計算標準差之儲存格或範圍引數,最多可達30個,它是於某母群體中所抽選出的樣本。
l 樣本標準差的計算公式為:
l 母體標準差的計算公式,在後者之分母為n;而前者為n-1。
l 當樣本個數n愈大時,樣本標準差與母體標準差會愈趨近於相等。
l STDEV()為求所有數值的標準差
以交叉表求標準差
l 利用「資料(D)/樞紐分析表及圖報表(P)…」來建立交叉表。
l 以樞紐分析表計算性別交叉居住狀況,求一週飲料花費平均數、標準差及人數。交叉表之結果為:
計算變異數與標準差
l 對問卷上,採用勾填某一區間所獲得之數字。
l IF()函數,將其代入到問卷資料中,續求算其均數、變異數與標準差。
直接以次數分配表求變異數
l 將原間斷之類別變數轉為組中點之數字;而直接以次數分配表求變異數。其公式為:
l xi為第i組之組中點
l fi為第i組之次數(樣本數)
l 如『以組中點求毎月所得變異數-次數分配』工作表:
敘述統計
l 在「工具(T)/增益集(I)…」,加入『分析工具箱』。則可以「工具(T)/資料分析(D)…」,計算一組資料內之各相關統計值。
沒有留言:
張貼留言