第八章 離散程度
全距
l 最大值減最小值就是全距(range):
全距=最大值-最小值
l 數字大表母體中之數值高的很高,但低的卻很低。
未分組資料之全距
l MAX()-MIN()、LARGE()-SMALL()或下文QUARTILE()與PERCENTILE()與函數求算全距:
l 以『依性別求運動時間全距』工作表F欄之男性部份言,運算公式為:
l F4極大 =DMAX($A$1:$C$116,$C$1,F$2:F$3)
l F5極小 =DMIN($A$1:$C$116,$C$1,F$2:F$3)
l F6全拒 =F4-F5
l F7平均 =DAVERAGE($A$1:$C$116,$C$1,F$2:F$3)
l F8樣本數 =DCOUNT($A$1:$C$116,$C$1,F$2:F$3)
分組資料之全距
全距=最大組之上界 - 最小組之下界
最大組之上界 = 前一組之上界 + 組距
全距之優缺點
優點為:
l 計算方法很簡單
l 意義明顯,容易解釋
缺點為:
l 反應不夠靈敏,當極大、極小數值不變,而其它各項數值皆改變時,全距仍不能反應出變化
l 易受兩極端數值的影響
四分位差
QUARTILE(陣列,類型)
l 求一個數值陣列或儲存格範圍的第幾個四分位數:
l 陣列是要求得四分位數的數值陣列或儲存格範圍。
類型用以指出要傳回的數值:
l 0 表最小值(0%處)
l 1 表第一個四分位數(25%處),下四分位數,Q1
l 2 表第二個四分位數(50%處),即中位數,Q2
l 3 表第三個四分位數(75%處),上四分位數,Q3
l 4 表最大值(100%處)
l 最大值減最小值就是前述之全距。
即四分位差(Q. D.),為Q3與Q1間距之半,故又稱半內距。
其意義為:以母群體居中百分之五十的數值(中位數),
未分組資料之四分位數
l 於Excel可直接使用QUARTILE()函數來求算四分位數,並計算出全距與四分位差:
分組資料之四分位數
l 若原資料係分組資料,
l n為總樣本數
l LQ1為Q1組之下限
l Fi為Q1組以下的累計次數(Q1組之次數不算)
l fi為Q1組之次數,即累計百分比為25%之組別所出現的樣本數
l h為Q1組之組距
l Q3為:
l n為總樣本數
l LQ3為Q3組之下限
l Fi為Q3組以下的累計次數(Q3組之次數不算)
l fi為Q3組之次數,即累計百分比為75%之組別所出現的樣本數
l h為Q3組之組距
四分位差之優缺點
l 優點為:不受少數極端值的影響。
缺點為:
l 僅能表示一次數分配中間一半變量之分散情況;而不是全部變量之分散情況
l 計算稍嫌麻煩,尤其是分組資料。
百分位數
PERCENTILE(陣列,百分比)
l 可用來求一個數值陣列或儲存格範圍的第幾個百分位數
l 百分比是介於0~1之百分比數字
平均絕對差
l 平均絕對差(MAD,mean absolute deviation)之公式為:
即取每一觀測值與其均數間差異的絕對值之算術平均,取其絕對值就是因為無論正差或負差,取絕對值後均為正值,就不會產生正負相抵銷之情況。
AVEDEV(數值1,數值2,...)
l 是一個很理想的離散程度之衡量方法。其值越小,表離散程度越小。
l 優點是:考慮到資料群內的每一個值
l 缺點為:易受極端值之影響,且公式因得取絕對值,不適合代數處理,所以才有變異數與標準差之發明。
母體變異數
l 變異數
l 用來衡量觀測值與平均值間的離散程度
l 值越小表母體的離散程度越小,齊質性越高。
VARP(數值1,數值2,...)
VARPA(數值1,數值2,...)
l 數值1,數值2,...為要計算變異數之儲存格或範圍引數。
l VARP()係所有數值的母體變異數
l VARPA()則求所有非空白儲存格之母體變異數。如
=VARP(C2:C8)
=VARPA(C2:C8)
母體標準差
STDEVP(數值1,數值2,...)
STDEVPA(數值1,數值2,...)
l 數值1,數值2,...為要計算標準差之儲存格或範圍引數,它是對應於母群體的1到30個數字引數。
樣本變異數
VAR(數值1,數值2,...)
VARA(數值1,數值2,...)
l 數值1,數值2,...為要計算變異數之儲存格或範圍引數,它是對應於某母群體抽樣選出的1到30個數字引數樣本。
l 樣本變異數的計算公式為:
變異數與標準差之優缺點
變異數與標準差是最常被用來衡量離散程度的方法,其優點為:
l 感應靈敏
l 嚴密精確
l 適於代數處理
l 受抽樣變動之影響甚小
但其缺點為
l 不是簡明易解
l 計算困難
l 受極端值影響較大
樣本標準差
STDEV(數值1,數值2,...)
STDEVA(數值1,數值2,...)
l 這兩個函數均用來計算樣本標準差。式中,斜體字表該部份可省略。
l 數值1,數值2,...為要計算標準差之儲存格或範圍引數,最多可達30個,它是於某母群體中所抽選出的樣本。
l 樣本標準差的計算公式為:
l 母體標準差的計算公式,在後者之分母為n;而前者為n-1。
l 當樣本個數n愈大時,樣本標準差與母體標準差會愈趨近於相等。
l STDEV()為求所有數值的標準差
以交叉表求標準差
l 利用「資料(D)/樞紐分析表及圖報表(P)…」來建立交叉表。
l 以樞紐分析表計算性別交叉居住狀況,求一週飲料花費平均數、標準差及人數。交叉表之結果為:
計算變異數與標準差
l 對問卷上,採用勾填某一區間所獲得之數字。
l IF()函數,將其代入到問卷資料中,續求算其均數、變異數與標準差。
直接以次數分配表求變異數
l 將原間斷之類別變數轉為組中點之數字;而直接以次數分配表求變異數。其公式為:
l xi為第i組之組中點
l fi為第i組之次數(樣本數)
l 如『以組中點求毎月所得變異數-次數分配』工作表:
敘述統計
l 在「工具(T)/增益集(I)…」,加入『分析工具箱』。則可以「工具(T)/資料分析(D)…」,計算一組資料內之各相關統計值。
2010年5月10日 星期一
第七章 集中趨勢
第七章 集中趨勢
均數
l 均數或稱算術均數,是指將總和除以個數。
AVERAGE(數值1,數值2, ...)
AVERAGEA(數值1,數值2, ...)
l 數值1,數值2, ...為要計算平均數之儲存格或範圍引數。
l AVERAGE()係計算所有含數值資料的儲存格之均數
l AVERAGEA()則計算所有非空白的儲存格之均數。
l 但若例子改為求學生平時作業之均數,其中,第一位學號93001之學生並未繳交『作業2』,以AVERAGE()求算(詳『均數3』工作表)或AVERAGEA()函數求算:(詳『均數4』工作表)
l 所以,若您是老師,應記得於未繳作業處輸入0。以避免前面之不合理情況:
l 最方便之方式為:將所有成績選取,以「編輯(E)/取代(E)…」,一舉將全部之空白儲存格均改為0,其『尋找目標(N)』處並不必輸入任何內容:
l 按「全部取代」鈕,即可將全部之空白儲存格均改為0:
l 要不,就於未繳作業處補個“缺”字,續利用AVERAGEA()來求算平均數,也可以獲得正確值:
l 但以"缺"字來代表未交作業時,千萬別還是以AVERAGE()來求算平均數,其值還是錯誤的:
平均數之優點
l 代表性容易被接受。
l 平均數永遠存在且只有一個;不像眾數,可能會有好幾個眾數或根本沒有眾數。
l 所有數值均被使用到,對代表性均有貢獻。不像眾數或中位數,忽略兩端之數字。
l 但它的缺點就是會受兩端之極端值影響,而減弱了代表性。如:
6, 8, 10, 7, 6, 7, 5, 2000
未將最高之極端值排除,其均數為256.125,實在有點高;若將最高之極端值2000排除,其均數為7,似乎更能代表實際之情況。
馬上練習
l 依『運動時間均數』工作表內容,計算每次平均運動時間。
馬上練習
l 依『手機平均月費均數』工作表內容,計算有手機者(B欄為1者)手機平均月費之均數。
有條件的均數
l 前面『手機平均月費均數』是一種有條件的均數,於Excel中,可利用SUMIF()/COUNTIF()來求得,即
或直接使用含準則範圍之DAVERAGE()函數來計算。
依條件算加總SUMIF()
SUMIF(準則範圍,條件準則,加總範圍)
l 準則範圍是條件準則用來進行條件比較的範圍。
l 條件準則可以是數字、比較式或文字。但除非使用數值,否則應以雙引號將其包圍。如:50000、"門市"或">=800000"。
l 加總範圍則用以標出要進行加總的儲存格範圍,如果省略,則計算準則範圍中的儲存格。僅適用於準則範圍為數值時,如:=SUMIF(C2:C9,">=30000")
將加總C2:C9範圍內,大於或等於30000者。
l 如,擬於『分組加總1』工作表中,分別求各部門之業績的總和:
l 若將相關文字及條件輸入於儲存格內,則求合計之各公式可改為:(詳『分組加總2』工作表)
依條件求平均
l 事實上,Excel並無依條件求算均數之AVERAGEIF(),要依條件求算均數,可將SUMIF()除以COUNTIF()來求算。如,先以COUNTIF()求筆數:(詳『分組均數』工作表)
l 續將SUMIF()之合計除以COUNTIF()之筆數,來求算有條件之均數
l 所以,前面『手機平均月費均數』之問卷實例(詳『依條件求手機平均月費均數』工作表),則可以
=SUMIF(B2:B192,1,C2:C192)
求有手機者之月費加總,以
=COUNTIF(B2:B192,1)
求有手機者之筆數,續將兩者相除,求得均數
=G2/G3
馬上練習
l 依『不同性別之運動時間均數』工作表內容,計算男女性每次平均運動時間。
依準則求均數DAVERAGE()
DAVERAGE(資料庫表單,欄名或第幾欄,準則範圍)
l 資料庫表單 為一資料庫表單之範圍(應含欄名列),如:所輸入含欄名之問卷資料
l 欄名或第幾欄 以數值標出欲處理之欄位為資料庫表單內的第幾欄,由1起算。也可以是以雙引號包圍之欄位名稱,如:"薪資"、"運動時間"、"月費"、…。當然,也可引用已存有欄名之儲存格內容。
l 準則範圍 為一含欄名列與條件式的準則範圍(參見第四章『以進階篩選找出不合理之關聯題』處之說明)
l 以前文『馬上練習』求不同性別之運動時間均數的例子來說,我們可將其安排成:(詳『男女性運動時間均數』工作表)
l 其F3之內容:
=DAVERAGE($A$1:$C$116,$C1,F2:F3)
表示依$A$1:$C$116資料庫,以F2:F3為準則(『性別』欄為1,即男性),求$C1(每次運動時間/分)之均數。抄給G3就變成以G2:G3為準則(『性別』欄為2),將求算女性之每次運動時間均數;抄給H3就變成以H2:H3為準則(『全體』欄為空白,表無任何條件。)。事實上,$A$1:$C$116資料庫根本也沒有一個『全體』欄,但因其下H3無條件,將求算所有人之每次運動時間均數。
l F3之內容,也可以改為:
=DAVERAGE($A$1:$C$116,"每次運動時間/分",F2:F3)
=DAVERAGE($A$1:$C$116,3,F2:F3)
以字串標出欄名,或以數字標出第幾欄,其效果均同。
馬上練習
l 依『一週飲料花費』工作表內容,計算不同居住狀況之受訪者,一週飲料花費的均數。
含『且』的準則
l 前文『手機平均月費均數』之問卷實例(詳『依兩條件求手機平均月費均數』工作表),必須同時使用兩個條件。如,求男性之手機平均月費均數的條件為:『是否有手機』為1且『性別』為1。其準則範圍應為:
l 所使用之公式應為:
=DAVERAGE($A$1:$D$192,$C1,F1:G2)
l 求女性之手機平均月費均數的條件為:『是否有手機』為1且『性別』為2。其準則範圍應為:
l 所使用之公式應為:
=DAVERAGE($A$1:$D$192,$C1,I1:J2)
l 求全體之手機平均月費均數的條件為:『是否有手機』為1。其準則範圍應為:
l 所使用之公式應為:
=DAVERAGE($A$1:$D$192,$C1,L1:L2)
l 於G7:I7,以
=DCOUNT($A$1:$D$192,$C1,F1:G2)
=DCOUNT($A$1:$D$192,$C1,I1:J2)
=DCOUNT($A$1:$D$192,$C1,L1:L2)
依相同之準則分別求男/女及全體人數,可使報表資料更完備一點:
交叉表求均數
l 對於必須同時使用兩個條件求均數;且還得一併求人數之情況,最便捷之處理方式為利用「資料(D)/樞紐分析表及圖報表(P)」來建立交叉表。
l 以『性別交叉是否有手機求平均月費』工作表之資料為例,以「資料(D)/樞紐分析表及圖報表(P)…」建立交叉表之步驟為:
l 以滑鼠單按問卷資料之任一儲存格
l 執行「資料(D)/樞紐分析表及圖報表(P)…」,轉入『樞紐分析表和樞紐分析圖精靈-步驟3之1』對話方塊
l 於上半部之來源,選「Microsoft Excel清單或資料庫(M)」;於下半部之報表類型,選「樞紐分析表(T)」
l 按「下一步」鈕,轉入『樞紐分析表和樞紐分析圖精靈-步驟3之2』對話方塊
l 按「下一步」鈕,轉入『樞紐分析表和樞紐分析圖精靈-步驟3之3』對話方塊
l 按「版面配置」鈕,轉入『樞紐分析表和樞紐分析圖精靈-版面配置』對話方塊,以拖曳方式安排樞紐表內各部位內容(分兩次拖曳)
l 雙按 ,轉入『樞紐分析表欄位』對話方塊,於『摘要方式(S):』處將其改為「平均數」,以求算平均數,並將其『名稱(M)』改為「平均月費均數」
l 雙按 ,轉入『樞紐分析表欄位』對話方塊,於『摘要方式(S):』處將其改為「項目個數」,以求算資料筆數,並將其『名稱(M)』改為「人數」
l 按「確定」鈕
l 按「確定」鈕,回『樞紐分析表和樞紐分析圖精靈-步驟3之3』對話方塊,將樞紐分析表安排於目前工作表之F3處
l 完成設定後,按「確定」離開,於F3處獲致交叉分析表
l 於F5:F6及H4:I4輸入各數字所對應之文字
l 其組中點之算法為:
上題整個家庭月所得狀況的各答案,可轉為下示之組中點:
l 然後,以IF()函數:
=IF(B2=1,25000,IF(B2=2,75000,IF(B2=3,125000,IF(B2=4,175000,225000))))
將其代入到問卷資料中,續求算其平均值:(詳『以組中點求毎月所得均數-IF』工作表)
l 由於,各組之組距均為50000,故亦可將上示之IF()函數簡化成:
=25000+(B2-1)*50000
所求得之組中點及均數(87500)亦完全相同。(詳『以組中點求毎月所得均數-計算』工作表)
中位數之優點
l 不受極端值的影響
l 恆為所有資料的中間分界,它是存在且易瞭解
l 對於分配不對稱之資料,中位數比平均數更適合當集中趨勢的代表值。
中位數之缺點
l 僅注重中央之數字,忽略了兩端之所有數字
l 不靈敏,當資料發生變動,中位數並不一定會變動
l 若改為以均數來代表,將可以很容易地排出所有公司之排名:
連續資料之中位數
l 若問卷係開放題,可直接以MEDIAN()函數來求算中位數
分組資料之中位數
l n為總樣本數
l Li為中位數組之下限
l Fi為中位數組以下的累計次數(中位數組之次數不算)
l fi為中位數組之次數,即累計百分比為50%之組別所出現的樣本數
l h為組距
l 如『求分組資料之中位數』工作表之資料,其中位數近似值為:
眾數
l 眾數(Mode,以Mo表示)係指在一群體中出現次數最多的那個數值,
l MODE(數值1,數值2, ...)
l 數值1,數值2, ...為要求眾數之儲存格或範圍引數,最多可達30個。
l 眾數、中位數與平均數,均是用來衡量母體的集中趨勢。
眾數之優/缺點
優點:
l 簡單易瞭解
l 不受兩端極端值影響
缺點:
l 可能會同時有好幾個眾數的情況發生
l 也可能會沒有眾數
l 不靈敏,當資料發生變動眾數並不一定會變動
均數
l 均數或稱算術均數,是指將總和除以個數。
AVERAGE(數值1,數值2, ...)
AVERAGEA(數值1,數值2, ...)
l 數值1,數值2, ...為要計算平均數之儲存格或範圍引數。
l AVERAGE()係計算所有含數值資料的儲存格之均數
l AVERAGEA()則計算所有非空白的儲存格之均數。
l 但若例子改為求學生平時作業之均數,其中,第一位學號93001之學生並未繳交『作業2』,以AVERAGE()求算(詳『均數3』工作表)或AVERAGEA()函數求算:(詳『均數4』工作表)
l 所以,若您是老師,應記得於未繳作業處輸入0。以避免前面之不合理情況:
l 最方便之方式為:將所有成績選取,以「編輯(E)/取代(E)…」,一舉將全部之空白儲存格均改為0,其『尋找目標(N)』處並不必輸入任何內容:
l 按「全部取代」鈕,即可將全部之空白儲存格均改為0:
l 要不,就於未繳作業處補個“缺”字,續利用AVERAGEA()來求算平均數,也可以獲得正確值:
l 但以"缺"字來代表未交作業時,千萬別還是以AVERAGE()來求算平均數,其值還是錯誤的:
平均數之優點
l 代表性容易被接受。
l 平均數永遠存在且只有一個;不像眾數,可能會有好幾個眾數或根本沒有眾數。
l 所有數值均被使用到,對代表性均有貢獻。不像眾數或中位數,忽略兩端之數字。
l 但它的缺點就是會受兩端之極端值影響,而減弱了代表性。如:
6, 8, 10, 7, 6, 7, 5, 2000
未將最高之極端值排除,其均數為256.125,實在有點高;若將最高之極端值2000排除,其均數為7,似乎更能代表實際之情況。
馬上練習
l 依『運動時間均數』工作表內容,計算每次平均運動時間。
馬上練習
l 依『手機平均月費均數』工作表內容,計算有手機者(B欄為1者)手機平均月費之均數。
有條件的均數
l 前面『手機平均月費均數』是一種有條件的均數,於Excel中,可利用SUMIF()/COUNTIF()來求得,即
或直接使用含準則範圍之DAVERAGE()函數來計算。
依條件算加總SUMIF()
SUMIF(準則範圍,條件準則,加總範圍)
l 準則範圍是條件準則用來進行條件比較的範圍。
l 條件準則可以是數字、比較式或文字。但除非使用數值,否則應以雙引號將其包圍。如:50000、"門市"或">=800000"。
l 加總範圍則用以標出要進行加總的儲存格範圍,如果省略,則計算準則範圍中的儲存格。僅適用於準則範圍為數值時,如:=SUMIF(C2:C9,">=30000")
將加總C2:C9範圍內,大於或等於30000者。
l 如,擬於『分組加總1』工作表中,分別求各部門之業績的總和:
l 若將相關文字及條件輸入於儲存格內,則求合計之各公式可改為:(詳『分組加總2』工作表)
依條件求平均
l 事實上,Excel並無依條件求算均數之AVERAGEIF(),要依條件求算均數,可將SUMIF()除以COUNTIF()來求算。如,先以COUNTIF()求筆數:(詳『分組均數』工作表)
l 續將SUMIF()之合計除以COUNTIF()之筆數,來求算有條件之均數
l 所以,前面『手機平均月費均數』之問卷實例(詳『依條件求手機平均月費均數』工作表),則可以
=SUMIF(B2:B192,1,C2:C192)
求有手機者之月費加總,以
=COUNTIF(B2:B192,1)
求有手機者之筆數,續將兩者相除,求得均數
=G2/G3
馬上練習
l 依『不同性別之運動時間均數』工作表內容,計算男女性每次平均運動時間。
依準則求均數DAVERAGE()
DAVERAGE(資料庫表單,欄名或第幾欄,準則範圍)
l 資料庫表單 為一資料庫表單之範圍(應含欄名列),如:所輸入含欄名之問卷資料
l 欄名或第幾欄 以數值標出欲處理之欄位為資料庫表單內的第幾欄,由1起算。也可以是以雙引號包圍之欄位名稱,如:"薪資"、"運動時間"、"月費"、…。當然,也可引用已存有欄名之儲存格內容。
l 準則範圍 為一含欄名列與條件式的準則範圍(參見第四章『以進階篩選找出不合理之關聯題』處之說明)
l 以前文『馬上練習』求不同性別之運動時間均數的例子來說,我們可將其安排成:(詳『男女性運動時間均數』工作表)
l 其F3之內容:
=DAVERAGE($A$1:$C$116,$C1,F2:F3)
表示依$A$1:$C$116資料庫,以F2:F3為準則(『性別』欄為1,即男性),求$C1(每次運動時間/分)之均數。抄給G3就變成以G2:G3為準則(『性別』欄為2),將求算女性之每次運動時間均數;抄給H3就變成以H2:H3為準則(『全體』欄為空白,表無任何條件。)。事實上,$A$1:$C$116資料庫根本也沒有一個『全體』欄,但因其下H3無條件,將求算所有人之每次運動時間均數。
l F3之內容,也可以改為:
=DAVERAGE($A$1:$C$116,"每次運動時間/分",F2:F3)
=DAVERAGE($A$1:$C$116,3,F2:F3)
以字串標出欄名,或以數字標出第幾欄,其效果均同。
馬上練習
l 依『一週飲料花費』工作表內容,計算不同居住狀況之受訪者,一週飲料花費的均數。
含『且』的準則
l 前文『手機平均月費均數』之問卷實例(詳『依兩條件求手機平均月費均數』工作表),必須同時使用兩個條件。如,求男性之手機平均月費均數的條件為:『是否有手機』為1且『性別』為1。其準則範圍應為:
l 所使用之公式應為:
=DAVERAGE($A$1:$D$192,$C1,F1:G2)
l 求女性之手機平均月費均數的條件為:『是否有手機』為1且『性別』為2。其準則範圍應為:
l 所使用之公式應為:
=DAVERAGE($A$1:$D$192,$C1,I1:J2)
l 求全體之手機平均月費均數的條件為:『是否有手機』為1。其準則範圍應為:
l 所使用之公式應為:
=DAVERAGE($A$1:$D$192,$C1,L1:L2)
l 於G7:I7,以
=DCOUNT($A$1:$D$192,$C1,F1:G2)
=DCOUNT($A$1:$D$192,$C1,I1:J2)
=DCOUNT($A$1:$D$192,$C1,L1:L2)
依相同之準則分別求男/女及全體人數,可使報表資料更完備一點:
交叉表求均數
l 對於必須同時使用兩個條件求均數;且還得一併求人數之情況,最便捷之處理方式為利用「資料(D)/樞紐分析表及圖報表(P)」來建立交叉表。
l 以『性別交叉是否有手機求平均月費』工作表之資料為例,以「資料(D)/樞紐分析表及圖報表(P)…」建立交叉表之步驟為:
l 以滑鼠單按問卷資料之任一儲存格
l 執行「資料(D)/樞紐分析表及圖報表(P)…」,轉入『樞紐分析表和樞紐分析圖精靈-步驟3之1』對話方塊
l 於上半部之來源,選「Microsoft Excel清單或資料庫(M)」;於下半部之報表類型,選「樞紐分析表(T)」
l 按「下一步」鈕,轉入『樞紐分析表和樞紐分析圖精靈-步驟3之2』對話方塊
l 按「下一步」鈕,轉入『樞紐分析表和樞紐分析圖精靈-步驟3之3』對話方塊
l 按「版面配置」鈕,轉入『樞紐分析表和樞紐分析圖精靈-版面配置』對話方塊,以拖曳方式安排樞紐表內各部位內容(分兩次拖曳)
l 雙按 ,轉入『樞紐分析表欄位』對話方塊,於『摘要方式(S):』處將其改為「平均數」,以求算平均數,並將其『名稱(M)』改為「平均月費均數」
l 雙按 ,轉入『樞紐分析表欄位』對話方塊,於『摘要方式(S):』處將其改為「項目個數」,以求算資料筆數,並將其『名稱(M)』改為「人數」
l 按「確定」鈕
l 按「確定」鈕,回『樞紐分析表和樞紐分析圖精靈-步驟3之3』對話方塊,將樞紐分析表安排於目前工作表之F3處
l 完成設定後,按「確定」離開,於F3處獲致交叉分析表
l 於F5:F6及H4:I4輸入各數字所對應之文字
l 其組中點之算法為:
上題整個家庭月所得狀況的各答案,可轉為下示之組中點:
l 然後,以IF()函數:
=IF(B2=1,25000,IF(B2=2,75000,IF(B2=3,125000,IF(B2=4,175000,225000))))
將其代入到問卷資料中,續求算其平均值:(詳『以組中點求毎月所得均數-IF』工作表)
l 由於,各組之組距均為50000,故亦可將上示之IF()函數簡化成:
=25000+(B2-1)*50000
所求得之組中點及均數(87500)亦完全相同。(詳『以組中點求毎月所得均數-計算』工作表)
中位數之優點
l 不受極端值的影響
l 恆為所有資料的中間分界,它是存在且易瞭解
l 對於分配不對稱之資料,中位數比平均數更適合當集中趨勢的代表值。
中位數之缺點
l 僅注重中央之數字,忽略了兩端之所有數字
l 不靈敏,當資料發生變動,中位數並不一定會變動
l 若改為以均數來代表,將可以很容易地排出所有公司之排名:
連續資料之中位數
l 若問卷係開放題,可直接以MEDIAN()函數來求算中位數
分組資料之中位數
l n為總樣本數
l Li為中位數組之下限
l Fi為中位數組以下的累計次數(中位數組之次數不算)
l fi為中位數組之次數,即累計百分比為50%之組別所出現的樣本數
l h為組距
l 如『求分組資料之中位數』工作表之資料,其中位數近似值為:
眾數
l 眾數(Mode,以Mo表示)係指在一群體中出現次數最多的那個數值,
l MODE(數值1,數值2, ...)
l 數值1,數值2, ...為要求眾數之儲存格或範圍引數,最多可達30個。
l 眾數、中位數與平均數,均是用來衡量母體的集中趨勢。
眾數之優/缺點
優點:
l 簡單易瞭解
l 不受兩端極端值影響
缺點:
l 可能會同時有好幾個眾數的情況發生
l 也可能會沒有眾數
l 不靈敏,當資料發生變動眾數並不一定會變動
2010年5月9日 星期日
第六章 交叉分析表
第六章 交叉分析表
建立樞紐分析表
l 以『政黨傾向與地區別』工作表為例,進行說明建立交叉分析表之過程
l 滑鼠單按問卷資料之任一儲存格
l 執行「資料(D)/樞紐分析表及圖報表(P)」,轉入『樞紐分析表和樞紐分析圖精靈-步驟3之1』對話方塊
l 選「Microsoft Excel清單或資料庫(M)」;於下半部之報表類型,選「樞紐分析表(T)」
l 按「下一步」鈕入『樞紐分析表和樞紐分析圖精靈-步驟3之2』對話方塊,以標定建表範圍
l 按「下一步」鈕入『樞紐分析表和樞紐分析圖精靈-步驟3之3』對話方塊
l 按「版面配置」鈕,入『樞紐分析表和樞紐分析圖精靈-版面配置』對話方塊,以安排樞紐分析表之列、欄與資料內容
l 假定,欲建立受訪者『居住地區』與『政黨傾向』的交叉表。
l 將『居住地區』拖曳到『欄(C)』處,
l 『政黨傾向』拖曳到『列(R)』處,
l 『性別』拖曳到『資料(D)』處,
l 如下示結果:
l 於其上雙按滑鼠,轉入『樞紐分析表欄位』對話方塊,
l 於『摘要方式(S):』處將其改為「項目個數」,以求算出現次數,將其『名稱(M)』改為「人數」。
l 按「確定」鈕,『資料(D)』處所求算之統計量已改為人數( )
l 按鈕回『樞紐分析表和樞紐分析圖精靈-步驟3之3』對話方塊,
l 選「已經存在的工作表(E)」項,選按L3儲存格:
l 完成設定後,按「完成」離開
l M4:P4輸入各數字所對應居住地區
l 於L5:L10輸入各數字所對應之政黨名稱
加入百分比
l 表中可加入三種百分比:
l 總百分比
l 欄百分比
l 列百分比
l 以滑鼠單按樞紐分析表內任一儲存格
l 執行「資料(D)/樞紐分析表及圖報表(P)…」
l 進入『樞紐分析表和樞紐分析圖精靈-步驟3之3』對話方塊
l 按「版面配置」鈕進『樞紐分析表和樞紐分析圖精靈-版面配置』對話方塊
l 將「性別」拖曳到『資料(D)』處,使『資料(D)』處擁有兩個內容
l 於 上雙按,將『摘要方式(S):』改為「項目個數」並將『名稱(M)』改為「%」
l 按「選項」鈕,轉入
l 選取使用「總欄數的百分比」
l 按兩次「確定」回『樞紐分析表和樞紐分析圖精靈-步驟3之3』對話方塊
l 按「完成」離開,百分比之交叉分析表
加入分頁依據
l 於前文之樞紐分析表內再加入『性別』作為分頁依據。其處理步驟為:以滑鼠單按樞紐分析表內任一儲存格
執行「資料(D)/樞紐分析表及圖報表(P)…」,轉入『樞紐分析表和樞紐分析圖精靈-步驟3之3』對話方塊
l 按「版面配置」鈕,轉入『樞紐分析表和樞紐分析圖精靈-版面配置』對話方塊
l 將「性別」拖曳到「分頁(P)」處,
l 按「確定」及「完成」鈕離開,完成入分頁設定
建表的新方式
l 以滑鼠單按要求得樞紐分析表之資料清單的任一儲存格
l 轉入『樞紐分析表和樞紐分析圖精靈-步驟3之3』對話方塊
l 按「確定」鈕,顯示一空白的樞紐分析表、『樞紐分析表欄位清單』及『樞紐分析表』工作列
l 在『樞紐分析表欄位清單』上,將要作為樞紐分析表欄內容之欄名按鈕將要作為樞紐分析表列內容之欄名按鈕拖曳到『將列欄位拖曳到這裏』
l 將要作為樞紐分析表資料內容之欄名按鈕(本例使用「居住地區」),拖曳到『將資料欄位拖曳到這裏』,即可獲致一樞紐分析表
l 選取表中資料內容的任一儲存格
l 按 『欄位設定』鈕入『樞紐分析表欄位』
l 將「加總」改為「項目個數」,並將『名稱(M)』改為「人數」
l 按「確定」鈕離開,獲致新的樞紐分析表
變更樞紐分析表的版面配置
l 於樞紐分析表或『樞紐分析表』工具列上,直接拖放欄位
l 到『樞紐分析表和樞紐分析圖精靈』對話方塊,再以拖曳方式,重新安排欄列內容
欄列位置互換
l 欲將樞紐分析表進行轉軸(移轉欄列方向),其處理步驟為:(詳『欄列位置互換』工作表)
l 以滑鼠單按樞紐分析表內任一儲存格
l 執行「資料(D)/樞紐分析表及圖報表(P)…」,轉入『樞紐分析表和樞紐分析圖精靈-步驟3之3』對話方塊
l 按「版面配置」鈕,轉入『樞紐分析表和樞紐分析圖精靈-版面配置』對話方塊
l 以拖曳方式,將欄(C)/列(R)上之欄位互換位置
l 按「確定」及「完成」鈕獲新樞紐分析表
建立樞紐分析表
l 以『政黨傾向與地區別』工作表為例,進行說明建立交叉分析表之過程
l 滑鼠單按問卷資料之任一儲存格
l 執行「資料(D)/樞紐分析表及圖報表(P)」,轉入『樞紐分析表和樞紐分析圖精靈-步驟3之1』對話方塊
l 選「Microsoft Excel清單或資料庫(M)」;於下半部之報表類型,選「樞紐分析表(T)」
l 按「下一步」鈕入『樞紐分析表和樞紐分析圖精靈-步驟3之2』對話方塊,以標定建表範圍
l 按「下一步」鈕入『樞紐分析表和樞紐分析圖精靈-步驟3之3』對話方塊
l 按「版面配置」鈕,入『樞紐分析表和樞紐分析圖精靈-版面配置』對話方塊,以安排樞紐分析表之列、欄與資料內容
l 假定,欲建立受訪者『居住地區』與『政黨傾向』的交叉表。
l 將『居住地區』拖曳到『欄(C)』處,
l 『政黨傾向』拖曳到『列(R)』處,
l 『性別』拖曳到『資料(D)』處,
l 如下示結果:
l 於其上雙按滑鼠,轉入『樞紐分析表欄位』對話方塊,
l 於『摘要方式(S):』處將其改為「項目個數」,以求算出現次數,將其『名稱(M)』改為「人數」。
l 按「確定」鈕,『資料(D)』處所求算之統計量已改為人數( )
l 按鈕回『樞紐分析表和樞紐分析圖精靈-步驟3之3』對話方塊,
l 選「已經存在的工作表(E)」項,選按L3儲存格:
l 完成設定後,按「完成」離開
l M4:P4輸入各數字所對應居住地區
l 於L5:L10輸入各數字所對應之政黨名稱
加入百分比
l 表中可加入三種百分比:
l 總百分比
l 欄百分比
l 列百分比
l 以滑鼠單按樞紐分析表內任一儲存格
l 執行「資料(D)/樞紐分析表及圖報表(P)…」
l 進入『樞紐分析表和樞紐分析圖精靈-步驟3之3』對話方塊
l 按「版面配置」鈕進『樞紐分析表和樞紐分析圖精靈-版面配置』對話方塊
l 將「性別」拖曳到『資料(D)』處,使『資料(D)』處擁有兩個內容
l 於 上雙按,將『摘要方式(S):』改為「項目個數」並將『名稱(M)』改為「%」
l 按「選項」鈕,轉入
l 選取使用「總欄數的百分比」
l 按兩次「確定」回『樞紐分析表和樞紐分析圖精靈-步驟3之3』對話方塊
l 按「完成」離開,百分比之交叉分析表
加入分頁依據
l 於前文之樞紐分析表內再加入『性別』作為分頁依據。其處理步驟為:以滑鼠單按樞紐分析表內任一儲存格
執行「資料(D)/樞紐分析表及圖報表(P)…」,轉入『樞紐分析表和樞紐分析圖精靈-步驟3之3』對話方塊
l 按「版面配置」鈕,轉入『樞紐分析表和樞紐分析圖精靈-版面配置』對話方塊
l 將「性別」拖曳到「分頁(P)」處,
l 按「確定」及「完成」鈕離開,完成入分頁設定
建表的新方式
l 以滑鼠單按要求得樞紐分析表之資料清單的任一儲存格
l 轉入『樞紐分析表和樞紐分析圖精靈-步驟3之3』對話方塊
l 按「確定」鈕,顯示一空白的樞紐分析表、『樞紐分析表欄位清單』及『樞紐分析表』工作列
l 在『樞紐分析表欄位清單』上,將要作為樞紐分析表欄內容之欄名按鈕將要作為樞紐分析表列內容之欄名按鈕拖曳到『將列欄位拖曳到這裏』
l 將要作為樞紐分析表資料內容之欄名按鈕(本例使用「居住地區」),拖曳到『將資料欄位拖曳到這裏』,即可獲致一樞紐分析表
l 選取表中資料內容的任一儲存格
l 按 『欄位設定』鈕入『樞紐分析表欄位』
l 將「加總」改為「項目個數」,並將『名稱(M)』改為「人數」
l 按「確定」鈕離開,獲致新的樞紐分析表
變更樞紐分析表的版面配置
l 於樞紐分析表或『樞紐分析表』工具列上,直接拖放欄位
l 到『樞紐分析表和樞紐分析圖精靈』對話方塊,再以拖曳方式,重新安排欄列內容
欄列位置互換
l 欲將樞紐分析表進行轉軸(移轉欄列方向),其處理步驟為:(詳『欄列位置互換』工作表)
l 以滑鼠單按樞紐分析表內任一儲存格
l 執行「資料(D)/樞紐分析表及圖報表(P)…」,轉入『樞紐分析表和樞紐分析圖精靈-步驟3之3』對話方塊
l 按「版面配置」鈕,轉入『樞紐分析表和樞紐分析圖精靈-版面配置』對話方塊
l 以拖曳方式,將欄(C)/列(R)上之欄位互換位置
l 按「確定」及「完成」鈕獲新樞紐分析表
2010年4月25日 星期日
第五章 次數分配
第五章 次數分配
傳統的建表方式
l 建立次數分配表是以人工進行,先將各選項排好,然後就像投票所開票一樣,取得一份問卷,看其答案編號為幾?即於該答案項下,劃一記號(-);再有另一答案出現時,再劃一記號(T)、…,等慢慢組成一個『正』字後,則再換另一新字重新劃記號、…。如:
l 由於,每個『正』字,剛好5劃,很方便就可統計出最後結果。如,上圖之資料:有手機者有42人;無手機者有15人。
l 然後計算出各組所佔之比例:
COUNTIF()函數
COUNTIF(range,criteria)
l 可於指定之範圍內,依條件準則進行求算符合條件之筆數。
l 條件準則可以是數字、比較式或文字。但除非恰好找等於某數值,可省略等號
l 於『COUNTIF函數』工作表中,分別求男女人數:
以COUNTIF()求次數分配表
l 『政黨支持率-原始資料1』工作表,為於受訪之1,000人中,訪問取得其居住地區與政黨傾向
l 輸妥E欄之政黨名稱、F欄之政黨代碼,以及第1列之標題字
l 停於G2,輸入
=COUNTIF($B$2:$B$1001,F1)
l 按 鈕結束函數,將求得支持民進黨之樣本數
l 拖曳G2右下角之複製控點拖曳到G7位置求得支持各政黨之樣本數
l 於G8,按 『自動加總』鈕,將自動取得=SUM(G2:G7)之公式
l 按Enter鈕,完成加總
l 於H2輸入=G2/$G$8之公式,分母將永遠固定為G8(可先輸入=G2/G8,按F4『絕對』鍵,將分母轉為絕對)
l 按『百分比樣式』鈕格式設定為百分比樣式
l 按『增加小數位數』鈕,增加1位小數
l 拖曳H2右下角之複製控點,將其複製到填滿H2:H8,即為所求
受訪者中,以無政黨傾向者居最(28.1%)。有明顯政黨傾向之受訪者中,以民進黨的支持率最高(22.8%),其次依序為國民黨(20.4%)、親民黨(19.6%)、台聯(5.5%)、新黨(3.6%)。
FREQUENCY()函數
FREQUENCY(資料陣列,組界範圍陣列)
l 可用來計算某一個範圍內,各不同值出現的次數,,輸妥公式後,以Ctrl+Shift+Enter完成輸入。
l 資料陣列是一個要計算次數分配的數值陣列或數值參照位址。
l 組界範圍陣列是一個陣列或儲存格範圍參照位址,用來安排各答案之分組結果。
l =FREQUENCY(B2:B1001,F2:F7)
l 按Ctrl+Shift+Enter完成輸入,即可
l 完成G8之加總及H欄之比例
l 將指標移往表格之上,其左上角將出現一個 四向箭頭,點按該處,可選取整個表格
l 按『置中』鈕,可將表格安排成置中格式
直方圖
l 取得次數分配表後,於分析上,為方便解釋,經常將其繪製成直方圖或圓餅圖。
l 步驟為:
l 於『政黨支持率-直方圖』工作表選取E2:E7,續按住Ctrl鈕,再取H2:H7。
l 按 『圖表精靈』鈕啟動『圖表精靈』,轉入『圖表精靈』建立圖表步驟4之1,選取圖表類型。
l 按「下一步」鈕,轉入『圖表精靈步驟4之2』
l 按「下一步」鈕,轉入『圖表精靈步驟4之3』。於『標題』標籤,輸入標題。
l 轉入『圖例』標籤,取消「顯示圖例(S)」
加入各黨黨旗
l 將其資料數列之圖點改為各黨黨旗:
l 單按滑鼠右鍵,續選「複製(C)」記下其內容
l 選取欲變更圖樣之資料數列的圖點,
l 再按一次,才只選取欲變更圖樣之資料數列圖點
l 按『貼上』鈕,即可將所記下之圖案
l 將所有資料數列的圖點,均改為黨旗圖案,即為所求
堆疊圖案
l 將資料數列轉為使用某一圖案後,Excel是預設使用伸展格式之圖案。
l 此時,可以下列步驟,將前面之黨旗改為堆疊圖案)
l 執行「格式(O)/選定資料點(E)…」
l 按右下角之「填滿效果」 鈕
l 於左下角之『格式』方塊內,選「堆疊(A)」(或「堆疊且縮放(C)」至某一單位)
l 本例最後選「堆疊(A)」
l 續按兩次「確定」鈕,完成設定
l 將所有已改為黨旗顯示之資料數列,均進行相同之設定
圓餅圖、資料標籤
l 單選題之次數分配,各答案之百分比累計後恰為100%。
l 假定,要續將前文所繪製含黨旗圖案之直方圖改為立體圓餅圖、加上資料標籤並使某一圖塊脫離圓心:
l 其處理步驟為:
選取已經將圖塊轉為黨旗之直方圖圖案
執行「圖表(C)/圖表類型(T)…」,將其類型改為立體圓形圖
l 其處理步驟為:
選取已經將圖塊轉為黨旗之圖案
l 執行「圖表(C)/圖表類型(T)…」,將其類型改為立體圓形圖
l 按「確定」鈕改為立體圓形圖
l 執行「圖表(C)/圖表選項(I)…」,轉入『資料標籤』設定其標籤為包含「類別名稱(G)」與「百分比(P)」
l 按「確定」鈕,取得含資料標籤之立體圓形圖
l 按圓形圖外圍矩形任一塊灰色區塊,調整立體圓形圖之大小。
傳統的建表方式
l 建立次數分配表是以人工進行,先將各選項排好,然後就像投票所開票一樣,取得一份問卷,看其答案編號為幾?即於該答案項下,劃一記號(-);再有另一答案出現時,再劃一記號(T)、…,等慢慢組成一個『正』字後,則再換另一新字重新劃記號、…。如:
l 由於,每個『正』字,剛好5劃,很方便就可統計出最後結果。如,上圖之資料:有手機者有42人;無手機者有15人。
l 然後計算出各組所佔之比例:
COUNTIF()函數
COUNTIF(range,criteria)
l 可於指定之範圍內,依條件準則進行求算符合條件之筆數。
l 條件準則可以是數字、比較式或文字。但除非恰好找等於某數值,可省略等號
l 於『COUNTIF函數』工作表中,分別求男女人數:
以COUNTIF()求次數分配表
l 『政黨支持率-原始資料1』工作表,為於受訪之1,000人中,訪問取得其居住地區與政黨傾向
l 輸妥E欄之政黨名稱、F欄之政黨代碼,以及第1列之標題字
l 停於G2,輸入
=COUNTIF($B$2:$B$1001,F1)
l 按 鈕結束函數,將求得支持民進黨之樣本數
l 拖曳G2右下角之複製控點拖曳到G7位置求得支持各政黨之樣本數
l 於G8,按 『自動加總』鈕,將自動取得=SUM(G2:G7)之公式
l 按Enter鈕,完成加總
l 於H2輸入=G2/$G$8之公式,分母將永遠固定為G8(可先輸入=G2/G8,按F4『絕對』鍵,將分母轉為絕對)
l 按『百分比樣式』鈕格式設定為百分比樣式
l 按『增加小數位數』鈕,增加1位小數
l 拖曳H2右下角之複製控點,將其複製到填滿H2:H8,即為所求
受訪者中,以無政黨傾向者居最(28.1%)。有明顯政黨傾向之受訪者中,以民進黨的支持率最高(22.8%),其次依序為國民黨(20.4%)、親民黨(19.6%)、台聯(5.5%)、新黨(3.6%)。
FREQUENCY()函數
FREQUENCY(資料陣列,組界範圍陣列)
l 可用來計算某一個範圍內,各不同值出現的次數,,輸妥公式後,以Ctrl+Shift+Enter完成輸入。
l 資料陣列是一個要計算次數分配的數值陣列或數值參照位址。
l 組界範圍陣列是一個陣列或儲存格範圍參照位址,用來安排各答案之分組結果。
l =FREQUENCY(B2:B1001,F2:F7)
l 按Ctrl+Shift+Enter完成輸入,即可
l 完成G8之加總及H欄之比例
l 將指標移往表格之上,其左上角將出現一個 四向箭頭,點按該處,可選取整個表格
l 按『置中』鈕,可將表格安排成置中格式
直方圖
l 取得次數分配表後,於分析上,為方便解釋,經常將其繪製成直方圖或圓餅圖。
l 步驟為:
l 於『政黨支持率-直方圖』工作表選取E2:E7,續按住Ctrl鈕,再取H2:H7。
l 按 『圖表精靈』鈕啟動『圖表精靈』,轉入『圖表精靈』建立圖表步驟4之1,選取圖表類型。
l 按「下一步」鈕,轉入『圖表精靈步驟4之2』
l 按「下一步」鈕,轉入『圖表精靈步驟4之3』。於『標題』標籤,輸入標題。
l 轉入『圖例』標籤,取消「顯示圖例(S)」
加入各黨黨旗
l 將其資料數列之圖點改為各黨黨旗:
l 單按滑鼠右鍵,續選「複製(C)」記下其內容
l 選取欲變更圖樣之資料數列的圖點,
l 再按一次,才只選取欲變更圖樣之資料數列圖點
l 按『貼上』鈕,即可將所記下之圖案
l 將所有資料數列的圖點,均改為黨旗圖案,即為所求
堆疊圖案
l 將資料數列轉為使用某一圖案後,Excel是預設使用伸展格式之圖案。
l 此時,可以下列步驟,將前面之黨旗改為堆疊圖案)
l 執行「格式(O)/選定資料點(E)…」
l 按右下角之「填滿效果」 鈕
l 於左下角之『格式』方塊內,選「堆疊(A)」(或「堆疊且縮放(C)」至某一單位)
l 本例最後選「堆疊(A)」
l 續按兩次「確定」鈕,完成設定
l 將所有已改為黨旗顯示之資料數列,均進行相同之設定
圓餅圖、資料標籤
l 單選題之次數分配,各答案之百分比累計後恰為100%。
l 假定,要續將前文所繪製含黨旗圖案之直方圖改為立體圓餅圖、加上資料標籤並使某一圖塊脫離圓心:
l 其處理步驟為:
選取已經將圖塊轉為黨旗之直方圖圖案
執行「圖表(C)/圖表類型(T)…」,將其類型改為立體圓形圖
l 其處理步驟為:
選取已經將圖塊轉為黨旗之圖案
l 執行「圖表(C)/圖表類型(T)…」,將其類型改為立體圓形圖
l 按「確定」鈕改為立體圓形圖
l 執行「圖表(C)/圖表選項(I)…」,轉入『資料標籤』設定其標籤為包含「類別名稱(G)」與「百分比(P)」
l 按「確定」鈕,取得含資料標籤之立體圓形圖
l 按圓形圖外圍矩形任一塊灰色區塊,調整立體圓形圖之大小。
2010年4月15日 星期四
第四章 設計問卷
第四章 設計問卷
設計問卷步驟
l 列舉收集之資訊
l 決定:
l 訪問之型態
方式
問題之內容
訪問之型式
訪問之用語
問題之順序
問卷之外觀
l 試訪及修訂
幾種典型的問卷題目
l 單選:答案只有一個之題目
l 複選:有多個答案之題目
l 填充/開放:受訪者自行填答之開放題
l 量表:衡量態度的尺度量表
l 權數:衡量態度之量表的重要程度
l 等級/順序:以偏好程度、品質或服務水準排列其等級或名次
l 子題:附屬於某一題目之下,必須答了某一特定答案後,才可以問的問題
單選題
l 這是最常見的問卷題目類型,使用選擇題,且其答案只有一個。如:
l Q1. 請問您現在是否擁有手機?
□1.有 □2.沒有(跳答Q12題)
l Q2. 請問您的手機是那一家電信公司?
□1.中華電信 □2.遠傳 □3.台灣大哥大
□4.和信□5.泛亞 □6.東榮 □7.其他
l 先選取所有答案項
l 確定水平尺規左側顯示 『靠左定位點』;否則,點按幾次將其切換出來
l 將滑鼠指標移往水平尺規之數字部份,於12、18、25與30位置,分別點按一下,將出現幾個L符號,那就是定位點要對齊的位置,又稱為定位停駐點
如何編碼/鍵入單選題
l 將問卷回答結果,轉為適當之數字就是編碼。
l 將數字,輸入到電腦中,以利進行後續之統計分析。
l 將編碼填入於問卷之題目前,然後才開始輸入。
l 對於單選題,只需將答案編號,直接鍵入於同一列之對應欄位內即可:
複選題如何編碼/鍵入
l 對於複選題,由於其答案為多個,編碼/鍵入時,須依該題限制之答案數上限,保留欄數。如:最多三項,應保留三欄。
l 若只答一個,僅需輸入於第一欄,其餘兩欄則輸入0(如編號304之記錄);
l 若只答兩個,僅需輸入於第一、二欄,而將第三欄輸入成0(如編號307之記錄)。
l 有的受訪者因答題流程之關係,該題免答,故一個答案也不用填,則於三欄均輸入0(如編號229、230之記錄):
凍結窗格
l 第1列之標題將被捲出螢幕畫面,將因看不到標題而造成輸入上的不便:
l 經固定之標題內容永遠保留於畫面上。
l 當指標移往其下之畫面時,可看到這些標題便於輸入/查閱及編修資料:
填充/開放題
l 填充題就是開放題,不提示任何答案,要求使用者直接填答。
l 對數值性之資料,為了取得其真正之數字(650);而非僅取得間斷之區間(600~800)。會採用填充題之方式取得資料:
l 若是像問答題之開放題:
請問您政府應該如何做,才可提高就業率? _______________________________
l 其答案常常是五花八門,得先將答案一一詳列,等所有問卷均回收後,再將這些答案以人工歸類成少數的幾類,並賦予數字編號。再回到原問卷上,寫上受訪者所答之答案的代碼。然後,才可開始輸入。
l 此時,它的輸入方式就變成是單選或複選題了。若每人均只發表一個解決方案時,那就是單選題。反之,如果有人發表數個解決方案時,那就是複選題。
量表
l 問卷上出現衡量態度的量表,或稱評價尺度(rating scale)。
l 量表是一種順序尺度,只有大小先後之關係;但無倍數之關係。
l 研究上,經常將其視為連續之數值資料,而直接求其均數、標準差、…等統計量。
量表如何編碼/鍵入
l 量表之數值可安排成兩種方式:
l 直接將數字輸入於欄位內即可,對未填答者則將其安排為0。
l 將來平均數較高者,就代表該項目之重要性較高。
權數
權數如何編碼/鍵入
l 權數也是一種數值,其輸入方式同於填充/開放題。
等級/順序
l 排等級(ranking)是一種衡量的方式。如,將幾個品牌、廠牌、商店或屬性,依其品質、服務水準、偏好程度、…排等級
事後-資料驗證及圈選錯誤資料
l 若來不及做事前的資料驗證,也可以於完成資料輸入後依照前述步驟去設定驗證規則來找出錯誤資料。
馬上練習
l 於『事後驗證』工作表內,找出C、D、E三欄中,購買原因複選題內之錯誤資料。(其範圍應介於0~10)
馬上練習
l 『事後驗證-篩選』工作表內,H欄『重量輕巧』處也有錯誤資料。如,H15之-4與H19之8(資料範圍應為0~5),請找出所有資料範圍錯誤之記錄。
找重複之記錄
l 不必建立條件範圍,以滑鼠單按問卷資料上之任一儲存格
l 執行「資料(D)/篩選(F)/進階篩選(A)…」,會先選取整個問卷資料範圍,續轉入『進階篩選』對話方塊
l 選「不選重複的記錄(R)」,表欲將重複之記錄排除
l 選「將篩選結果複製到其他地方(O)」,另停於『複製到(T):』後,點選A33儲存格,表欲將篩選結果複製到A33
l 按「確定」鈕進行篩選,若記錄存有完全相同之內容(原第2筆與第6筆編號同為230),將僅顯示其中之一筆,而將多餘之重複記錄排除,以確保記錄均為唯一
最後,將不含重複記錄之輸出結果,複製到新的工作表;或將含重複記錄之舊內容刪除,即可得到沒有重複輸入之資料內容。
設計問卷步驟
l 列舉收集之資訊
l 決定:
l 訪問之型態
方式
問題之內容
訪問之型式
訪問之用語
問題之順序
問卷之外觀
l 試訪及修訂
幾種典型的問卷題目
l 單選:答案只有一個之題目
l 複選:有多個答案之題目
l 填充/開放:受訪者自行填答之開放題
l 量表:衡量態度的尺度量表
l 權數:衡量態度之量表的重要程度
l 等級/順序:以偏好程度、品質或服務水準排列其等級或名次
l 子題:附屬於某一題目之下,必須答了某一特定答案後,才可以問的問題
單選題
l 這是最常見的問卷題目類型,使用選擇題,且其答案只有一個。如:
l Q1. 請問您現在是否擁有手機?
□1.有 □2.沒有(跳答Q12題)
l Q2. 請問您的手機是那一家電信公司?
□1.中華電信 □2.遠傳 □3.台灣大哥大
□4.和信□5.泛亞 □6.東榮 □7.其他
l 先選取所有答案項
l 確定水平尺規左側顯示 『靠左定位點』;否則,點按幾次將其切換出來
l 將滑鼠指標移往水平尺規之數字部份,於12、18、25與30位置,分別點按一下,將出現幾個L符號,那就是定位點要對齊的位置,又稱為定位停駐點
如何編碼/鍵入單選題
l 將問卷回答結果,轉為適當之數字就是編碼。
l 將數字,輸入到電腦中,以利進行後續之統計分析。
l 將編碼填入於問卷之題目前,然後才開始輸入。
l 對於單選題,只需將答案編號,直接鍵入於同一列之對應欄位內即可:
複選題如何編碼/鍵入
l 對於複選題,由於其答案為多個,編碼/鍵入時,須依該題限制之答案數上限,保留欄數。如:最多三項,應保留三欄。
l 若只答一個,僅需輸入於第一欄,其餘兩欄則輸入0(如編號304之記錄);
l 若只答兩個,僅需輸入於第一、二欄,而將第三欄輸入成0(如編號307之記錄)。
l 有的受訪者因答題流程之關係,該題免答,故一個答案也不用填,則於三欄均輸入0(如編號229、230之記錄):
凍結窗格
l 第1列之標題將被捲出螢幕畫面,將因看不到標題而造成輸入上的不便:
l 經固定之標題內容永遠保留於畫面上。
l 當指標移往其下之畫面時,可看到這些標題便於輸入/查閱及編修資料:
填充/開放題
l 填充題就是開放題,不提示任何答案,要求使用者直接填答。
l 對數值性之資料,為了取得其真正之數字(650);而非僅取得間斷之區間(600~800)。會採用填充題之方式取得資料:
l 若是像問答題之開放題:
請問您政府應該如何做,才可提高就業率? _______________________________
l 其答案常常是五花八門,得先將答案一一詳列,等所有問卷均回收後,再將這些答案以人工歸類成少數的幾類,並賦予數字編號。再回到原問卷上,寫上受訪者所答之答案的代碼。然後,才可開始輸入。
l 此時,它的輸入方式就變成是單選或複選題了。若每人均只發表一個解決方案時,那就是單選題。反之,如果有人發表數個解決方案時,那就是複選題。
量表
l 問卷上出現衡量態度的量表,或稱評價尺度(rating scale)。
l 量表是一種順序尺度,只有大小先後之關係;但無倍數之關係。
l 研究上,經常將其視為連續之數值資料,而直接求其均數、標準差、…等統計量。
量表如何編碼/鍵入
l 量表之數值可安排成兩種方式:
l 直接將數字輸入於欄位內即可,對未填答者則將其安排為0。
l 將來平均數較高者,就代表該項目之重要性較高。
權數
權數如何編碼/鍵入
l 權數也是一種數值,其輸入方式同於填充/開放題。
等級/順序
l 排等級(ranking)是一種衡量的方式。如,將幾個品牌、廠牌、商店或屬性,依其品質、服務水準、偏好程度、…排等級
事後-資料驗證及圈選錯誤資料
l 若來不及做事前的資料驗證,也可以於完成資料輸入後依照前述步驟去設定驗證規則來找出錯誤資料。
馬上練習
l 於『事後驗證』工作表內,找出C、D、E三欄中,購買原因複選題內之錯誤資料。(其範圍應介於0~10)
馬上練習
l 『事後驗證-篩選』工作表內,H欄『重量輕巧』處也有錯誤資料。如,H15之-4與H19之8(資料範圍應為0~5),請找出所有資料範圍錯誤之記錄。
找重複之記錄
l 不必建立條件範圍,以滑鼠單按問卷資料上之任一儲存格
l 執行「資料(D)/篩選(F)/進階篩選(A)…」,會先選取整個問卷資料範圍,續轉入『進階篩選』對話方塊
l 選「不選重複的記錄(R)」,表欲將重複之記錄排除
l 選「將篩選結果複製到其他地方(O)」,另停於『複製到(T):』後,點選A33儲存格,表欲將篩選結果複製到A33
l 按「確定」鈕進行篩選,若記錄存有完全相同之內容(原第2筆與第6筆編號同為230),將僅顯示其中之一筆,而將多餘之重複記錄排除,以確保記錄均為唯一
最後,將不含重複記錄之輸出結果,複製到新的工作表;或將含重複記錄之舊內容刪除,即可得到沒有重複輸入之資料內容。
2010年4月13日 星期二
機率與統計 平時考(一)參考解答
北台灣科學技術學院 資訊傳播系
機率與統計 平時考(一)參考解答 學號: 姓名:
一、解釋名詞:
母體(Population)我們想要研究調查之所有對象。通常以大寫N表示
基本單位:母體中的個別份子。
抽查(sampling survey):僅在母體中,抽出一小部分個體進行調查研究。
樣本:母體的 一個部分。通常以小寫n表示。
二、影響樣本數大小的因素
母體大小 可用資源 可容忍之誤差 誤差的代價 母體變異量
三、簡述抽樣程序?
界定母體 確定抽樣架構 選出樣本單位 選擇抽樣方法 決定樣本大小 收集樣本資料 評估抽樣結果
四、若要在excel上製造亂數,應該使用哪一個函數?
RAND
五、可於儲存格上按滑鼠右鍵,選按儲存格格式,選類別中的自訂後再輸入類型
六、=1+RAND()*79
七、主管部份的抽取公式可為:=1+RAND()*(100-1)
員工部份之抽取公式為:= 101+RAND()*(1000-101)
八、ROUND()
九、
十、
機率與統計 平時考(一)參考解答 學號: 姓名:
一、解釋名詞:
母體(Population)我們想要研究調查之所有對象。通常以大寫N表示
基本單位:母體中的個別份子。
抽查(sampling survey):僅在母體中,抽出一小部分個體進行調查研究。
樣本:母體的 一個部分。通常以小寫n表示。
二、影響樣本數大小的因素
母體大小 可用資源 可容忍之誤差 誤差的代價 母體變異量
三、簡述抽樣程序?
界定母體 確定抽樣架構 選出樣本單位 選擇抽樣方法 決定樣本大小 收集樣本資料 評估抽樣結果
四、若要在excel上製造亂數,應該使用哪一個函數?
RAND
五、可於儲存格上按滑鼠右鍵,選按儲存格格式,選類別中的自訂後再輸入類型
六、=1+RAND()*79
七、主管部份的抽取公式可為:=1+RAND()*(100-1)
員工部份之抽取公式為:= 101+RAND()*(1000-101)
八、ROUND()
九、
十、
機率與統計 平時考(一)
北台灣科學技術學院 資訊傳播系
機率與統計 平時考(一) 學號: 姓名:
一、解釋名詞:
1. 母體 2. 絕對參照3. 樣本 4.抽查 5.
二、說明影響樣本數大小的因素
三、簡述抽樣程序?
四、若要在EXCEL上製造亂數,應該使用哪一個函數?
五、如果要讓資料顯示3位整數,應該如何在EXCEL上操作?(請以EXCEL 2003版說明之)
六、如果使用簡單隨機抽樣,擬於80位同學中, 以隨機方式抽出25位接受問卷調查。可於儲存格上輸入的公式為何?
七、假定, 全公司有1000人, 1~100號為主管, 101~1000為普通員工。擬隨機抽出10位主管及50位員工, 接受問卷調查。
(1)主管部份的抽取公式可為?(2)員工部份的抽取公式可為?
八、在EXCEL上四捨五入應該使用哪一個函數?
九、母體變異數的計算公式為?
十、母體變異數已知時,樣本數之計算公式為?
機率與統計 平時考(一) 學號: 姓名:
一、解釋名詞:
1. 母體 2. 絕對參照3. 樣本 4.抽查 5.
二、說明影響樣本數大小的因素
三、簡述抽樣程序?
四、若要在EXCEL上製造亂數,應該使用哪一個函數?
五、如果要讓資料顯示3位整數,應該如何在EXCEL上操作?(請以EXCEL 2003版說明之)
六、如果使用簡單隨機抽樣,擬於80位同學中, 以隨機方式抽出25位接受問卷調查。可於儲存格上輸入的公式為何?
七、假定, 全公司有1000人, 1~100號為主管, 101~1000為普通員工。擬隨機抽出10位主管及50位員工, 接受問卷調查。
(1)主管部份的抽取公式可為?(2)員工部份的抽取公式可為?
八、在EXCEL上四捨五入應該使用哪一個函數?
九、母體變異數的計算公式為?
十、母體變異數已知時,樣本數之計算公式為?
機率與統計 平時考(三)參考答案
北台灣科學技術學院 資訊傳播系
機率與統計 平時考(三) 學號: 姓名:
1. 【答】
因此總抽樣個數至少需139,即需再抽樣
139-50=89 個。
2. 【答】
即需調查1068位市民。
3. 【答】
(1). 列舉所要收集之資訊 (2). 決定訪問之型態 (3). 決定訪問之方式
(4). 決定問題之內容 (5). 決定訪問之型式 (6). 決定訪問之用語
(7). 決定問題之順序 (8). 試訪及修訂 (9). 決定問卷之外觀
4. 【答】 單選 複選 填充/開放 量表 權數 等級/順序 子題
5【答】將其由區間轉為組中點。如:將201~400轉為300、將401~600轉為500、……, 才可進行計算均數、標準差、變異數、極大、極小、……等。
6. 【答】輸入0
7. 【答】
8. 【答】
9. 【答】
(1)受訪者往往不是將所有衡量變項均加以考慮後, 才去填答權數;而是由上而下逐一填入數字, 等填到底下才發現總計可能會超過100%
(2)為了調整權數, 以免總計超過100%。會使得排在前面之幾個變項的權數, 普遍高於排在後面之幾個變項。
10【答】未填之兩項均填為4
機率與統計 平時考(三) 學號: 姓名:
1. 【答】
因此總抽樣個數至少需139,即需再抽樣
139-50=89 個。
2. 【答】
即需調查1068位市民。
3. 【答】
(1). 列舉所要收集之資訊 (2). 決定訪問之型態 (3). 決定訪問之方式
(4). 決定問題之內容 (5). 決定訪問之型式 (6). 決定訪問之用語
(7). 決定問題之順序 (8). 試訪及修訂 (9). 決定問卷之外觀
4. 【答】 單選 複選 填充/開放 量表 權數 等級/順序 子題
5【答】將其由區間轉為組中點。如:將201~400轉為300、將401~600轉為500、……, 才可進行計算均數、標準差、變異數、極大、極小、……等。
6. 【答】輸入0
7. 【答】
8. 【答】
9. 【答】
(1)受訪者往往不是將所有衡量變項均加以考慮後, 才去填答權數;而是由上而下逐一填入數字, 等填到底下才發現總計可能會超過100%
(2)為了調整權數, 以免總計超過100%。會使得排在前面之幾個變項的權數, 普遍高於排在後面之幾個變項。
10【答】未填之兩項均填為4
機率與統計 平時考(三)
北台灣科學技術學院 資訊傳播系
機率與統計 平時考(三) 學號: 姓名:
1. 假定, 上個月蔬菜之銷售比率為10%(p)。這個月, 於95%的信賴水準下(α=0.05), 希望調查結果之支持率的允許誤差(e)為5%, 應取樣多少?
2. 『以保守估計求樣本數』工作表進行計算, 保守估計執政黨的支持度為50%。要以90%之信賴水準(風險顯著水準α=0.1), 希望調查結果之支持率的誤差為±3%, 應取樣多少?
3. 簡述設計問卷的步驟
4. 問卷題目的種類有哪些?
5. 將取得非連續之區間代碼,若要求算各種統計量:均數、標準差、變異數、極大、極小、……等應如何處理?
6. 填充/開放題中,若受訪者未填任何數字, 則應如何處理?
7. 量表之數值可安排成哪兩種方式?
8. 如, 某份問卷之填答結果如下所示,其合計超過100%應如何調整?
9. 使用權數時應注意哪些事項?
10. 問卷結果如下所示,其中有兩項未填,應如何處理?
機率與統計 平時考(三) 學號: 姓名:
1. 假定, 上個月蔬菜之銷售比率為10%(p)。這個月, 於95%的信賴水準下(α=0.05), 希望調查結果之支持率的允許誤差(e)為5%, 應取樣多少?
2. 『以保守估計求樣本數』工作表進行計算, 保守估計執政黨的支持度為50%。要以90%之信賴水準(風險顯著水準α=0.1), 希望調查結果之支持率的誤差為±3%, 應取樣多少?
3. 簡述設計問卷的步驟
4. 問卷題目的種類有哪些?
5. 將取得非連續之區間代碼,若要求算各種統計量:均數、標準差、變異數、極大、極小、……等應如何處理?
6. 填充/開放題中,若受訪者未填任何數字, 則應如何處理?
7. 量表之數值可安排成哪兩種方式?
8. 如, 某份問卷之填答結果如下所示,其合計超過100%應如何調整?
9. 使用權數時應注意哪些事項?
10. 問卷結果如下所示,其中有兩項未填,應如何處理?
機率與統計 平時考(二)參考答案
北台灣科學技術學院 資訊傳播系
機率與統計 平時考(二)參考答案 學號: 姓名:
1.變異數是用來衡量觀測值與平均值間的離散程度,其值越小表母體的離散程度越小,齊質性越高
2. 如圖若要計算由Z值為-1.96開始累計到右尾的機率, 則將查得之值(0.475)加上0.5, 即0.975。
3 Z值-1.96, 查得1.96之值之0.475, 以0.5-0.475=0.025即為所求
4
至少應取得523個樣本, 才能有95%的保證其誤差不超過0.3。
5.
至少應取得54個樣本, 才能有95%的保證其誤差不超過100
6.
(1)=SQRT(12.25)
(2)=(12.25)^1/2
7.
8. 母體內某一類元素的總數除以母體的元素個數。
9.
(1) 列舉所要收集之資訊
(2) 決定訪問之型態
(3) 決定訪問之方式
(4) 決定問題之內容
(5) 決定訪問之型式
(6) 決定訪問之用語
(7) 決定問題之順序
(8) 試訪及修訂
(9) 決定問卷之外觀
10
(1) 結構-直接訪問
(2) 非結構-直接訪問
機率與統計 平時考(二)參考答案 學號: 姓名:
1.變異數是用來衡量觀測值與平均值間的離散程度,其值越小表母體的離散程度越小,齊質性越高
2. 如圖若要計算由Z值為-1.96開始累計到右尾的機率, 則將查得之值(0.475)加上0.5, 即0.975。
3 Z值-1.96, 查得1.96之值之0.475, 以0.5-0.475=0.025即為所求
4
至少應取得523個樣本, 才能有95%的保證其誤差不超過0.3。
5.
至少應取得54個樣本, 才能有95%的保證其誤差不超過100
6.
(1)=SQRT(12.25)
(2)=(12.25)^1/2
7.
8. 母體內某一類元素的總數除以母體的元素個數。
9.
(1) 列舉所要收集之資訊
(2) 決定訪問之型態
(3) 決定訪問之方式
(4) 決定問題之內容
(5) 決定訪問之型式
(6) 決定訪問之用語
(7) 決定問題之順序
(8) 試訪及修訂
(9) 決定問卷之外觀
10
(1) 結構-直接訪問
(2) 非結構-直接訪問
機率與統計 平時考(二)
北台灣科學技術學院 資訊傳播系
機率與統計 平時考(二) 學號: 姓名:
1說明變異數的用途
2計算由Z值為-1.96開始累計到常態分配曲線右尾的機率(已知Z值1.96
的機率為0.475)
3. 計算由Z值自左尾開始累計到Z值為-1.96的機率。
4. 假定, 母體變異數σ2=12.25, 於風險顯著水準α=0.05(Zα/2=1.96)的情況下, 希望對母體均數μ的估計誤差e不超過0.3, 其樣本數應為多大?
5. 大學生之平均每月零用錢為1500元, 其變異數為90000。至少應取得多少樣本?才能有95%的信賴水準, 保證其估計誤差不超過100元。
6.將12.25求其平方根,在EXCEL中的操作有那兩種作法?
7. 取得120位大學生之手機平均月費。計算出其樣本變異數(S2)為109,593、於顯著水準α=0.05(Zα/2=1.96)的情況下, 希望對母體手機平均月費μ的估計誤差不超過30元, 其樣本數應為多大?
8.何謂母體比例?
9. 說明設計問卷的步驟有那些?
10 說明訪問之型態有有那些?
機率與統計 平時考(二) 學號: 姓名:
1說明變異數的用途
2計算由Z值為-1.96開始累計到常態分配曲線右尾的機率(已知Z值1.96
的機率為0.475)
3. 計算由Z值自左尾開始累計到Z值為-1.96的機率。
4. 假定, 母體變異數σ2=12.25, 於風險顯著水準α=0.05(Zα/2=1.96)的情況下, 希望對母體均數μ的估計誤差e不超過0.3, 其樣本數應為多大?
5. 大學生之平均每月零用錢為1500元, 其變異數為90000。至少應取得多少樣本?才能有95%的信賴水準, 保證其估計誤差不超過100元。
6.將12.25求其平方根,在EXCEL中的操作有那兩種作法?
7. 取得120位大學生之手機平均月費。計算出其樣本變異數(S2)為109,593、於顯著水準α=0.05(Zα/2=1.96)的情況下, 希望對母體手機平均月費μ的估計誤差不超過30元, 其樣本數應為多大?
8.何謂母體比例?
9. 說明設計問卷的步驟有那些?
10 說明訪問之型態有有那些?
2010年4月2日 星期五
第三章 樣本大小
第三章 樣本大小
樣本大小之選擇
l 樣本過大浪費成本
l 過小會有大的抽樣誤差。
樣本大小母體變異數已知
l 於母體變異數(σ2)已知之情況下,樣本數(n)為:
l α為顯著水準或風險水準,(1-α)即信賴係數或信賴水準
l e為可容忍誤差
l σ為母體標準差
常態分配之z值
l 一般統計學之常態數值(Z),可利用NORMSINV()標準常態分配反函數來查得;
l 若知道Z值可以NORMSDIST()函數來求得其機率。
常態分配(normal distribution)
常態分配(normal distribution)是次數分配呈中間集中,而逐漸向左右兩端勻稱分散的鐘形曲線分佈。根據中央極限定理,不論原母體的分配為何?只要樣本數夠大(n>=30),樣本平均數的分配,會趨近於常態分配。
標準常態分配NORMSDIST()
NORMSDIST(z)
l 求自標準常態分配曲線左端累加到z值處的總面積(機率)。即,下圖之陰影部份:
l 有了此函數,即可省去查常態分配表某z值之機率的麻煩。
=NORMSDIST(-1.96) 為0.025
=NORMSDIST(-1.645) 為0.05
=NORMSDIST(0) 為0.5
=NORMSDIST(1.96) 為0.975
標準常態分配反函數NORMSINV()
NORMSINV(probability)
l =NORMSINV(0.025) 為-1.96
l =NORMSINV(0.5) 為0
l =NORMSINV(0.95) 為1.645
l =NORMSINV(0.975) 為1.96
樣本大小 母體變異數已知
l 若母體變異數σ2=6.25風險顯著水準α=0.05(Zα/2=1.96),母體均數μ的估計誤差e不超過0.3,其樣本數為?
平方根SQRT()函數
SQRT(number)
l 本函數是用來求某數值的平方根,
l 也可利用 ^ 運算符號也可達成開方之動作
l 如:=64^(1/2)之結果即=SQRT(64)
樣本大小 母體變異數未知
l 母體變異數未知,可利用過去調查之樣本變異數(S2)來計算。
l 樣本數:
樣本大小 估計比率
l 樣本數(n)為:
l p為母體的真正比率
l α為風險顯著水準,(1-α)即信賴係數
l e為可容忍誤差
l σp為母體標準差:
l 樣本數(n):
l 假定上個月支持執政黨之比率為38%(p)。這個月,於95%的信賴水準下(α=0.05),調查結果之支持率的允許誤差(e)為3%,應取樣多少?
l 至少應取得1006個樣本,才有95%的信心
保守估計母體比率
l 於將前面之抽樣中,若將不同之p值分別代入,其樣本數勢必不同
l 可發現,其樣本數的極大值1067係發生於母體比率為0.5時
l 採取最保守的估計,將母體比率設定為0.5。
樣本大小之選擇
l 樣本過大浪費成本
l 過小會有大的抽樣誤差。
樣本大小母體變異數已知
l 於母體變異數(σ2)已知之情況下,樣本數(n)為:
l α為顯著水準或風險水準,(1-α)即信賴係數或信賴水準
l e為可容忍誤差
l σ為母體標準差
常態分配之z值
l 一般統計學之常態數值(Z),可利用NORMSINV()標準常態分配反函數來查得;
l 若知道Z值可以NORMSDIST()函數來求得其機率。
常態分配(normal distribution)
常態分配(normal distribution)是次數分配呈中間集中,而逐漸向左右兩端勻稱分散的鐘形曲線分佈。根據中央極限定理,不論原母體的分配為何?只要樣本數夠大(n>=30),樣本平均數的分配,會趨近於常態分配。
標準常態分配NORMSDIST()
NORMSDIST(z)
l 求自標準常態分配曲線左端累加到z值處的總面積(機率)。即,下圖之陰影部份:
l 有了此函數,即可省去查常態分配表某z值之機率的麻煩。
=NORMSDIST(-1.96) 為0.025
=NORMSDIST(-1.645) 為0.05
=NORMSDIST(0) 為0.5
=NORMSDIST(1.96) 為0.975
標準常態分配反函數NORMSINV()
NORMSINV(probability)
l =NORMSINV(0.025) 為-1.96
l =NORMSINV(0.5) 為0
l =NORMSINV(0.95) 為1.645
l =NORMSINV(0.975) 為1.96
樣本大小 母體變異數已知
l 若母體變異數σ2=6.25風險顯著水準α=0.05(Zα/2=1.96),母體均數μ的估計誤差e不超過0.3,其樣本數為?
平方根SQRT()函數
SQRT(number)
l 本函數是用來求某數值的平方根,
l 也可利用 ^ 運算符號也可達成開方之動作
l 如:=64^(1/2)之結果即=SQRT(64)
樣本大小 母體變異數未知
l 母體變異數未知,可利用過去調查之樣本變異數(S2)來計算。
l 樣本數:
樣本大小 估計比率
l 樣本數(n)為:
l p為母體的真正比率
l α為風險顯著水準,(1-α)即信賴係數
l e為可容忍誤差
l σp為母體標準差:
l 樣本數(n):
l 假定上個月支持執政黨之比率為38%(p)。這個月,於95%的信賴水準下(α=0.05),調查結果之支持率的允許誤差(e)為3%,應取樣多少?
l 至少應取得1006個樣本,才有95%的信心
保守估計母體比率
l 於將前面之抽樣中,若將不同之p值分別代入,其樣本數勢必不同
l 可發現,其樣本數的極大值1067係發生於母體比率為0.5時
l 採取最保守的估計,將母體比率設定為0.5。
2010年3月12日 星期五
第二章 抽樣
第二章 抽樣
抽樣設計
l 根據研究目的決定母體
l 定義母體
l 列出名單
l 決定樣本數
l 決定抽樣方法
l 決定訪員數目
研究程序
l 撰寫計畫書
l 收集資料
l 分析及解釋資料
l 提出報告
l 繪製甘特圖
繪製甘特圖
l 假定開始日期、工作天數與結束日期
l C欄之天數以「格式(O)/儲存格(E)…
甘特圖處理步驟:
l 選取A2:C9為資料來源
l 按 鈕,啟動『圖表精靈』,
l 進入『圖表精靈—步驟4之1』,選繪製「立體堆疊橫條圖」
l 按「下一步」鈕,到『圖表精靈—步驟4之2』『數列』標籤
按底端『類別X軸標籤(T)』後之文字方塊,刪除原內容,續選取A2:A9之工作項目當類別X軸標籤
單按『數值(V)』後之文字方塊,全數刪除原內容,選取B2:B9之開始日期為『數列1』之新內容
l 按『數列(S)』方塊下方之鈕,加入一新數列『數列2』
l 按『數值(V)』後之文字方塊,全數刪除原內容,選取C2:C9之工作天數當『數列2』
l 按「下一步」鈕進入『圖表精靈—步驟4之3』『標題』標籤,輸入圖表標題『工作進度表』
l 進入『圖表精靈—步驟4之3』『圖例』標籤,取消「顯示圖例(S)」
l 轉入『圖表精靈—步驟4之3』『資料標籤』標籤,加選「內容(V)」當其資料標籤
l 按「下一步」轉入『圖表精靈—步驟4之4』,將圖表存成「工作表中的物件(O)」
l 按「完成」鈕
l 調整字型大小為8
l 改變『工作進度表』標題的字型、顏色及字體
l DBclick標籤之『數列1』的橫條圖之圖塊,進入『資料數列格式』設定『圖樣』為無框線且區域無填滿
l 按「確定」鈕,
l DBclick 『數列1』的標籤,進『資料標籤格式』對話方塊之『數值』標籤,將其設定為僅顯示月日資料
l 按「確定」鈕
l DBclick橫軸上之日期,入『座標軸格式』之『刻度』標籤,最小值設定為比工作進度開始日期2003/1/1
l 最大值設定為(2003/6/1)
l 主要刻度間距改為30(約當一個月)
l 按「確定」鈕
抽樣程序
l 界定母體
l 確定抽樣架構
l 選出樣本單位
l 選擇抽樣方法
l 決定樣本大小
l 收集樣本資料
l 評估抽樣結果
樣本單位
l 樣本單位是指母體中的個別份子
選擇抽樣方法
l 機率抽樣
又稱隨機抽樣(random sampling)
其機率並不一定要相同,但要能知道每一基本單位被選為樣本之機率。
l 常見之機率抽樣
簡單隨機抽樣
系統抽樣
決定樣本大小
l 樣本大小取決於:母體大小
l 可用資源
l 可容忍之誤差
l 誤差的代價
l 母體變異量
l 收集樣本資料
l 評估抽樣結果
l 評估抽樣結果
簡單隨機抽樣
l 母體中每一個單位被抽選到的機率都完全相同。
l 進行簡單隨機抽樣前,建立每一基本單位一個獨立的編號,以利抽樣
亂數RAND()
RAND()
l 會隨機產生亂數
l =RAND()
以亂數產生器產生亂數表
執行「工具(T)/資料分析(D)…」,選「亂數產生器」
l 假定,全公司有1000人,1~100號為主管,101~1000為普通員工。
l 隨機抽出10位主管
l 50位員工
l 主管部份
=$D$2+RAND()*($F$2-$D$2)
l 一般員工部份之抽取公式,則為
=$D$7+RAND()*($F$7-$D$7)
亂數RANDBETWEEN()
RANDBETWEEN(下限,上限)
l 全公司有2500人,1~100號為主管,101~2500為普通員工。
l 隨機抽出10位主管及50位員工,接受問卷調查。主管部份的抽取公式,由於C1為1,E1為100,故:
=RANDBETWEEN1100)
一般員工部份之抽取公式, =RANDBETWEEN101,2500)
相對參照、絕對參照與混合參照
l 相對參照:將其複製到其他儲存格時,將隨儲存格而改變其相對位置。
l 絕對參照:將其複製到其他儲存格時,並不隨儲存格而改變其位置。
l 混合參照:將其複製到其他儲存格時,有 $ 絕對符號之部份,將不隨儲存格而改變其位置;而無絕對符號者,則仍將隨儲存格而改變其相對位置。
系統抽樣
l 又稱『準隨機抽樣』。
l 將母體毎一單位編號。
l 以母體總數÷樣本數(N/n),計算出樣本區間。
l 隨機由1到I間,抽一個編號,作為起始編號,假定為B。
l 由起始編號B開始,毎次加上樣本區間之I值
l 假定,要於總數為1500人(編號1~1500)之母體,抽選出10人。
l 輸入開始編號(1)、結束編號(1500)及樣本數(10)
l 計算樣本間距I=150(=B2/B3)
l 隨機由1到I樣本間距間,以
=RANDBETWEEN(B1,B4)
抽一個編號,作為起始編號
l 按F2鍵與F9鍵
l 第一個樣本編號(=B5)
l 第二個樣本編號(=B7+B5)
l 選取兩個抽樣編號
l 按『複製』鈕,按『貼上』鈕右側之向下箭頭,選擇「值」,將公式轉為常數
l 拖曳其右下角之複製控點到B16,產生10個抽樣編號
四捨五入ROUND()
ROUND(number,num_digits)
l 進行四捨五入的數字或運算式。
抽樣設計
l 根據研究目的決定母體
l 定義母體
l 列出名單
l 決定樣本數
l 決定抽樣方法
l 決定訪員數目
研究程序
l 撰寫計畫書
l 收集資料
l 分析及解釋資料
l 提出報告
l 繪製甘特圖
繪製甘特圖
l 假定開始日期、工作天數與結束日期
l C欄之天數以「格式(O)/儲存格(E)…
甘特圖處理步驟:
l 選取A2:C9為資料來源
l 按 鈕,啟動『圖表精靈』,
l 進入『圖表精靈—步驟4之1』,選繪製「立體堆疊橫條圖」
l 按「下一步」鈕,到『圖表精靈—步驟4之2』『數列』標籤
按底端『類別X軸標籤(T)』後之文字方塊,刪除原內容,續選取A2:A9之工作項目當類別X軸標籤
單按『數值(V)』後之文字方塊,全數刪除原內容,選取B2:B9之開始日期為『數列1』之新內容
l 按『數列(S)』方塊下方之鈕,加入一新數列『數列2』
l 按『數值(V)』後之文字方塊,全數刪除原內容,選取C2:C9之工作天數當『數列2』
l 按「下一步」鈕進入『圖表精靈—步驟4之3』『標題』標籤,輸入圖表標題『工作進度表』
l 進入『圖表精靈—步驟4之3』『圖例』標籤,取消「顯示圖例(S)」
l 轉入『圖表精靈—步驟4之3』『資料標籤』標籤,加選「內容(V)」當其資料標籤
l 按「下一步」轉入『圖表精靈—步驟4之4』,將圖表存成「工作表中的物件(O)」
l 按「完成」鈕
l 調整字型大小為8
l 改變『工作進度表』標題的字型、顏色及字體
l DBclick標籤之『數列1』的橫條圖之圖塊,進入『資料數列格式』設定『圖樣』為無框線且區域無填滿
l 按「確定」鈕,
l DBclick 『數列1』的標籤,進『資料標籤格式』對話方塊之『數值』標籤,將其設定為僅顯示月日資料
l 按「確定」鈕
l DBclick橫軸上之日期,入『座標軸格式』之『刻度』標籤,最小值設定為比工作進度開始日期2003/1/1
l 最大值設定為(2003/6/1)
l 主要刻度間距改為30(約當一個月)
l 按「確定」鈕
抽樣程序
l 界定母體
l 確定抽樣架構
l 選出樣本單位
l 選擇抽樣方法
l 決定樣本大小
l 收集樣本資料
l 評估抽樣結果
樣本單位
l 樣本單位是指母體中的個別份子
選擇抽樣方法
l 機率抽樣
又稱隨機抽樣(random sampling)
其機率並不一定要相同,但要能知道每一基本單位被選為樣本之機率。
l 常見之機率抽樣
簡單隨機抽樣
系統抽樣
決定樣本大小
l 樣本大小取決於:母體大小
l 可用資源
l 可容忍之誤差
l 誤差的代價
l 母體變異量
l 收集樣本資料
l 評估抽樣結果
l 評估抽樣結果
簡單隨機抽樣
l 母體中每一個單位被抽選到的機率都完全相同。
l 進行簡單隨機抽樣前,建立每一基本單位一個獨立的編號,以利抽樣
亂數RAND()
RAND()
l 會隨機產生亂數
l =RAND()
以亂數產生器產生亂數表
執行「工具(T)/資料分析(D)…」,選「亂數產生器」
l 假定,全公司有1000人,1~100號為主管,101~1000為普通員工。
l 隨機抽出10位主管
l 50位員工
l 主管部份
=$D$2+RAND()*($F$2-$D$2)
l 一般員工部份之抽取公式,則為
=$D$7+RAND()*($F$7-$D$7)
亂數RANDBETWEEN()
RANDBETWEEN(下限,上限)
l 全公司有2500人,1~100號為主管,101~2500為普通員工。
l 隨機抽出10位主管及50位員工,接受問卷調查。主管部份的抽取公式,由於C1為1,E1為100,故:
=RANDBETWEEN1100)
一般員工部份之抽取公式, =RANDBETWEEN101,2500)
相對參照、絕對參照與混合參照
l 相對參照:將其複製到其他儲存格時,將隨儲存格而改變其相對位置。
l 絕對參照:將其複製到其他儲存格時,並不隨儲存格而改變其位置。
l 混合參照:將其複製到其他儲存格時,有 $ 絕對符號之部份,將不隨儲存格而改變其位置;而無絕對符號者,則仍將隨儲存格而改變其相對位置。
系統抽樣
l 又稱『準隨機抽樣』。
l 將母體毎一單位編號。
l 以母體總數÷樣本數(N/n),計算出樣本區間。
l 隨機由1到I間,抽一個編號,作為起始編號,假定為B。
l 由起始編號B開始,毎次加上樣本區間之I值
l 假定,要於總數為1500人(編號1~1500)之母體,抽選出10人。
l 輸入開始編號(1)、結束編號(1500)及樣本數(10)
l 計算樣本間距I=150(=B2/B3)
l 隨機由1到I樣本間距間,以
=RANDBETWEEN(B1,B4)
抽一個編號,作為起始編號
l 按F2鍵與F9鍵
l 第一個樣本編號(=B5)
l 第二個樣本編號(=B7+B5)
l 選取兩個抽樣編號
l 按『複製』鈕,按『貼上』鈕右側之向下箭頭,選擇「值」,將公式轉為常數
l 拖曳其右下角之複製控點到B16,產生10個抽樣編號
四捨五入ROUND()
ROUND(number,num_digits)
l 進行四捨五入的數字或運算式。
2010年3月5日 星期五
第一章 機率與統計概論
第一章 機率與統計概論
為何要使用Excel來學習統計
l Minitab、SPSS、SAS等統計分析軟體,在市面上的普及率非常之低
l 價格昂貴
l 學習困難
l 報表難懂
l 很容易會面臨到無適當軟體可用之窘境,縱有一身絕技,也難以發揮。
l 微軟的Office已相當普及,廣泛地為工商企業及個人使用,且其具有易學易懂之特性。所以,本書決定以Excel為工具,來學習統計技巧。
l 八成五的上班族對自己的薪水不滿意,同時近三成的受訪者表示有兼職工作
l 教育費用連年攀升,65年一年只要2142元就夠支付一個孩子的教育費,但到了90年台灣家長平均一年要付出4萬5千元讓孩子受教育,足足增加21倍
l 台灣地區35歲以上的中高齡失業人口數約有25萬人,其中近3成已經苦苦找了超過1年
l 三分之一的民眾認為晚上外出不安全;竊盜和搶奪是民眾最大的困擾
什麼是統計
l 統計學(Statistics)用以蒐集、整理、分析資料,進而推論分析結果之科學方法
l 探討如何由一群數字資料之全體中(母體),以某一抽取過程(抽樣),抽出部份資料(樣本),研討如何利用這一部分資料,去估計/檢定或預測資料全體的某些未知特性值。
統計學範圍
l 蒐集資料
l 整理資料
l 分析資料
l 推論資料
統計學的分類
l 應用統計學(Applied Statistics):著重於如何將統計方法,應用到各種自然或社會科學上。
l 數理統計學(Mathematical Statistics):探討統計學之數學原理
母體
l 母體(Population)研究調查之所有對象,由一群具有某種共同性的基本單位所組成母體可以是
普查
l 普查(census)對整個母體進行全面調查或研究。
抽查
l 抽查(sampling survey)在某一母體中,抽出一小部份個體進行調查而已。
l 抽查之目的,在省時、省力及省錢。
樣本
l 樣本是母體的一個部份,由數個數值所組成,以小寫n表示。
l 使用樣本主要原因為:
l 經濟 時效 難以接觸 母體過大 正確性
影響樣本數大小之因素
l 母體大小:
l 可容忍之誤差:
l 誤差的代價:
l 母體變異量:
觀察値 (observation)
l 觀測一個實驗或統計問題之結果,所記錄下來的結果
參數
l 參數(parameters),
l 母體的數值性敘述值,
l 即用來描述母體某一特性之數字
統計量
l 統計量(statistic)又稱估計值(estimate)
:樣本的數值性敘述值,也就是用來描述樣本某一特性之數字。
抽樣誤差
l 母體與樣本之間的差異
l 抽樣誤差大小決定於兩個因數:
l 樣本大小
l 變異量大小
變數 (variables)
l 描述母體中成員的某一特性。
如:性別、年齡、職業、教育程度、所得、…等人 口統計變數。
l 間斷變數 (discrete variable)或稱不連續變數、類別變數或質變數,
l 連續變數(continuous variable)或稱量變數。如:成績、年齡、所得、長度、距離、體重、身高、智力、溫度、…等,均屬連續變數。
連續變數常見的分析
l 敘述統計:
l 繪製統計圖表:
l 檢定兩組之變異數是否相同:
l 檢定男/女兩組之手機平均月費的均數:
為何要使用Excel來學習統計
l Minitab、SPSS、SAS等統計分析軟體,在市面上的普及率非常之低
l 價格昂貴
l 學習困難
l 報表難懂
l 很容易會面臨到無適當軟體可用之窘境,縱有一身絕技,也難以發揮。
l 微軟的Office已相當普及,廣泛地為工商企業及個人使用,且其具有易學易懂之特性。所以,本書決定以Excel為工具,來學習統計技巧。
l 八成五的上班族對自己的薪水不滿意,同時近三成的受訪者表示有兼職工作
l 教育費用連年攀升,65年一年只要2142元就夠支付一個孩子的教育費,但到了90年台灣家長平均一年要付出4萬5千元讓孩子受教育,足足增加21倍
l 台灣地區35歲以上的中高齡失業人口數約有25萬人,其中近3成已經苦苦找了超過1年
l 三分之一的民眾認為晚上外出不安全;竊盜和搶奪是民眾最大的困擾
什麼是統計
l 統計學(Statistics)用以蒐集、整理、分析資料,進而推論分析結果之科學方法
l 探討如何由一群數字資料之全體中(母體),以某一抽取過程(抽樣),抽出部份資料(樣本),研討如何利用這一部分資料,去估計/檢定或預測資料全體的某些未知特性值。
統計學範圍
l 蒐集資料
l 整理資料
l 分析資料
l 推論資料
統計學的分類
l 應用統計學(Applied Statistics):著重於如何將統計方法,應用到各種自然或社會科學上。
l 數理統計學(Mathematical Statistics):探討統計學之數學原理
母體
l 母體(Population)研究調查之所有對象,由一群具有某種共同性的基本單位所組成母體可以是
普查
l 普查(census)對整個母體進行全面調查或研究。
抽查
l 抽查(sampling survey)在某一母體中,抽出一小部份個體進行調查而已。
l 抽查之目的,在省時、省力及省錢。
樣本
l 樣本是母體的一個部份,由數個數值所組成,以小寫n表示。
l 使用樣本主要原因為:
l 經濟 時效 難以接觸 母體過大 正確性
影響樣本數大小之因素
l 母體大小:
l 可容忍之誤差:
l 誤差的代價:
l 母體變異量:
觀察値 (observation)
l 觀測一個實驗或統計問題之結果,所記錄下來的結果
參數
l 參數(parameters),
l 母體的數值性敘述值,
l 即用來描述母體某一特性之數字
統計量
l 統計量(statistic)又稱估計值(estimate)
:樣本的數值性敘述值,也就是用來描述樣本某一特性之數字。
抽樣誤差
l 母體與樣本之間的差異
l 抽樣誤差大小決定於兩個因數:
l 樣本大小
l 變異量大小
變數 (variables)
l 描述母體中成員的某一特性。
如:性別、年齡、職業、教育程度、所得、…等人 口統計變數。
l 間斷變數 (discrete variable)或稱不連續變數、類別變數或質變數,
l 連續變數(continuous variable)或稱量變數。如:成績、年齡、所得、長度、距離、體重、身高、智力、溫度、…等,均屬連續變數。
連續變數常見的分析
l 敘述統計:
l 繪製統計圖表:
l 檢定兩組之變異數是否相同:
l 檢定男/女兩組之手機平均月費的均數:
訂閱:
文章 (Atom)