统计学概论

授課目錄

第一章品質管理概說

第二章統計學概論

第三章機率概論及機率分配

第四章統計製程管制與管制圖

第五章計量值管制圖

第六章計數值管制圖

第七章製程能力分析

第八章允收抽樣的基本方法

第九章計數值抽樣計畫

第十章計量值抽樣計畫

第十一章量具之再現度與再生度

第十二章品質管理之新七大手法

1. 導論

統計學是一探討如何搜集資料與分析資料的科學研究方法。在不確定的狀態下，藉由樣本資料所提供的訊息，經歸納分析、推論檢定、決策與預測等過程。『以事實(數字)作決策』。

2.1 認識統計

◎ 自古以來，人類從事各項研究活動均是為求真理，亦

是社會文明進步的原動力。然而通往真理的路上充滿混沌與挫折，如何釐清真相，統計學自然就成為一門極重要的科學研究工具。

◎ 統計學是由搜集資料、整理資料、分析資料及解釋意義等規則與程序所組成。

◎ 統計學研究過程：

推論= 估計 + 假設檢定

Inferential Statistics = Estimation + Testing Hypothesis

2.2 統計精神就是科學研究的精神

◎ 著名統計學家費雪(R. A. Fisher, 1890-1962)曰：統計方

法的目的是基於經驗觀察，去改進我們對系統的了解---即統計的基本精神。

◎ 架構一系列有組織有系統且可分析的研究過程，以獲

得客觀可靠的結論---即科學研究的精神。

系統理論---線性系統

“Ref: , by Peter S. Pande, Robert P. Neuman, & Roland R. Cavanagh, McGraw-Hill.”

『系統三要素---輸入、過程、輸出』

常用的幾個統計學術語

※ 母體：該次研究中所有欲探討之事務之全體對象。 ※ 參數：用來描述母體的特徵之數值，或稱母數。

※ 樣本：由母體中隨機抽取部分群體之集合。

※ 統計量：用來描述此樣本的特徵之數值。

母體(Population)、參數(Parameter)、樣本(Sample)、統計量(Statistics)

欲瞭解致遠工管系學生每週平均看書時間，經隨機抽樣30位該系學生，計算結果：

◎ 該系學生每週平均看書時間為21hrs----點估計。

◎ 該系學生每週平均看書時間為21-25 hrs----區間估

計，且有95%的信心，相信母體平均值為落於該區間內，即該系學生每週平均看書時間為21-25 hrs。

--------此稱之為點估計與區間估計-------

倘該系系學會宣稱，『本系學生每週平均看書時間為23 hrs』，懷疑者進行隨機抽樣，欲以實際的資料驗證與駁斥此宣稱，然資料顯示懷疑者是不能駁斥此宣稱，因為，

◎ 該系學生每週平均看書時間為23 hrs的確在95%信賴

區間21-25 hrs之內。

倘該系系學會宣稱，『本系學生每週平均看書時間為30 hrs』，懷疑者進行隨機抽樣，欲以實際的資料驗證與駁斥此宣稱，然資料顯示懷疑者能駁斥此宣稱，因為，

◎ 該系學生每週平均看書時間為30 hrs不在95%信賴區

間21-25 hrs之內。

---------此過程稱之為假設檢定----------

2.3 統計在現代社會所扮演的角色

『以事實(數字)作決策』

◎ 政治經濟---民調、得票率預測、失業率預測、各項經

濟指標

◎ 商業方面---市場佔有率、利率、匯率

◎ 企管方面---物管、人管、財管、品管

◎ 工程方面---品質、可靠度、交通流量

◎ 農業方面---品種改良、生產量、成功率與存活率 ◎ 醫藥方面---流行病的感染模式、成功率與存活率 ◎ 教育方面---教學評鑑、犯罪率

◎ 觀光方面---旅遊景點的受歡迎程度、週休二的影響

2.4 統計學的發展

◎ 源於1世紀，領導者或君主為瞭解國家(State)的人口、

經濟、生產、稅賦、天文與氣候等。

◎ 直到18世紀左右，主要偏向資料與圖形顯示的範圍，

即所謂敘述統計學(Descriptive Statistics)---將資料予以分析後，用數據、模式或圖表陳示出來。

◎ 19世紀末和20世紀初，演變包括資料的解釋、資料分

析歸納、更精確的估計與檢定結果、與模式建構等，即所謂推論統計學(Inferential Statistics)或分析統計學(Analytic Statistics)---由隨機描樣，經樣本統計量去推論母體參數，或檢定母體參數。對動態資料則有趨勢分析、建構模式與預測的功能。

現代統計學大師

1、 Karl Pearson, (1875-1936)---介紹簡單的統計量，如眾數、標準差及相關係數，尤其迴歸分析觀念和卡方檢定都為其貢獻。

2、 R. A. Fisher, (1890-1962)---提出小樣本統計方法，並3、

4、

數學、社會科學與統計學之關係

建立一致性、有效性、充分性、最大概似法等，提出實驗設計，另其對常態分配和t分配的理論與應用都有極大貢獻。 J. Neyman, (1894-1981) and Egon Pearson, (1895-)---在估計與檢定方面提供理論基礎，如提出型I、型II誤差及檢定力、信賴區間等觀念。 A. Wald, (1902-1950)---統計決策理論之始祖。

做統計工作時，須注此意數學與統計不同之處

1、『100/300 = 1/3』，數學式100/300 = 1/3是恆等式，但

在統計卻有不同的意義。如於一母體中抽3人，其中有1人是男生，則男生所佔樣本的比例是1/3，如此可能無證據說明此母體中的男女生比例不是各佔一半；但倘於此母體中抽300人，其中有100人是男生，則男生所佔的樣本比例為1/3，如此已有證據說明此母體內男女生比例不是各佔一半。

2、『49/100 ≠ 1/2』，在數學上此式是對的，但在統計檢

定時，倘於此母體中抽100人，其中有49人是男生，則男生所佔的樣本比例為49/100，雖然49/100 ≠ 1/2，但可能無足夠證據說明此母體內男生比例不是1/2的結論。

統計計算常用軟體

『Excel、Minitab、Matlab』、SAS、SPSS、Statistica

2.5 統計資料的整理與描述

研究自然或社會現象，首先要搜集相關的統計資料。接著對所搜集的資料進行處理描述，並製作統計圖表，以簡潔、有系統的方式，陳示說明資料的主要內容與特性，使之一目了然。

藉由統計資料去了解母體的特性(參數)，常用代表集中趨勢的統計量，如樣本的平均值；與代表離散的統計量，如樣本的變異數或標準差。此即敘述統計量。

(Measures of Central Tendency---Location)

(Measures of Dispersion---Scale)

2.5.1 統計資料的搜集

一般資料依性質可分為：連續型資料與離散型資料 1. 連續型資料(Continuous Data)：如量測身高、體重、容量、重量、長度等資料，它是一種計量尺度(Metric Sacle)，而且理論上可以量到小數點以下幾位的數據。 2. 離散型資料(Discrete Data)：它是一種計數尺度，又細分三型---類別尺度、順序尺度、比率尺度。

(1) 類別尺度(Nominal Scale)---依資料性質分類並給予

特別數值或代號。如女性= 0、男性= 1；合格= ○、不合格=

×；紅色= 1、黃色= 2、藍色= 3。此類別表

示之數值或記號只區分類別，沒有大小、順序或比率關係。其僅能計算某類別代號出現的次數或頻率，其計算平均數則無意義。

(2) 順序尺度(Ordinal Scale)--- 依資料的重要性、強弱、

好壞程度區分，給予大小不等的數值。如小學= 1、中學= 2、大學= 3、研究所= 4；很便宜= 1、便宜= 2、一般= 3、貴= 4、很貴= 5。此類別雖在等第上有好壞、高低之分別，但無從比較差距。

(3) 比率尺度(Ratio Scale)---以某一特定對象為基準，其

他現象相對於此一標準的比值。例如，經濟成長率、人口成長率。

2.5.2 資料處理與展示---統計圖表

人類辨識影像圖形的能力，一般優於辨識數字與文字。千言萬言的說明敘述，有時反不及圖表的效果。『字不如表，表不如圖』。製作統計圖表，即以簡潔、有系統的方式，陳示說明資料的主要內容與特性，使之一目了然。

常用統計圖表

(a) 次數分配或頻率表---直方圖

(1) 確定所須組數。

(2)計算全部數據的全距(Range)。R = max-min。並求出組距C = 全距/組數 (3) 求出各組的組距與組界

(4) 確定各組的頻數 (5) 作直方圖

例題：某技術員用車床車制螺絲，要求其直徑為10mm。為

了了解該技術員的加工品質，抽查其加工的100個螺絲，分別測得其直徑數據100個。

Max. = 10.60； Min. = 9.22； Range = 1.38； k = 7 (n =100)；

組距 = 1.38/7 = 0.192 ~ 0.2

為使得所有數據不會落在組界上，並保證最小值9.22落在第一組內，故取第一組的組下限等於最小值減去最小量測單位的一半(即0.01/2 = 0.005)。則

第一組的組下限 = 9.22 – 0.005 = 9.125 第一組的組上限 = 第一組的組下限+組距

= 9.215 + 0.2 = 9.415

接著，確定各組的頻數

最後作直方圖

◎ 直方圖可以種方式表示：

(1) Frequency (3) Percent

→ (2) Cumulative Frequency → (4) Cumulative Percent

[(3-1) Relative Fequency → (3-2) Cumulative Relative

Frequency]

(5) Density

(6) Cumulative Density

◎ 螺絲直徑落在直方圖的可能性大小是以其高度表示，另由數學應用方便的角度觀之，各直方的面積表示可能大小，由於各組的組距，即直方的寬度是相等的，因此用直方面積表示與用直方的高度表示是相同的。 (b) 散佈圖

係對兩組變數之間關係感興趣，組成這兩組變數的對應

圖，又稱XY散佈圖。範例：

盒圖中有極小值、極大值、Q1 ,Q2 ,Q3。

(d) 柏拉圖法(Pareto’s Diagram)

80/20法則：80%的問題是來自20%的源頭。問題區分少數重要項目(Vital Few)、多數輕微項目(Trivial Many)的分法稱之為柏拉圖原則---『重點的掌握』。

Example of Pareto Analysis

The data in Table 1 has been recorded for peach arriving

at Super Market during August.

Table 1 Raw data for Pareto Analysis

The Pareto table for the data in Table 1 is shown in Table 2.

2.6 樣本統計量(統計量)(Sample Statistic)

統計圖表可方便展示資料，但對於資料的深入分析，其精確度與廣度仍不足。為了研究母體的特性(參數)，仍須用一些統計量測數，藉以了解母體的特性。常用的統計量測數為代表集中趨勢統計量、代表離散統計量與形狀統計量，來表達母體的分配情形。這些樣本統計量亦稱之樣本的特徵值。

2.6.1集中趨勢統計量

集中趨勢統計量是用來衡量所有觀測值聚集的中心位置

---(算術)平均數、中位數、四分位數、眾數、截尾平均數 (a) 算術平均數(Arithmetic Mean)

在一般未分組的原始資料中，有n個觀測值，其集合為{x1, x2, …, xn |n N}，則其算術平均數

=(x1 + x2 + …+ xn)/n = (∑xi)/n

i=1

對於分組資料，假定資料共有n個觀測值分為m組，令xi為第i組觀測值之組中點，fi為該組觀測值相對應的次數，∑fi = n。則其算術平均數為

=(x1f1+x2f2+…+xmfm)/n = (∑xi fi)/n

i=1m

(b) 中位數(Median)

中位數又稱為二分位數，是一種由小至大順序數列的中心項。將某筆資料n個觀測值由小而大順序排列，則其中間位數的觀測值即為中位數。若n為奇數，則第(n+1)/2位數的觀測值為中位數。若n為偶數，中位數即為第n/2位數與第(n/2)+1位數觀測值的算術平均數。

將觀測值由小至大順序數列按位數分為四等分，Q1 , Q2 , Q3為其位數等分點之觀測值。第0個四分位(Q0)即是最小值，第1個四分位(Q1)是第25%的值，第2個四分位(Q2)是第50%的值(即中位數)，第3個四分位(Q3)是第75%的值，第4個四分位(Q4)即是最大值。

(d) 眾數(Mode)

眾數是指統計資料中出現之次數最頻繁的觀測值。

(e) 截尾平均數(Trimmed Mean)---奧運體操評分標準

係考慮算術平均數容易受兩端特別遠離中心位置觀測值的影響，有時不能確切描述觀測值集中趨勢。即截頭去尾的方法，將Q1以下與Q3之上的觀測值排除，再計算Q1與Q3之間的觀測值的算術平均數。

2.6.2離散趨勢統計量

離散趨勢統計量是用來測量所有觀測值偏離中心的程度

---全距、四分位間距、平均絕對偏差、變異數與標準差、變異係數等

(a) 全距(Range)

Range = Max. –Min.

(b) 四分位間距(IQR, Inter-Quartile Range)

四分位間距= Q3-Q1

MAD =∑| xi-|/n

i=1n

(d) 變異數與標準差(Variance and Standard Deviation)

若有N個母體觀測值{x1, x2, …, xN}，且母體平均值為μ，

則母體變異數為

σ=[∑(xi-μ)]/N，

i=1

([∑(xi-μ)2]：Sum Square)

i=1

對於樣本資料{ x1, x2, …, xn}，則樣本變異數為

S=[∑(xi-)]/(n-1)， ([∑(xi-)2]：Sum Square)

i=1

樣本變異數S2使用(n-1)當分母的原因是，分子中(xi-)

的自由度(DOF, Degree of Freedom)為(n-1)的關係。即n個項目(x1-),…,(xn-)中，只要知道其中的(n-1)項，則剩下的最後一項就固定了，因為∑(xi-)= 0。

變異數是取觀測值與母體平均數差之平方和，所以變異

數的單位與原觀測值所用的單位不同。為取一致可將變異數的開平方根，則σ 稱之母體標準差，作為對應之離散量。另

樣本標準差則相對為S。

對於分組資料，假設資料分為m組共有n個觀測值，令xi為第i組觀測值之組中點，fi為該組觀測值相對應的次數， ∑fi = n。則樣本變異數為

S=[∑(xi-)2 fi]/(n-1)

i=1

(e) 變異數係數(CV, Coefficient of Variance )

CV =(標準差/平均值)

2.6.3 形狀統計量

形狀統計量係用量測一組資料對稱與否，與分佈形狀峰

度之高低---分別為偏態係數與峰態係數。 (a) 偏態係數(Skewness)

偏態係數(SK)是對資料分配偏往某一方的趨勢(Tendency)。SK的值必介於 –3與3之間。其定義：

SK = 3(-Median)/S

上圖SK > 0 (右偏或正偏)；Mean > Median >Mode

上圖SK

峰態係數(K)是對資料分配峰度(Peakedness)的程度。其定義：

K = {∑(xi

-)4/[∑(xi-)2]2}-3

平時考題

1、裝配零件之生產線，用塞規決定孔徑是否合格，為(文字/屬性/屬量)資料。 2、一群員工對生產線問題提出討論之集體思考其要因，為(文字/屬性/屬量)資料。 3、下列何者為計量值資料(1)密度(2)布匹之缺點數(3)某批產品中有2個不合格品

(4)教室內共有20個學生。 4、

間斷資料連續資料

(1)、電鍍液的鎳濃度(%) ( ) ( ) (2)、鐵線的強度 ( ) ( ) (3)、請假人數 ( ) ( ) (4)、機器故障次數 ( ) ( ) (5)、膠布的污點數 ( ) ( ) (6)、MIL–STD–105抽樣表 ( ) ( ) (7)、某工廠每期意外事件 ( ) ( )

(8)、鋼球直徑 ( ) ( ) (9)、回收率 ( ) ( )

5、致遠管理學院舉行全校統計學檢定考試，其中工管系成績的次數分配如下表，

試求該系統計學檢定考試之算術平均數。

6、某技術員用車床車制螺絲，要求其直徑為10mm。為了了解該技術員的加工

品質，抽查其加工的100個螺絲，分別測得其直徑數據100個。

試求該100個螺絲之算術平均數、中位數等、四分位數、眾數、截尾平均數、全距、四分位間距、變異數與標準差等。

7、不合格品A類10件，B類3件，C類6件，D類2件，E類4件，繪製柏拉

圖，則於柏拉圖內第三要項之累積不良比率( )。

8、不良品A類10件，B類3件，C類6件，D類2件，E類4件，B類在百分

比圖中之%為( )。

9、同上，扇形圖A類之圖心角度( )。

10、次數分配表之組中點為3.5，5.5，7.5，9.5，11.5試求組距( )。 11、直方圖向規格上下限伸展時，表示(1)變異過大(2)平均數過小(3)平均數過大

(4)變異過小(5)平均數過小，變異也變小。 12、一組數字 1，4，7，9，Y 其R值＝10求Y。 13、 23，21，22，20，X 平均值＝23求X。 14、 1，3，5，7，9 求樣本變異數及樣本標準差。

15、 1cm，3cm，5cm，7cm，9cm 求樣本變異數及樣本標準差(含單位值) 16、已知抽樣n=5

17、連續4年員工薪水年增率 7%，8%，9%，10%，四年內平均增加率。(幾

何平均)