Search Header Logo
Discriminant Analysis

Discriminant Analysis

Assessment

Presentation

Other

University

Hard

Created by

Sasiprapa Hiriote

Used 2+ times

FREE Resource

18 Slides • 6 Questions

1

​Chapter 5 Discriminant Analysis

2

ประกอบด้วยค่าสังเกตของตัวแปรเชิงปริมาณต่าง ๆ ที่รวบรวมมาจากหน่วยตัวอย่างที่สุ่มมาจากประชากรซึ่งทราบกลุ่มอย่างชัดเจนอยู่แล้ว

ลักษณะของของข้อมูลที่นำมาวิเคราะห์

  1. สร้างสมการเชิงเส้นสำหรับจำแนกกลุ่มโดยใช้ข้อมูลของตัวแปรต่าง ๆ ที่รวบรวมจากหน่วยตัวอย่างที่ทราบกลุ่มอยู่แล้ว

  2. นำสมการที่ได้มาใช้จำแนกกลุ่มให้กับหน่วยตัวอย่างใหม่ซึ่งไม่ทราบกลุ่ม

วัตถุประสงค์ของการวิเคราะห์

การวิเคราะห์จำแนกกลุ่ม (Discriminant Analysis)

3

  1. เพื่อสร้างสมการเชิงเส้นสำหรับจำแนกแบงก์สวิสฟรังก์ระหว่างแบงก์ปลอมและแบงก์จริงบนพื้นฐานของค่าวัดขนาดด้านต่าง ๆ ทั้ง 6 ด้าน

  2. เพื่อนำสมการที่ได้มาใช้ในการจำแนกแบงก์สวิสฟรังก์ที่ไม่ทราบว่าเป็นแบงก์ปลอมหรือแบงก์จริง

​​วัตถุประสงค์ของการวิเคราะห์

ข้อมูลขนาดด้านต่าง ๆ (6 ด้าน) ได้แก่

  1. ความยาวของแบงก์ (Length)

  2. ความกว้างของแบงก์ด้านซ้าย (Left width)

  3. ความกว้างของแบงก์ด้านขวา (Right width)

  4. ความกว้างของขอบด้านบน (Top margin)

  5. ความกว้างของขอบด้านบนล่าง (Bottom margin)

  6. ความยาวในแนวทแยงมุม (Diagonal)

โดยเก็บรวบรวมจากแบงก์สวิสฟรังก์ที่สุ่มมาซึ่งจะต้องทราบว่าเป็นแบงก์ปลอม (F) หรือแบงก์จริง (R)

​Example 5.1 (Swiss Bank Notes*)

ลักษณะของของข้อมูลที่นำมาวิเคราะห์

media

​* Lab 4 Inferences about two population mean vectors

4

  1. เพื่อสร้างสมการเชิงเส้นสำหรับจำแนกยุคให้กับกะโหลกศีรษะมนุษย์โบราณบนพื้นฐานของค่าวัดขนาดของกะโหลกศีรษะใน 4 มิติ

  2. เพื่อนำสมการที่ได้มาใช้ในการจำแนกกะโหลกศีรษะมนุษย์โบราณที่ไม่ทราบว่าอยู่ในยุคใด

​​วัตถุประสงค์ของการวิเคราะห์

ค่าวัดขนาดของกะโหลกศีรษะใน 4 มิติ ได้แก่

  1. ความกว้างสูงสุด MB (x1)  

  2. ความสูงของ basibregmatic BH (x2)

  3. ความยาวของ basialveolar BL (x3)

  4. ความสูงของโพรงจมูก (NH) (x4)

โดยเก็บรวบรวมจากกะโหลกศีรษะของมนุษย์อียิปต์โบราณจาก 5 ยุค ได้แก่ Early predinastic/Late predinastic/12th and 13th dynasties/ Ptolemaic/Roman โดยจะต้องทราบว่ากะโหลกศีรษะที่ขุดพบนั้นมาจากยุคใดใน 5 ยุคดังกล่าว

​Example 5.2 (Egyptian Skull Data*)

ลักษณะของของข้อมูลที่นำมาวิเคราะห์

media

​* Lab 5 MANOVA

5

  1. เพื่อสร้างสมการเชิงเส้นสำหรับจำแนกสายพันธุ์ให้กับดอกไอริส บนพื้นฐานของค่าวัดความกว้างและยาวของกลีบดอกและกลีบเลี้ยง

  2. เพื่อนำสมการที่ได้มาใช้ในการจำแนกดอกไอริสที่ไม่ทราบว่าเป็นสายพันธุ์ใด

​​วัตถุประสงค์ของการวิเคราะห์

​​ข้อมูลค่าวัดขนาด 4 มิติ ได้แก่

  1. ความยาวของกลีบเลี้ยง (Sepal.Length)

  2. ความกว้างของกลีบเลี้ยง (Sepal.Width)

  3. ความยาวของกลีบดอก (Petal.Length)

  4. ความกว้างของกลีบดอก (Petal.Width)

    โดยเก็บรวบรวมจากดอกไอริสที่สุ่มมาจาก 3 สายพันธุ์ ได้แก่ Setosa/Versicolor/Virginica

​Example 5.3 (Iris Data*)

ลักษณะของของข้อมูลที่นำมาวิเคราะห์

​* Lab 6 Principle Component Analysis (PCA)

media

6

Multiple Choice

ข้อใดถูกต้องเกี่ยวกับวัตถุประสงค์ของการวิเคราะห์จำแนกกลุ่ม

1

ใช้เพื่อสร้างสมการเชิงเส้นสำหรับพยากรณ์ค่าของตัวแปรตามที่เป็นเชิงปริมาณให้กับหน่วยสังเกตบนพื้นฐานของตัวแปรอิสระที่เป็นเชิงกลุ่ม

2

ใช้เพื่อสร้างสมการเชิงเส้นสำหรับทำนายกลุ่มให้กับหน่วยสังเกตบนพื้นฐานของตัวแปรเชิงปริมาณ

3

ใช้เพื่อสร้างสมการเชิงเส้นสำหรับพยากรณ์ค่าของตัวแปรตามที่เป็นเชิงปริมาณให้กับหน่วยสังเกตบนพื้นฐานของตัวแปรอิสระที่เป็นเชิงปริมาณ

4

ใช้เพื่อสร้างสมการเชิงเส้นสำหรับทำนายกลุ่มให้กับหน่วยสังเกตบนพื้นฐานของตัวแปรเชิงกลุ่ม

7

Multiple Select

ข้อใดเป็นข้อมูลที่สามารถใช้ในการวิเคราะห์จำแนกกลุ่ม (ตอบได้มากกว่า 1 ข้อ)

1

ข้อมูลคะแนนชุมชน 9 ด้านจาก 329 ชุมชนใน Assignment Lab 6 และใน Lab 7

2

ข้อมูลคะแนนคุณลักษณะด้านต่าง ๆ (6 ด้าน) จากการชิมตัวอย่างไวน์แดง จาก 3 ภูมิภาค ใน Assignmnet Lab 7

3

ข้อมูลเกี่ยวกับรูปร่างของนกกระจอกเพศเมียที่สุ่มมา 49 ตัว ใน Lab 1

4

ข้อมูลใน Assignment IV Inferences of two population means

8

Discriminant Analysis Procedure

9

Discriminant Functions:

​(5.1)

10

Fill in the Blank

จากตัวอย่าง 5.1 (Swiss Bank Notes) จงเขียนสมการฟังก์ชันจำแนกกลุ่มที่ดีที่สุดฟังก์ชันแรก (ใช้เครื่องหมาย _ แทน subscript เช่น d_1 แทน d1d_1  )

11

Fill in the Blank

จากตัวอย่าง 5.2 (Egyptian Skull Data) จงเขียนสมการฟังก์ชันจำแนกกลุ่มที่ดีที่สุด 2 ฟังก์ชันแรก (ใช้เครื่องหมาย _ แทน subscript เช่น d_1 แทน d1d_1  )

12

แนวคิดในการหาฟังก์ชันจำแนกกลุ่มของ Fisher

13

การหาค่าสัมประสิทธิ์

14

​​จากกราฟจะสังเกตได้ว่าข้อมูลของตัวแปร 4 ตัวสามารถใช้ในการจำแนกสายพันธุ์ของดอกไอริส (3 สายพันธุ์) ได้ในระดับหนึ่ง เนื่องจากเราสามารถเห็นความแตกต่างระหว่างกลุ่มได้อย่างชัดเจนสำหรับบางคู่ของตัวแปร จึงจะทำการวิเคราะห์จำแนกเพื่อสร้างฟังก์ชันจำแนกกลุ่มของ Fisher จำนวน s = min (4,3-1) = 2  ฟังก์ชันที่สามารถใช้จำแนกสายพันธุ์ของดอกไอริส 3 กลุ่มได้ดีที่สุด

​​Scatter plot matrix of Iris data

media

​Fig 5.1 Scatter plot matrix of Iris data

15

​​Discriminant functions for Iris data

media
media

16

​​จากกราฟฮิสโตแกรมจะเห็นว่า ฟังก์ชันแรกมีความสามารถในจำแนกกลุ่มมากกว่าฟังก์ชันที่สองอย่างเห็นได้ชัด และจาก scatter plot จะเห็นว่าทั้งสองฟังก์ชันสามารถใช้ร่วมกันในจำแนกสายพันธุ์ของดอกไอริสได้ค่อนข้างดี โดยเฉพาะสายพันธุ์ Setosa ในขณะที่สายพันธุ์ Versicolor และ Viginica ยังมีส่วนที่คาบเกี่ยวกันเล็กน้อย

​​Histograms and Scatter plot of the discriminant functions for Iris data

media
media
media

Fig 5.2 ​Histogram of the first discriminant function

Fig 5.3 Histogram of the second discriminant function

Fig 5.4 Scatter plot of the discriminant functions for Iris data

17

Using discriminant functions to classify objects

การจำแนกกลุ่มให้กับค่าสังเกตของหน่วยตัวอย่างแทนด้วยเวกเตอร์ x  โดยใช้ฟังก์ชันจำแนกกลุ่มของ Fisher มีขั้นตอนดังนี้ คือ

  1. คำนวณค่าของฟังก์ชันจำแนกกลุ่มที่จุดศูนย์กลางของกลุ่ม (Group Centroids) ทั้งหมด

  2. คำนวณระยะทางกำลังสอง (squared Mahalanobis distance) ระหว่างค่าของฟังก์ชันจำแนกกลุ่มที่จุด x และจุดศูนย์กลางของกลุ่มแต่ละกลุ่ม (จากขั้นที่ 1)

  3. จำแนกกลุ่มให้กับตัวอย่างโดยใช้เกณฑ์จำแนกกลุ่มที่มีระยะทางกำลังสองน้อยที่สุด

18

​Example: (Iris data)

Step 1คำนวณค่าของฟังก์ชันจำแนกกลุ่มที่จุดศูนย์กลางของกลุ่ม (Group Centroids)

media
media

19

media

20

​Example: (Iris data)

Step 2คำนวณระยะทางกำลังสองระหว่างค่าของฟังก์ชันจำแนกกลุ่มกับค่าของฟังก์ชันจำแนกกลุ่มที่จุดศูนย์กลางของกลุ่มต่าง ๆ สำหรับแต่ละตัวอย่างของดอกไอริส

media

21

​Example: (Iris data)

Step 3จำแนกกลุ่มให้กับตัวอย่างโดยใช้เกณฑ์จำแนกกลุ่มที่มีระยะทางกำลังสองน้อยที่สุด

สำหรับตัวอย่างที่ 1 นี้ จะเห็นได้ว่าเมื่อพิจารณาระยะห่างระหว่างค่าของฟังก์ชันกับค่าของฟังก์ชันที่จุดศูนย์กลางของกลุ่มต่าง ๆ พบว่าใกล้เคียงกับจุดศูนย์กลางของกลุ่ม 1 มากที่สุด  จึงจำแนกดอกไอริสตัวอย่างแรกนี้ให้กับกลุ่มที่ 1  คือ สายพันธุ์ Setosa

22

ตาราง 5.1 ผลการจำแนกกลุ่มของข้อมูลดอกไอริส โดยใช้ฟังก์ชันการจำแนกกลุ่มของ Fisher

media

จากตาราง 5.1 จะพบว่า มีดอกไอริสถึง 147 ดอก จากทั้งหมด 150 ดอก คิดเป็นร้อยละ 98 ที่จำแนกสายพันธุ์ได้ถูกต้อง

23

Fill in the Blank

จากตาราง 5.1 มีดอกไอริสสายพันธุ์ใดบ้างที่จำแนกผิด

24

Fill in the Blank

จากตาราง 5.1 มีดอกไอริสที่จำแนกผิดจำนวนกี่ดอก และคิดเป็นร้อยละเท่าไหร่

​Chapter 5 Discriminant Analysis

Show answer

Auto Play

Slide 1 / 24

SLIDE