Search Header Logo
Concept of Naive Bayes Classifier

Concept of Naive Bayes Classifier

Assessment

Presentation

Mathematics

University

Practice Problem

Medium

CCSS
HSS.CP.A.3, HSS.CP.A.4, HSS.CP.B.6

+1

Standards-aligned

Created by

Sasiprapa Hiriote

Used 3+ times

FREE Resource

29 Slides • 38 Questions

1

media

2

media

3

media

4

media

5

Multiple Choice

ข้อใดต่อไปนี้เป็นข้อความที่ถูกต้องเกี่ยวกับ Naive Bayes algorithm

1

เป็นอัลกอริทึมที่ใช้ในการจัดกลุ่มข้อมูลที่คล้ายคลึงกัน

2

เป็นอัลกอริทึมที่ใช้ในงานจำแนกประเภท (classification tasks)

3

เป็นอัลกอริทึมที่ใช้ในการวิเคราะห์การถดถอย (regression analysis)

4

เป็นอัลกอริทึมที่ใช้ในการทำ image processing เท่านั้น

6

Multiple Choice

Question image

ในตารางนี้ Naive Bayes จัดอยู่ในช่อง "Categorical Target Variable (Classification Task)" เพราะเหตุใด

1

สามารถใช้กับตัวแปรทำนายเชิงกลุ่ม (categorical predictors) เท่านั้น

2

เป็นอัลกอริทึมที่ใช้ในงานจำแนกประเภทโดยที่ตัวแปรทำนายสามารถเป็นได้ทั้งเชิงกลุ่มและเชิงปริมาณ

3

เป็นอัลกอริทึมที่มักจะใช้กับงานที่มีตัวแปรทำนายจำนวนไม่มาก

4

เป็นอัลกอริทึมที่มีการเรียนรู้แบบ lazy learning

7

Multiple Choice

ข้อตกลงเบื้องต้น (assumptions) ของ Naive Bayes algorithm เกี่ยวกับตัวแปรคุณลักษณะ (features) ตรงกับข้อใด

1

ตัวแปรคุณลักษณะ (features) มีความเป็นอิสระซึ่งกันและกันแบบมีเงื่อนไข เมื่อกำหนดป้ายกำกับคลาส (class label) แล้ว

2

ตัวแปรคุณลักษณะ (features) มีสหสัมพันธ์ซึ่งกันและกัน เมื่อกำหนดป้ายกำกับคลาส (class label) แล้ว

3

ตัวแปรคุณลักษณะ (features) มีความเป็นอิสระซึ่งกันและกัน โดยไม่ขึ้นกับป้ายกำกับคลาส (class label)

4

ตัวแปรคุณลักษณะ (features) เป็นอิสระซึ่งกันและกัน และเป็นอิสระจากป้ายกำกับคลาส (class label)

8

Multiple Choice

ถ้า P(A|B) = 0.7 ความหมายที่ถูกต้องที่สุดคืออะไร?

1

โอกาสที่เหตุการณ์ B จะเกิด คือ 70%

2

โอกาสที่เหตุการณ์ A และ B จะเกิดพร้อมกัน คือ 70%

3

ถ้าสมมติว่าเหตุการณ์ A เกิดขึ้นแล้ว โอกาสที่เหตุการณ์ B จะเกิด คือ 70%

4

ถ้าสมมติว่าเหตุการณ์ B เกิดขึ้นแล้ว โอกาสที่เหตุการณ์ A จะเกิด คือ 70%

9

Fill in the Blank

Question image

ความน่าจะเป็นที่บุคคลที่ถูกสุ่มเป็นเพศหญิง เมื่อทราบว่าเป็นผู้ที่ชื่นชอบรถยนต์ยี่ห้อ Toyota มีค่าเท่าใด (ตอบเป็นทศนิยม 3 ตำแหน่ง)

.

10

Fill in the Blank

Question image

ความน่าจะเป็นที่บุคคลที่ถูกสุ่มเลือกสามารถพูดภาษาเยอรมันได้ เมื่อทราบว่าเป็นเพศชายมีค่าเท่าใด  (ตอบเป็นทศนิยม 3 ตำแหน่ง)

.

11

Fill in the Blank

กำหนดให้ P(A) = 0.5, P(B) = 0.4 และ P(A and B) = 0.2 จงหาค่าของความน่าจะเป็นแบบมีเงื่อนไข P(A|B) (ตอบเป็นทศนิยม 1 ตำแหน่ง)

.

12

Fill in the Blank

ถ้า P(Spam) = 0.2 และ P(Free|Spam) = 0.4 ความน่าจะเป็นที่จะพบอีเมลที่เป็น Spam และมีคำว่า 'Free' คือเท่าใด?

.

13

Fill in the Blank

ในการตรวจโรคชนิดหนึ่ง ความแม่นยำในการตรวจพบโรคเมื่อเป็นโรคจริง P(ผลตรวจเป็น +|ป่วยจริง) คือ 90% และโอกาสที่คนทั่วไปจะเป็นโรคนี้ P(ป่วยจริง) คือ 1% จงหา P(ผลตรวจเป็น + และ ป่วยจริง) คือเท่าใด?

.

14

Multiple Choice

เหตุการณ์ A และ B จะเป็นอิสระต่อกัน (Independent) ก็ต่อเมื่อเงื่อนไขใดเป็นจริง?

1

P(A|B) = P(A)

2

P(A and B) = 0

3

P(A|B) = P(B)

4

P(A) + P(B) = 1

15

Multiple Choice

สูตรของทฤษฎีเบส์ (Bayes' Theorem) คือข้อใด?

1

P(A|B) = P(B|A)P(A)/P(B)

2

P(A|B) = P(A and B)/P(A)

3

P(A|B) = P(A)P(B)

4

P(A|B) = P(B|A)P(A)

16

media

17

media

18

media

19

media

20

Multiple Choice

จงเรียงลำดับขั้นตอนการทำงานของ Naive Bayes classification: A) คำนวณความน่าจะเป็นแบบ prior B) คำนวณความน่าจะเป็นแบบ posterior ของข้อมูลใหม่ C) จำแนกข้อมูลใหม่โดยใช้ความน่าจะเป็นที่คำนวณได้

1

A, B, C

2

B, A, C

3

C, A, B

4

A, C, B

21

media

22

media

23

media

24

media

25

media

26

Fill in the Blank

Question image

ความน่าจะเป็นที่รายงานทางการเงินจะถูกจัดประเภทเป็น “ทุจริต” ถ้าทราบว่าบริษัทเคยมีปัญหาทางกฎหมาย มีค่าเท่าใด (ตอบเป็นทศนิยม 3 ตำแหน่ง)

.

27

Fill in the Blank

Question image

ความน่าจะเป็นที่รายงานทางการเงินจะถูกจัดประเภทเป็น “ถูกต้องตามข้อเท็จจริง” เมื่อทราบว่าบริษัทเคยมีปัญหาทางกฎหมาย มีค่าเท่าใด (ตอบเป็นทศนิยม 3 ตำแหน่ง)

.

28

Multiple Choice

เนื่องจาก P(Fraud | Previous Legal) = 0.217 ถ้าทราบว่าบริษัทเคยมีประวัติปัญหาทางกฎหมาย เราควรจำแนกบริษัทนี้อยู่ในคลาสใด

1

Fraudulent

2

Truthful

3

ไม่สามารถจำแนกได้

4

ข้อมูลไม่เพียงพอ

29

Fill in the Blank

Question image

ความน่าจะเป็นที่รายงานทางการเงินจะถูกจัดประเภทเป็น “ทุจริต” ถ้าทราบว่าบริษัทไม่เคยมีปัญหาทางกฎหมาย มีค่าเท่าใด (ตอบเป็นทศนิยม 3 ตำแหน่ง)

.

30

Fill in the Blank

Question image

ความน่าจะเป็นที่รายงานทางการเงินจะถูกจัดประเภทเป็น “ถูกต้องตามข้อเท็จจริง” เมื่อทราบว่าบริษัทไม่เคยมีปัญหาทางกฎหมาย มีค่าเท่าใด (ตอบเป็นทศนิยม 3 ตำแหน่ง)

.

31

Multiple Choice

เนื่องจาก P(Fraud | no Previous Legal) = 0.065 ถ้าทราบว่าบริษัทไม่เคยมีประวัติปัญหาทางกฎหมาย เราควรจำแนกบริษัทนี้อยู่ในคลาสใด

1

Fraudulent

2

Truthful

3

ไม่สามารถจำแนกได้

4

ข้อมูลไม่เพียงพอ

32

media

33

media

34

Multiple Choice

Question image

โดยใช้วิธี “Assign to the Most Probable Class” ควรจัดประเภทอีเมลใหม่นี้อย่างไร

1

Important

2

Spam

3

ไม่สามารถจำแนกประเภทได้

4

ข้อมูลที่ให้มาไม่เพียงพอ

35

Multiple Choice

Question image

โดยใช้วิธี “Assign to the Most Probable Class” ควรจัดประเภทลูกค้าใหม่รายนี้อย่างไร

1

High Risk

2

Low Risk

36

media

37

Multiple Choice

จงอธิบายวัตถุประสงค์หลักของการกำหนดค่าเกณฑ์ตัดสินใจเชิงความน่าจะเป็น (decision threshold หรือ cutoff probability) ในแบบจำลอง Bayesian Classifier แบบสมบูรณ์ (Full/Exact)

1

เพื่อคำนวณการแจกแจงความน่าจะเป็นก่อน (prior distribution) ของคลาส ก่อนการพิจารณาข้อมูลที่สังเกตได้

2

เพื่อใช้เป็นเกณฑ์ในการพิจารณาว่าตัวอย่างข้อมูลควรถูกจัดให้อยู่ในคลาสบวก (positive class) ซึ่งเป็นคลาสที่สนใจหรือไม่

3

เพื่อคำนวณค่าความน่าจะเป็นรวมของเหตุการณ์ (total probability) โดยพิจารณาการรวมความน่าจะเป็นผ่านทุกคลาสที่เป็นไปได้

4

เพื่อระบุจำนวนคุณลักษณะ (features) ที่ใช้เป็นตัวแปรอธิบายในแบบจำลอง

38

Multiple Choice

Question image

โดยใช้วิธี Cutoff Probability Method ที่กำหนดค่าเกณฑ์ตัดสินใจ (cutoff) เท่ากับ 0.15 (หรือ 15%) ควรจัดประเภทผู้ป่วยรายใหม่นี้อย่างไร

1

Positive

2

Negative

3

ไม่สามารถจำแนกประเภทได้

4

ข้อมูลที่ให้มาไม่เพียงพอ

39

Multiple Choice

Question image

จากตารางเราทราบว่า P(Fraud | Previous Legal) = 0.217 หากกำหนดค่าเกณฑ์ตัดสินใจ (cutoff) เท่ากับ 0.20 สำหรับความน่าจะเป็นของการเป็นรายงานทุจริต ควรจัดประเภทบริษัทที่เคยมีปัญหาทางกฎหมาย ให้อยู่ในคลาสใด

1

Fraudulent

2

Truthful

40

Multiple Choice

Question image

ถ้าธนาคารกำหนดค่าเกณฑ์ตัดสินใจ (cutoff) เท่ากับ 0.25 สำหรับการทำนายลูกค้าความเสี่ยงสูง ควรจัดประเภทลูกค้ารายใหม่ให้อยู่ในคลาสใด

1

Low Risk

2

High Risk (flag for manual review)

41

Multiple Choice

Question image

ข้อใดคือคำอธิบายที่ดีที่สุดว่าทำไมธนาคารจึงเลือกใช้ cutoff ที่ต่ำกว่า 0.5 แทนการตัดสินใจเลือกคลาสจากที่น่าจะเป็นไปได้มากที่สุด (cutoff = 0.5) ?

1

โมเดลของธนาคารไม่ค่อยแม่นยำและจำเป็นต้องใช้เกณฑ์นี้เพื่อแก้ไขข้อผิดพลาด

2

ธนาคารต้องการอนุมัติสินเชื่อให้ได้มากที่สุดเพื่อสร้างกำไรสูงสุด

3

ต้นทุนของความผิดพลาดในการอนุมัติสินเชื่อ 'ความเสี่ยงสูง' มีมากกว่า

4

วิธีการใช้ cutoff ที่ต่ำกว่า 0.5 มีความแม่นยำสูงกว่าวิธี “Assign to the Most Probable Class” เสมอ

42

media

43

Multiple Choice

ข้อใดคืออุปสรรคเชิงปฏิบัติที่สำคัญที่สุดของการใช้ Full (Exact) Bayesian procedure โดยเฉพาะกับชุดข้อมูลในปัจจุบันที่มีขนาดใหญ่? 🤔

1

ทำงานช้าเกินไปและต้องใช้ทรัพยากรในการประมวลผลสูงมาก

2

ไม่สามารถจัดการกับตัวแปรทำนายที่เป็นหมวดหมู่ (categorical) ได้

3

การหาข้อมูลในชุดข้อมูลฝึกสอนที่ตรงกับข้อมูลใหม่ทำได้ยาก

4

มีความแม่นยำทางสถิติน้อยกว่าวิธีอื่น

44

Multiple Choice

บริษัทแห่งหนึ่งพยายามทำนายว่าลูกค้าจะซื้อสินค้าหรือไม่ โดยใช้คุณลักษณะ (feature) 50 อย่างที่แตกต่างกัน (อายุ, ที่อยู่, ประวัติการเข้าชมเว็บ, การซื้อครั้งก่อนหน้า ฯลฯ) เหตุใด Full (Exact) Bayesian procedure จึงมักจะล้มเหลวในกรณีนี้?

1

กระบวนการนี้ไม่สามารถจัดการตัวแปรทำนายได้เกิน 30 ตัว

2

โอกาสที่จะหาลูกค้าเก่าในฐานข้อมูลซึ่งมีคุณลักษณะทั้ง 50 อย่างตรงกับลูกค้าใหม่ทุกตัวแปรนั้นน้อยมากๆ

3

โมเดลนี้ใช้ได้กับข้อมูลทางการเงินเท่านั้น ไม่สามารถใช้กับพฤติกรรมลูกค้าได้

4

กระบวนการนี้ต้องการให้ผู้ใช้หาข้อมูลที่ตรงกันด้วยตนเอง

45

Multiple Choice

Naive Bayes procedure แก้ปัญหาหลักของ Exact Bayesian procedure ได้อย่างไร?

1

ใช้ทฤษฎีบทของเบส์ในเวอร์ชันที่ซับซ้อนกว่า

2

ใช้วิธีหาข้อมูลที่ใกล้เคียงกันแทนที่จะหาข้อมูลที่ตรงกันทุกประการ

3

ตั้งข้อตกลงเบื้องต้นว่าตัวแปรทำนายทั้งหมดเป็นอิสระต่อกัน ทำให้สามารถคำนวณความน่าจะเป็นได้โดยไม่จำเป็นต้องมีคุณลักษณะตรงกันทุกประการ

4

ใช้วิธีลดจำนวนตัวแปรทำนายก่อนทำการจำแนกประเภท

46

media

47

media

48

media

49

media

50

media

51

media

52

Fill in the Blank

Question image

ความน่าจะเป็นที่รายงานทางการเงินจะถูกจัดประเภทเป็น “ทุจริต” ถ้าทราบว่าบริษัทมีขนาดเล็กและไม่เคยมีประวัติปัญหาทางกฎหมาย มีค่าเท่าใด (ถ้าใช้ Exact Bayes)

.

53

Multiple Choice

เนื่องจาก P(Fraud | small and no Previous legal) = 0 ถ้าทราบว่าบริษัทเล็กและเคยมีปัญหาทางกฎหมาย เราควรจำแนกบริษัทนี้อยู่ในคลาสใด (ถ้าใช้ cut off 0.5)

1

Fraudulent

2

Truthful

3

ไม่สามารถจำแนกได้

4

ข้อมูลไม่เพียงพอ

54

Fill in the Blank

Question image

ความน่าจะเป็นที่รายงานทางการเงินจะถูกจัดประเภทเป็น “ทุจริต” ถ้าทราบว่าบริษัทมีขนาดใหญ่และเคยมีประวัติปัญหาทางกฎหมาย มีค่าเท่าใด (ถ้าใช้ Exact Bayes)

.

55

Multiple Choice

เนื่องจาก P(Fraud | large and Previous legal) = 1.0 ถ้าทราบว่าบริษัทใหญ่และเคยมีปัญหาทางกฎหมาย เราควรจำแนกบริษัทนี้อยู่ในคลาสใด (ถ้าใช้ cut off 0.5)

1

Fraudulent

2

Truthful

3

ไม่สามารถจำแนกได้

4

ข้อมูลไม่เพียงพอ

56

Multiple Choice

Question image

ถ้าทราบว่าบริษัทใหญ่แต่ไม่เคยมีปัญหาทางกฎหมาย เราควรจำแนกบริษัทนี้อยู่ในคลาสใด (ถ้าใช้ Exact Bayes ที่ cut off 0.5)

1

Fraudulent

2

Truthful

3

ไม่สามารถจำแนกได้

4

ข้อมูลไม่เพียงพอ

57

Multiple Choice

Question image

ถ้าทราบว่าบริษัทใหญ่แต่ไม่เคยมีปัญหาทางกฎหมาย เราควรจำแนกบริษัทนี้อยู่ในคลาสใด (ถ้าใช้ Exact Bayes ที่ cut off 0.2)

1

Fraudulent

2

Truthful

3

ไม่สามารถจำแนกได้

4

ข้อมูลไม่เพียงพอ

58

media

59

Fill in the Blank

Question image

ความน่าจะเป็นที่รายงานทางการเงินจะถูกจัดประเภทเป็น “ทุจริต” ถ้าทราบว่าบริษัทมีขนาดใหญ่และเคยมีประวัติปัญหาทางกฎหมาย มีค่าเท่าใด (ถ้าใช้ Naive Bayes)

.

60

Multiple Choice

ด้วยวิธี Naive Bayes เราได้ว่า P(Fraud | large and Previous legal) = 0.87 ถ้าทราบว่าบริษัทเล็กและเคยมีปัญหาทางกฎหมาย เราควรจำแนกบริษัทนี้อยู่ในคลาสใด (ถ้าใช้ cut off 0.5)

1

Fraudulent

2

Truthful

3

ไม่สามารถจำแนกได้

4

ข้อมูลไม่เพียงพอ

61

Fill in the Blank

Question image

ความน่าจะเป็นที่รายงานทางการเงินจะถูกจัดประเภทเป็น “ทุจริต” ถ้าทราบว่าบริษัทมีขนาดเล็กแต่ไม่เคยมีประวัติปัญหาทางกฎหมาย มีค่าเท่าใด (ถ้าใช้ Naive Bayes)

.

62

Multiple Choice

ด้วยวิธี Naive Bayes เราได้ว่า P(Fraud | small and no Previous legal) = 0.07 ถ้าทราบว่าบริษัทเล็กแต่ไม่เคยมีปัญหาทางกฎหมาย เราควรจำแนกบริษัทนี้อยู่ในคลาสใด (ถ้าใช้ cut off 0.5)

1

Fraudulent

2

Truthful

3

ไม่สามารถจำแนกได้

4

ข้อมูลไม่เพียงพอ

63

media

64

media

65

media

66

media

67

media
media

Show answer

Auto Play

Slide 1 / 67

SLIDE