Search Header Logo
12_Lesson 2.cdfcs

12_Lesson 2.cdfcs

Assessment

Presentation

Computers

1st Grade

Practice Problem

Medium

Created by

Phong Thanh

Used 7+ times

FREE Resource

9 Slides • 36 Questions

1

Giới thiệu về Khoa học dữ liệu

1. Khái niệm và mục tiêu của Khoa học dữ liệu

a. Khái niệm về Khoa học dữ liệu

Khoa học dữ liệu (data science) là một lĩnh vực liên ngành, sử dụng các phương pháp khoa học, quy trình, thuật toán để khám phá tri thức từ dữ liệu, kết hợp những tri thức đó với tri thức chuyên ngành làm cơ sở cho những quyết định.

Sử dụng công cụ và phương pháp của ba thành phần sau đây để giúp cá nhân, tổ chức hiểu rõ về dữ liệu mình sở hữu và tận dụng tri thức để đưa ra quyết định phù hợp.

2

Giới thiệu về Khoa học dữ liệu

1. Khái niệm và mục tiêu của Khoa học dữ liệu

a. Khái niệm về Khoa học dữ liệu

  • Khoa học máy tính: cung cấp các công cụ và kĩ thuật xử lí, phân tích và khai phá dữ liệu.

  • Toán học và thống kê: cung cấp cơ sở cho các phương pháp phân tích và khai phá dữ liệu.

  • Tri thức chuyên ngành: là nguồn tri thức của từng lĩnh vực có vai trò quan trọng để hiểu ngữ cảnh và ý nghĩa của dữ liệu nhằm đưa ra quyết định đúng đắn.

media

3

Giới thiệu về Khoa học dữ liệu

1. Khái niệm và mục tiêu của Khoa học dữ liệu

b. Mục tiêu của Khoa học dữ liệu

Mục tiêu chính là phân tích và khai phá dữ liệu để có được tri thức, vận dụng tri thức đó để giải quyết vấn đề và đưa ra các quyết định phù hợp, cải thiện hoạt động của tổ chức hoặc doanh nghiệp.

Một số mục tiêu cụ thể như sau:

  • Tổ chức và quản lí dữ liệu (nhiệm vụ rất quan trọng) tập trung vào việc xây dựng, duy trì hệ thống tổ chức dữ liệu đảm bảo tính toàn vẹn, sẵn sàng và quản lí hiệu quả các nguồn dữ liệu. Nhằm tạo ra cơ sở hạ tầng dữ liệu mạnh mẽ và linh hoạt, hỗ trợ quá trình phân tích và ra quyết định.

  • Phân tích dữ liệu nhằm hiểu rõ về nội dung, cấu trúc dữ liệu, xác định các đặc điểm quan trọng, nhận diện nhóm và xu hướng trong dữ liệu. Giúp tạo ra cái nhìn toàn diện về dữ liệu và hỗ trợ quá trình ra quyết định.

4

Giới thiệu về Khoa học dữ liệu

1. Khái niệm và mục tiêu của Khoa học dữ liệu

b. Mục tiêu của Khoa học dữ liệu

  • Trực quan hoá dữ liệu nhằm biểu diễn dữ liệu một cách trực quan, dễ hiểu bằng các sơ đồ, biểu đồ hay hình ảnh, giúp người dùng có được cái nhìn tổng quan về dữ liệu. 

  • Tối ưu hoá quyết định nhằm cải thiện quyết định dựa trên dữ liệu, bao gồm việc sử dụng các thuật toán tối ưu hoá để đưa ra quyết định tốt nhất dựa trên các ràng buộc và mục tiêu. Ví dụ, tối ưu hoá quy trình sản xuất để tối ưu hoá hiệu quả của dây chuyền sản xuất hay sản lượng, chất lượng sản phẩm,...

  • Khám phá tri thức (mục tiêu cao nhất) để tìm ra các mối quan hệ ẩn chứa trong dữ liệu, xác định nguyên nhân và kết quả, tạo ra tri thức mới từ dữ liệu. Ví dụ, trong nghiên cứu dược phẩm, người ta có thể sử dụng dữ liệu bệnh nhân để tìm hiểu mối quan hệ giữa một loại thuốc và các phản ứng phụ, giúp họ hiểu rõ hơn về tác động của loại thuốc này đối với sức khoẻ của bệnh nhân. 

5

Giới thiệu về Khoa học dữ liệu

1. Khái niệm và mục tiêu của Khoa học dữ liệu

c. Các giai đoạn của một dự án Khoa học dữ liệu 

Một dự án Khoa học dữ liệu liên quan đến những vấn đề cụ thể mà tổ chức, doanh nghiệp cần giải quyết sẽ thực hiện theo các bước trong hình sau.

media

6

Multiple Choice

Mục tiêu cao nhất của lĩnh vực Khoa học dữ liệu là

1

tối ưu hóa quyết định.

2

khám phá tri thức.

3

phân tích dữ liệu.

4

trực quan hóa dữ liệu.

7

Multiple Choice

Mục tiêu chính của Khoa học dữ liệu là

1

biểu diễn dữ liệu một cách trực quan.

2

tối ưu quyết định dựa trên dữ liệu.

3

tìm ra mối quan hệ ẩn trong dữ liệu.

4

phân phối dữ liệu cho các tổ chức.

8

Multiple Choice

Hoạt động tìm ra các mối quan hệ ẩn chứa trong dữ liệu trong Khoa học dữ liệu thuộc mục tiêu nào sau đây?

1

Khám phá tri thức.

2

Trực quan dữ liệu.

3

Phân tích dữ liệu.

4

Tối ưu quyết định.

9

Multiple Choice

Hoạt động biểu diễn dữ liệu bằng các dạng biểu đồ hay hình ảnh trong Khoa học dữ liệu thuộc mục tiêu nào sau đây?

1

Phân tích dữ liệu.

2

Tối ưu quyết định.

3

Khám phá tri thức.

4

Trực quan dữ liệu.

10

Multiple Choice

Hoạt động giúp xác định các đặc điểm quan trọng của dữ liệu trong Khoa học dữ liệu thuộc mục tiêu nào sau đây?

1

Trực quan dữ liệu.

2

Tối ưu quyết định.

3

Phân tích dữ liệu.

4

Khám phá tri thức.

11

Multiple Choice

Hoạt động đưa ra quyết định tốt nhất dựa trên ràng buộc và dữ liệu trong Khoa học dữ liệu thuộc mục tiêu nào sau đây?

1

Phân tích dữ liệu.

2

Tối ưu quyết định.

3

Trực quan dữ liệu.

4

Khám phá tri thức.

12

Multiple Choice

Một mục tiêu tiên quyết giúp hoạt động khoa học dữ liệu trở nên hiệu quả là

1

tổ chức dữ liệu.

2

phân tích dữ liệu.

3

tối ưu quyết định.

4

trực quan dữ liệu.

13

Giới thiệu về Khoa học dữ liệu

2. Một số thành tựu của Khoa học dữ liệu

Khoa học dữ liệu hiện nay gắn với sự phát triển của dữ liệu lớn (loại dữ liệu khó xử lí theo cách thông thường).

Dữ liệu lớn được đặc trưng bởi 5V:

  • Khối lượng (volume) - kích thước của tập dữ liệu.

  • Vận tốc (velocity) - tốc độ mà dữ liệu đó được tạo ra và cần phân tích.

  • Sự đa dạng (variety) - nhiều loại dữ liệu khác nhau.

  • Giá trị (value) - tính hữu ích của dữ liệu.

  • Tính xác thực (veracity) - đảm bảo hạn chế nhiễu/sai số hoặc không chính xác.

14

Giới thiệu về Khoa học dữ liệu

2. Một số thành tựu của Khoa học dữ liệu

-Tận dụng một cách hiệu quả dữ liệu lớn khi tự động hoá quy trình (bởi Data Science, AI, Machine Learning) để xử lí, phân tích và khai phá. Việc phân tích và khám phá các tri thức hữu ích từ dữ liệu lớn có thể được coi là thành tựu và lợi ích chung lớn nhất mà Khoa học dữ liệu đem lại.

media

​-Ba lĩnh vực Data Science (Khoa học dữ liệu), AI (Trí tuệ nhân tạo), Machine Learning (Học máy) có mối quan hệ gắn bó và tương hỗ lẫn nhau giữa các lĩnh vực đang phát triển mạnh mẽ.

15

Giới thiệu về Khoa học dữ liệu

2. Một số thành tựu của Khoa học dữ liệu

Dưới đây đề cập khái quát một số thành tựu cụ thể của Khoa học dữ liệu:
Dự án Hệ gene người (Human Genome Project - HGP)

-Mục đích là khám phá bí mật về cấu trúc di truyền của con người bằng cách xác định tất cả các nucleotide trong hệ gene.

-Đem lại cho hiểu biết sâu rộng về di truyền học, mở đường cho sự phát triển của y học.
Dự án nghiên cứu và khám phá không gian vũ trụ

-Kính thiên văn Kepler trong 9 năm hoạt động đã tạo ra khoảng 678 GB dữ liệu. Các vệ tinh thu thập các thông tin về hành tinh tạo ra khoảng 100 GB dữ liệu mỗi ngày.

→ Cần phát triển các thuật toán này giúp phân loại các đặc trưng của hành tinh, phát hiện thay đổi bất thường trong ánh sáng ngôi sao và suy luận về các hành tinh khác trong hệ các ngôi sao dựa trên thay đổi quỹ đạo.

16

Giới thiệu về Khoa học dữ liệu

2. Một số thành tựu của Khoa học dữ liệu

Dưới đây đề cập khái quát một số thành tựu cụ thể của Khoa học dữ liệu:
Hệ thống giám sát đánh bắt cá toàn cầu

Ghi chép thông tin của hàng triệu con tàu trên đường thủy, từ đó xác định được hoạt động đánh bắt hợp pháp theo thời gian thực.
Các mô hình ngôn ngữ

Để có thể hiểu và xử lí được ngôn ngữ tự nhiên một cách tinh vi, các mô hình ngôn ngữ cần được đào tạo bởi lượng dữ liệu văn bản rất lớn.

Mô hình phát hiện gian lận của American Express

Thông qua xác thực nâng cao sử dụng sinh trắc học giúp giảm được 60% gian lận giao dịch.

17

Multiple Choice

Thành tựu chung lớn nhất của Khoa học dữ liệu là

1

thu thập nhiều dữ liệu.

2

liên kết các dữ liệu.

3

giảm thiểu giá trị nhiễu.

4

khám phá tri thức mới.

18

Multiple Choice

Khoa học dữ liệu gắn với các lĩnh vực nào sau đây?

1

Học máy, dữ liệu lớn.

2

Học máy, trí tuệ nhân tạo.

3

Học sâu, trí tuệ nhân tạo.

4

Trí tuệ nhân tạo, dữ liệu lớn.

19

Multiple Choice

Khoa học dữ liệu kết hợp các phương pháp và công cụ từ những lĩnh vực nào?

1
Vật lý, hóa học, sinh học, địa lý
2
Kinh tế, tâm lý học, triết học, nghệ thuật
3
Quản trị kinh doanh, marketing, luật, y học
4
Thống kê, học máy, lập trình, quản lý dữ liệu.

20

Multiple Choice

Khoa học dữ liệu kết hợp các phương pháp và công cụ từ những lĩnh vực nào?

1

Khoa học máy tính, toán học, và thống kê

2

Y học, sinh học, và hóa học

3

Kỹ thuật, vật lý, và hóa học

4

Triết học, lịch sử, và ngôn ngữ học

21

Multiple Choice

Một trong những mục tiêu chính của khoa học dữ liệu là gì?

1

Chỉ lưu trữ dữ liệu

2

Dự đoán thời tiết

3

Phát triển phần cứng máy tính

4

Tạo ra tri thức và đưa ra các quyết định phù hợp

22

Multiple Choice

Khái niệm "dữ liệu lớn" được đặc trưng bởi bao nhiêu chữ V?

1

3

2

4

3

5

4

6

23

Multiple Choice

Trong khoa học dữ liệu, mục tiêu của việc "trực quan hóa dữ liệu" là gì?

1

Lưu trữ dữ liệu an toàn dưới dạng sơ đồ, biểu đồ, hoặc hình ảnh

2

Tăng tốc độ truy cập dữ liệu

3

Biểu diễn dữ liệu bằng sơ đồ, biểu đồ, hoặc hình ảnh

4

Phân loại dữ liệu bằng sơ đồ, biểu đồ, hoặc hình ảnh

24

Multiple Choice

Một trong những thành tựu của khoa học dữ liệu là gì?

1
Phân tích và dự đoán xu hướng từ dữ liệu lớn.
2
Tạo ra dữ liệu mới từ không có gì.
3
Chỉ lưu trữ dữ liệu mà không phân tích.
4
Giảm thiểu kích thước của dữ liệu mà không cần lý do.

25

Multiple Choice

Một trong những thành tựu của khoa học dữ liệu là gì?

1

Phát minh ra máy tính cá nhân

2

Phát hiện hoạt động gian lận

3

Xây dựng các nhà máy sản xuất

4

Khám phá vũ trụ

26

Multiple Choice

Một ứng dụng của học máy trong khoa học dữ liệu là gì?

1

Tạo ra năng lượng từ hạt nhân

2

Tự động hoá công việc lặp đi lặp lại

3

Thay đổi khí hậu

4

Nghiên cứu lịch sử

27

Multiple Choice

Khối lượng dữ liệu trong "dữ liệu lớn" đề cập đến điều gì?

1

Tốc độ xử lý dữ liệu

2

Kích thước của tập dữ liệu

3

Độ chính xác của dữ liệu

4

Đa dạng loại dữ liệu

28

Multiple Choice

Khối lượng dữ liệu trong "dữ liệu lớn" đề cập đến điều gì?

1
Chất lượng dữ liệu trong dữ liệu lớn.
2
Thời gian xử lý dữ liệu lớn.
3
Kích thước và khối lượng thông tin trong dữ liệu lớn.
4
Nguồn gốc của dữ liệu lớn.

29

Multiple Choice

Mục tiêu của việc tối ưu hóa quyết định trong khoa học dữ liệu là gì?

1

Giảm kích thước dữ liệu

2

Tăng độ phức tạp của dữ liệu

3

Lưu trữ dữ liệu an toàn

4

Đưa ra quyết định tốt nhất

30

Multiple Choice

Một ví dụ về việc cải thiện trải nghiệm khách hàng thông qua khoa học dữ liệu là gì?

1

Tăng số lượng sản phẩm

2

Cung cấp dịch vụ cá nhân hóa

3

Tạo ra các sản phẩm mới

4

Phát triển các chương trình truyền hình

31

Multiple Choice

Mối quan hệ giữa AI, Học máy và Khoa học dữ liệu là gì?

1

Độc lập và không liên quan

2

Gắn bó và tương hỗ

3

Cạnh tranh và đối lập

4

Không có mối quan hệ

32

Multiple Choice

Khái niệm và mục tiêu của khoa học dữ liệu sau đây đúng ?

1

Khoa học dữ liệu là lĩnh vực liên ngành kết hợp các phương pháp khoa học, quy trình, và thuật toán để khai thác tri thức từ dữ liệu.

2

Mục tiêu của khoa học dữ liệu là chỉ để lưu trữ dữ liệu mà không cần phân tích.

3

Trực quan hóa dữ liệu không phải là một phần của khoa học dữ liệu.

4

Tri thức chuyên ngành không liên quan đến khoa học dữ liệu.

33

Multiple Choice

Phát biểu sau đây dứng hay sai về Một số thành tựu của khoa học dữ liệu?

1

Khoa học dữ liệu giúp đổi mới quá trình ra quyết định bằng cách phân tích và khai thác dữ liệu.

2

Khoa học dữ liệu có ứng dụng rộng rãi trong nhiều lĩnh vực như sản xuất, y tế, marketing, và nhiều ngành khác.

3

Tự động hóa là một trong những thành tựu của khoa học dữ liệu.

4

Khoa học dữ liệu không liên quan đến việc cải thiện trải nghiệm khách hàng

34

Multiple Choice

Khoa học dữ liệu là gì?

1

Một lĩnh vực chỉ sử dụng toán học để phân tích dữ liệu.

2

Một lĩnh vực nghiên cứu các ứng dụng của máy tính trong lĩnh vực nghệ thuật.

3

Một lĩnh vực liên ngành kết hợp toán học, thống kê và khoa học máy tính để phân tích và trực quan hóa dữ liệu.

4

Một lĩnh vực nghiên cứu về cách thức hoạt động của các thiết bị điện tử.

35

Multiple Choice

Giai đoạn nào sau đây không phải là một phần của dự án Khoa học dữ liệu?

1

Xác định vấn đề

2

Thu thập dữ liệu

3

Đánh giá và giải thích

4

Thực hiện quảng cáo

36

Multiple Choice

Dự án Bộ gen người (HGP) kéo dài bao lâu và tiêu tốn khoảng bao nhiêu chi phí?

1

10 năm và 2 triệu USD

2

5 năm và 1 triệu USD

3

13 năm và 3 tỉ USD

4

20 năm và 5 tỉ USD

37

Multiple Choice

Kính thiên văn Kepler thu thập bao nhiêu dữ liệu về độ sáng của các ngôi sao?

1

100 GB

2

678 GB

3

1 TB

4

2 TB

38

Multiple Choice

Hệ thống Giám sát đánh bắt cá toàn cầu (Global Fishing Watch) sử dụng công nghệ gì để ngăn chặn đánh bắt cá bất hợp pháp?

1

Dữ liệu từ cảm biến nhiệt độ

2

Dữ liệu vệ tinh từ hệ thống của Google

3

Dữ liệu từ cảm biến âm thanh dưới nước

4

Dữ liệu từ camera theo dõi

39

Multiple Choice

Mô hình ngôn ngữ lớn (LLM) nổi tiếng nhất hiện nay là gì?

1

BERT

2

GPT-3

3

RoBERTa

4

T5

40

Multiple Choice

Dự án nào sau đây không phải là một thành tựu của Khoa học dữ liệu?

1

Dự án Bộ gen người HGP

2

Phát triển trí tuệ nhân tạo với các trợ lý ảo

3

Nghiên cứu và phát triển các phương pháp dạy học truyền thống

4

Phát hiện gian lận trong giao dịch tài chính

41

Multiple Choice

Kỹ thuật nào được sử dụng trong Dự án Bộ gen người để nghiên cứu cấu trúc và chức năng của các gen?

1

Phân tích dữ liệu văn bản

2

Giải trình tự gen

3

Phát hiện đối tượng trong ảnh

4

Phân tích chuỗi thời gian

42

Multiple Choice

American Express đã cải thiện khả năng phát hiện gian lận bằng cách nào?

1

Triển khai mô hình học máy

2

Tăng cường đội ngũ nhân viên kiểm tra

3

Sử dụng phần mềm chống virus mới

4

Cải thiện giao diện người dùng

43

Multiple Choice

Trong các dự án nghiên cứu không gian vũ trụ, dữ liệu về hành tinh được thu thập từ đâu?

1

Kính thiên văn Kepler

2

Cảm biến dưới mặt đất

3

Hệ thống giám sát hải dương

4

Máy tính cá nhân

44

Multiple Choice

Phát biểu sau đây sai về các khía cạnh của khoa học dữ liệu?

1

Khoa học dữ liệu chỉ liên quan đến toán học và thống kê, không bao gồm khoa học máy tính.

2

Một trong những mục tiêu chính của khoa học dữ liệu là phát hiện tri thức từ dữ liệu và phát triển kiến thức mới.

3

Trong các giai đoạn của dự án khoa học dữ liệu, việc ra quyết định và triển khai không cần dựa vào kết quả phân tích để đảm bảo quyết định được thông tin và chính xác.

4

Để tối ưu hóa quyết định, khoa học dữ liệu sử dụng thuật toán tối ưu hóa và điều chỉnh quyết định dựa trên dữ liệu.

45

Multiple Choice

Phát biểu sau đây đúng hay sai về thành tựu và ứng dụng của khoa học dữ liệu:

1

Dự án Bộ gen người (HGP) tiêu tốn khoảng 3 triệu USD và kéo dài trong 3 năm.

2

Kính thiên văn Kepler thu thập khoảng 678 GB dữ liệu về độ sáng của 150 triệu ngôi sao trong 9 năm.

3

Hệ thống Giám sát đánh bắt cá toàn cầu sử dụng dữ liệu vệ tinh để theo dõi và ngăn chặn đánh bắt cá bất hợp pháp.

4

Các mô hình ngôn ngữ lớn (LLM) như GPT-3 có số lượng tham số rất nhỏ, không thể xử lý ngôn ngữ tự nhiên hiệu quả.

Giới thiệu về Khoa học dữ liệu

1. Khái niệm và mục tiêu của Khoa học dữ liệu

a. Khái niệm về Khoa học dữ liệu

Khoa học dữ liệu (data science) là một lĩnh vực liên ngành, sử dụng các phương pháp khoa học, quy trình, thuật toán để khám phá tri thức từ dữ liệu, kết hợp những tri thức đó với tri thức chuyên ngành làm cơ sở cho những quyết định.

Sử dụng công cụ và phương pháp của ba thành phần sau đây để giúp cá nhân, tổ chức hiểu rõ về dữ liệu mình sở hữu và tận dụng tri thức để đưa ra quyết định phù hợp.

Show answer

Auto Play

Slide 1 / 45

SLIDE