Search Header Logo
big_2_1_1

big_2_1_1

Assessment

Presentation

Professional Development

Professional Development

Hard

Created by

KS K

FREE Resource

0 Slides • 40 Questions

1

Multiple Choice

데이터 마이닝 기법은 크게 두 가지로 나눌 수 있다. 하나는 지도 학습(Supervied Learning)과 비지도 학습(Unsupervised Learning)이다. 다음 분석 주제 중 비지도 학습을 사용하여 과제를 해결하기에 가장 적절한 것은?

1

기존에 알고 있는 네트워크 데이터 패킷들의 문제점을 이용하여 네트워크 데이터 패킷의 문제점 종류를 분류한다.

2

기존 파산회사와 파산하지 않은 회사들의 재정상태 데이터를 기반으로 회사의 파산 여부를 예측한다.

3

슈퍼마켓에서 본인과 다른 고객들의 구매이력을 바탕으로 할인 쿠폰을 발행한다.

4

문제가 발생한 항공기를 대상으로 수리 기간을 추정한다.

2

Multiple Choice

반정형 데이터는 데이터 내부에 정형 데이터의 스키마에 해당하는 메타 데이터를 가지고 있으며 일반적으로 파일 형태로 저장된다. 다음 중 반정형 데이터로 볼 수 없는 것은?

1

HTML

2

Web Log

3

JSON

4

Tweet

3

Multiple Choice

다음 중 성격이 다른 머신러닝 기법은 무엇인가?

1

Q-러닝(Q-Learning)

2

인공신경망(Artificial Neural Network)

3

랜덤 포레스트(Random Forest)

4

로지스틱 회귀분석(Logistic Regression)

4

Multiple Choice

아래의 데이터 마이닝 분석 예제 중 비지도(unsupervised) 분석을 수행해야 하는 예제는?

====================================================================

가. 우편물에 인쇄된 우편번호 판별 분석을 통해 우편물을 자동으로 분류

나. 고객의 과거 거래 구매 패턴을 분석하여 고객이 구매하지 않은 상품을 추천

다. 동일 차종의 수리 보고서 데이터를 분석하여 차량 수리에 소요되는 시간을 예측

라. 상품을 구매할 때 그와 유사한 상품을 구매한 고객들의 구매 데이터를 분석하여 쿠폰을 발행

1

나, 다

2

가, 라

3

가, 다

4

나, 라

5

Multiple Choice

다음 중 분류를 위해 사용되는 데이터 마이닝 기법은?

1

연관규칙 분석

2

Density-based Clustering

3

K-means Clustering

4

Support Vector Machine

6

Multiple Choice

다양한 형태의 문서로부터 텍스트를 획득하여 이를 문서별 단어의 행렬로 만들어 추가적 분석 이나 데이터 마이닝 기법을 적용하여 의사결정을 지원하는 것을 무엇이라 하는가?

1

사회연결망분석(Social Network Analysis)

2

의사결정나무분석(Decision Tree Analysis)

3

텍스트 마이닝(Text Mining)

4

워드 클라우드(Word cloud)

7

Multiple Choice

다음 중 텍스트 마이닝 분석에서 문장의 단어가 긍정, 부정 여부에 따라 얼마나 긍정적인 단어가 많은지를 보고 특정 소스를 부여해 어떤 색을 띄고 있는 문장인지를 평가하는 방법을 무엇이라 하는가?

1

토픽 분석(Topic Analysis)

2

클라우드 분석(Cloud Analysis)

3

연관성 분석(Association Analysis)

4

감성 분석(Sentiment Analysis)

8

Multiple Choice

다음 중 반응 변수가 범주형인 경우 예측모형의 주목적으로 가장 적절한 것은?

1

연관 분석

2

분류

3

시뮬레이션

4

최적화

9

Multiple Choice

다음 중 감성 분석(Sentimental Analysis)에 대한 설명으로 가장 부적절한 것은?

1

특정 주제에 대한 사용자의 긍정 부정 의견을 분석한다.

2

주로 온라인 쇼핑몰에서 사용자의 상품평에 대한 분석이 대표적 사례이다.

3

사용자간의 소셜 관계를 알아내고자 할 때 이용한다.

4

사용자가 사용한 문장이나 단어가 분석 대상이 된다.

10

Multiple Choice

다음 중 딥러닝(Deep Learning)과 가장 관련 없는 분석 기법은?

1

LSTM(Long Short-Term Memory)

2

Autoencoder

3

K-NN(K Nearest Neighbor)

4

RNN(Recurrent Neural Network)

11

Multiple Choice

다양한 데이터 유형 중 정형 데이터 - 반정형 데이터 - 비정형 데이터 순서로 가장 적절한 것은?

1

Demand Forecasts - Competitor pricing - Email records

2

Facebook status - Weather data - Web logs

3

RFID - Internet of things sensing - Loyalty program

4

CRM Transaction data - Twitter density-Mobile location

12

Multiple Choice

소매점에서 물건을 배열하거나 카탈로그 및 교차판매 등에 적용하기 적합한 데이터 마이닝 기법은 무엇인가?

1

분류(classification)

2

예측(prediction)

3

연관분석(association analysis)

4

군집(clustering)

13

Multiple Choice

다음 중 기법의 활용 분야가 나머지와 다른 하나를 고르시오.

1

로지스틱 회귀 분석

2

인공신경망

3

의사결정나무

4

SOM

14

Multiple Choice

사람, 상품에 관한 이해를 증가시키기 위해 데이터가 가지고 있는 특징을 나타내고 설명에 대한 답을 제공할 수 있는 데이터 마이닝의 기능으로 적절한 것은?

1

기술(Description)

2

추정(Estimation)

3

예측(Prediction)

4

군집(Clustering)

15

Multiple Choice

신용카드 고객의 파산여부(Yes/No)를 예측하기 위해 고객의 신용도, 나이, 직업 등의 변수를 사용하여 모델을 수립하려고 할 때, 다음 중 사용 가능한 모형이 아닌 것은?

1

선형회귀모형 (linear regression model)

2

로지스틱회귀모형(logistic regression model)

3

랜덤포레스트(random forest)

4

서포트벡터머신(support vector machine)

16

Multiple Choice

데이터 마이닝 기법 중 항목들 간의 '조건 -결과' 식으로 표현되는 유용한 패턴을 발견해내는 방법을 무엇이라 하는가?

1

인공신경망

2

의사결정나무

3

연관규칙

4

SOM(Self-Organizing Maps)

17

Multiple Choice

머신러닝 알고리즘은 크게 지도학습(Supervised learning)과 비지도학습(Unsupervised learning)으로 나눌 수 있다. 이러한 측면에서 보기 중 나머지와 성격이 다른 것은?

1

분류분석

2

군집분석

3

차원축소

4

연관분석

18

Multiple Choice

다음 중 빅데이터 분석모형 개발 절차로 적절한 것은?

1

분석 데이터 수집/처리 - 모형개발 기획 - 분석 알고리즘 수행

2

분석 알고리즘 선정 → 분석 데이터 수집/처리 - 분석 결과 평가 및 모형 선정

3

분석 데이터 수집/처리 - 분석 알고리즘 수행 - 분석 결과 평가 및 모형 선정

4

분석 알고리즘 수행 → 평가 기준 선정 → 최종 분석 알고리즘 선정

19

Multiple Choice

다음 중 빅데이터 분석모형 구축 절차 중 데이터 수집/처리에 대한 내용 중 틀린 것은?

1

분석 데이터 선정 시에는 분석 모델 개발을 위해 필요할 것으로 예상되는 최소의 항목을 도출한다.

2

분석 데이터 마트 구성단계에는 분석 목적 이해, 필요 데이터 사전조사, 분석 데이터 선정순으로 진행한다.

3

필요한 데이터는 분석가의 판단과 함께 기존 사례를 확인하여 유사모델을 검토하고 사용된 데이터도 검토한다.

4

분석 데이터가 선정되었으면 해당 데이터에 변수의 형태 등을 파악하는 데이터 탐색을실시한다.

20

Multiple Choice

분석 데이터 현황 분석 중 파악되어야 하는 항목 중 틀린 것은?

1

데이터 최신값

2

데이터 분포도

3

데이터 이상값

4

데이터 오류율

21

Multiple Choice

다음 중 빅데이터 분석모형 구축 절차 중 분석 알고리즘 선정에 해당하지 않는 것은?

1

분석 목적

2

파라미터 설정

3

데이터 유형

4

분석 데이터 볼륨

22

Multiple Choice

다음 중 분석 알고리즘 수행에 대한 설명 중 가장 부적절한 것은?

1

수행하려는 분석 목적이 무엇인지 명확히 검토하여 분석 알고리즘을 적용해야 한다.

2

모형 구축에 있어 대용량 데이터 분석을 위한 알고리즘은 존재하지 않는다.

3

데이터 유형별로 적용할 알고리즘을 고려하여 분석 알고리즘은 선정해야 한다.

4

영상, 이미지 데이터의 경우 딥러닝 알고리즘을 주로 활용해야한다.

23

Multiple Choice

다음 중 아래의 설명에서 (가), (나)에 들어갈 말로 적절한 것은?

===================================================

데이터 분석에 있어서 (_가_)가(이) 중요하다. 모형의 분석결과는 (_가_)를 바탕으로 모델의 성능을 개선할 수 있다. 이 때, 변수나 변수 간 상호관계를 추가 또는 삭제하는 경우도 있지만 대개는 (_나_)를 조정한다.

1

(가): 데이터, (나):파라미터

2

(가): 도메인 지식, (나) : 데이터 개수

3

(가): 데이터, (나): 데이터 개수

4

(가): 도메인 지식, (나): 파라미터

24

Multiple Choice

모형 평가 및 모델 선정에서 모델과 평가 기준의 짝이 잘못 지어진 것은?

1

분류형 모델 - 문서 분류율

2

설명형 모델 - 집도 소속률

3

분류형 모델 - 분류 정확도

4

설명형 모델 - 데이터 군집도

25

Multiple Choice

다음 중 아래의 설명에서 (가)에 들어갈 말로 적절한 것은?

==============================================

분석 모형에 대하여 최종 검토한 후 최종 모델을 선정한다. 해당 분석모형은 (_가_)로 등록되며 추후 빅데이터 분석모형 개선작업을 통해 업데이터 및 새 모형으로 교체될 수 있다.

1

챔피온 모델

2

표준 모델

3

엔트로피 모델

4

휴리스틱 모델

26

Multiple Choice

다음 중 빅데이터 분석 도구로 부적절한 것은?

1

R

2

D3.js

3

Excel

4

Matlab

27

Multiple Choice

다음 중 R 프로그램의 설명 중 틀린 것은?

1

오픈 소스이므로 사용자들이 만든 다양한 패키지들을 공유하여 사용 가능하므로 최신 알고리즘을 패키지를 통해 활용하기 쉽다.

2

R은 사용자들이 많기 때문에 문제가 발생할 경우, 다양한 사용자들을 통해 문제를 해결하므로 다른 통계패키지에 비해 유지보수가 신속하게 이루어진다.

3

함수형 언어이기 때문에 다양한 프로그램을 통해 자동화 할 수 있다.

4

무료로 이용할 수 있다.

28

Multiple Choice

다음 중 아래의 설명에서 (가)에 들어갈 말로 적절한 것은?

==============================================

파이썬은 일명 (_가_)라고도 한다. 다른 언어나 라이브러리에 쉽게 접근해 그들을 사용할 수 있고 특히, C언어와 결함이 잘된다.

1

접착제 언어

2

선언형 언어

3

모듈화 언어

4

절차형 언어

29

Multiple Choice

아래에서 설명하고 있는 이것은?

=========================

이것은 하둡분산파일시스템(HDFS)에 저장된 대용량의 데이터들을 대상으로 SQL을 이용하여 사

용자의 질의를 실시간으로 처리하는 기술이다. 이것의 대표적인 예로는 Apache Hive, Apache

Tajo, Cloudera의 Impala, Facebook의 Presto, Pivotal HD의 HAWQ, Apache Drill 등이 있다.

1

플룸(Flume)

2

스쿱(Sqoop)

3

주키퍼(Zookipper)

4

맵리듀스(MapReduce)

30

Multiple Choice

다음 중 파이썬의 객체 자료형이 아닌 것은?

1

문자열(String)

2

딕셔너리(Dictionary)

3

튜플(Tuple)

4

데이터 프레임(Data Frame)

31

Multiple Choice

다음 중 R 프로그램의 특징이 아닌 것은?

1

누구나 사용할 수 있는 오픈소스 프로그램이다.

2

윈도우, 맥, 리눅스의 운영체제에서 사용가능하다.

3

S 통계 언어를 기반으로 한 표준 플랫폼이다.

4

객체지향 언어이면서 명령형 언어이다.

32

Multiple Choice

최근에 딥러닝(Deep Learning)에 대한 관심이 전 세계적으로 높아지고 있다. 딥러닝을 활용하기 위해 다양한 오픈소스가 개발되어 제공되고 있다. 다음 중 이와 가장 관련이 없는 것은?

1

Caffe

2

Tensorflow

3

Anaconda

4

Theano

33

Multiple Choice

다음 중 빅데이터 분석 도구에 대한 설명 중 틀린 것은?

1

R은 오픈소스 프로그램으로 R studio를 활용하면 더욱 편리하게 활용할 수 있다.

2

쥬피터 노트북은 인터액티브 형식의 라이브 코드를 제공하는 웹 베이스 어플리케이션으로 실행하고 싶은 코드를 입력하고 그 결과를 바로 확인할 수 있다.

3

머하웃은 하둡 에코시스템에서 데이터 마이닝 기능과 실시간 SQL 기능도 함께 수행한다.

4

SAS, SPSS는 주로 통계에 활용되고 있으며, 유료로 사용해야한다.

34

Multiple Choice

다음 중 Python의 특징이 아닌 것은?

1

문법이 간결하고 표현 구조가 인간의 사고 체계와 닮아 있다.

2

일반화된 코드를 작성하기 위해 정적인 데이터 타입 결정을 지원한다.

3

플랫폼에 독립적인 객체지향 인터프리터 언어이며, 다양한 커뮤니티를 통해서 코드들이 활발히 공유되고 있다

4

Anaconda, Jupyter Notebook 등을 통해 편리하게 이용할 수 있다.

35

Multiple Choice

데이터 마이닝 적용 후 그 결과의 신빙성을 검증하기 위해 데이터를 분할한다. 다음 중 구축된 모델의 과잉 또는 과소맞춤 등에 대한 미세조정 절차를 위해 사용되는 데이터는 무엇인가?

1

검증용 데이터

2

구축용 데이터

3

시험용 데이터

4

추정용 데이터

36

Multiple Choice

다음 중 데이터 마이닝에서 구축용(training), 검정용(validation), 시험용(test) 데이터로 분리하는 이유로 가장 부적절한 것은?

1

과잉 또는 과소맞춤들에 대한 미세조정 절차를 수행하기 위해 데이터를 준비한다.

2

모형이 잘못된 가설을 가정하여 발생되는 2종 오류의 발생을 사전에 방지한다.

3

주어진 데이터에서만 높은 성과를 보이고 새로운 데이터에는 성과가 낮은 현상을 방지한다.

4

모델을 구축하고 평가하는 데 소요되는 시간을 단축한다.

37

Multiple Choice

데이터 분할 방법 중 하나로 주어진 데이터를 k개의 하부 집단으로 구분하여 K-1 개의 집단을 훈련용으로 나머지는 하부 집단으로 검증용으로 설정하여 학습하는 방법은?

1

시그모이드

2

가지치기

3

부스팅

4

크로스 벨리데이션

38

Multiple Choice

Hitters 데이터셋은 메이저리그에서 활약하는 322명의 선수에 대한 타자기록으로 연봉을 비롯한 20개의 변수를 포함하고 있다. 아래는 모형적합에 앞서 데이터를 train set과 test set으로 분할하는 과정이다. 다음 중 아래에 대한 설명으로 가장 부적절한 것은?

===================================================================

set.seed(1112)

train<-sample(1:nrow(Hitters), nrow(Hitters)/2)

Ytrainc-subset(Hitters[train,], select=Salary)

Xtrain<-subset(Hitters[train,], select=-Salary)

Ytest<-subset(Hitters[-train,], select=Salary)

Xtest<-subset(Hitters[-train,], select=-Salary)

1

50:50으로 데이터를 분할하고 있다.

2

50%의 데이터(train set)를 사용하여 모형을 학습하고 나머지 50%의 데이터(test set)로 모형을 평가하기 위한 사전작업이다.

3

모형 학습과 평가를 동일한 데이터셋에 진행하면 모형이 과적합 될 수 있다.

4

일반적으로 test set에 대한 모형평가 결과가 train set에 대한 모형평가 결과보다 좋다.

39

Multiple Choice

다음 중 데이터 분할 절차 중 틀린 것은?

1

모델링 성능에 대한 정교한 검증을 위해 교차검증 방법을 수행할 수 있다.

2

훈련 데이터를 활용한 분석모형 모델링, 평가데이터로 모형 성능평가, 최적 분석모형 선정의 절차를 따른다.

3

분석 정확도가 가장 높은 모형을 최적의 분석 모형으로 선정한다.

4

훈련 데이터로 분석 모형을 만들고 평가 데이터를 적용해 성능을 평가한다.

40

Multiple Choice

다음 중 데이터를 무작위로 두 집단으로 분리하여 실험데이터와 평가데이터로 설정하고 검정을 실시하는 모형 평가방법으로 적절한 것은?

1

k-fold 교차검증

2

ROC 그래프

3

홀드아웃 방법

4

이익도표

데이터 마이닝 기법은 크게 두 가지로 나눌 수 있다. 하나는 지도 학습(Supervied Learning)과 비지도 학습(Unsupervised Learning)이다. 다음 분석 주제 중 비지도 학습을 사용하여 과제를 해결하기에 가장 적절한 것은?

1

기존에 알고 있는 네트워크 데이터 패킷들의 문제점을 이용하여 네트워크 데이터 패킷의 문제점 종류를 분류한다.

2

기존 파산회사와 파산하지 않은 회사들의 재정상태 데이터를 기반으로 회사의 파산 여부를 예측한다.

3

슈퍼마켓에서 본인과 다른 고객들의 구매이력을 바탕으로 할인 쿠폰을 발행한다.

4

문제가 발생한 항공기를 대상으로 수리 기간을 추정한다.

Show answer

Auto Play

Slide 1 / 40

MULTIPLE CHOICE