Search Header Logo
big_2_1_5

big_2_1_5

Assessment

Presentation

Professional Development

Professional Development

Hard

Created by

KS K

FREE Resource

0 Slides • 30 Questions

1

Multiple Choice

다음 중 비정형 데이터에 대한 설명으로 옳지 않은 것은?

1

형태가 있으며 연산이 불가능한 데이터이다.

2

형태가 없으며 연산이 불가능한 데이터이다.

3

텍스트 마이닝 혹은 파일일 경우, 분석을 위해 파일을 데이터 형태로 파싱해야하기 때문에 수집 데이터 처리가 어렵다.

4

소셜 데이터, 영상, 이미지, 음성, 텍스트 등이 해당한다.

2

Multiple Choice

다음 중 비정형 데이터 마이닝에 대한 설명으로 옳지 않은 것은?

1

구조와 형태가 다르고 정형화되지 않은 데이터로서, 구체적으로 미리 정의된 데이터 모델을 가지지 않는 데이터를 활용한 분석 이론이다.

2

비정형 데이터 마이닝 중 텍스트 마이닝은 자연어로 구성된 비정형 텍스트 데이터 속에서 정보나 관계를 분석하는 기법이다.

3

비정형 데이터 마이닝의 예로 텍스트 마이닝, 웹 마이닝, 오피니언 마이닝, 사회연결망 분석 등이 있다.

4

비정형 데이터 마이닝은 정형화 되어 있지 않기 때문에 정제된 데이터를 기반으로 일정한 기준이 적용된 상식적 범위에서 부분적인 데이터를 다루는 정형 데이터 마이닝의 한계를 뛰어넘지 못한다.

3

Multiple Choice

다음 중 비정형 데이터에 해당하지 않는 것은?

1

텍스트

2

관계형 데이터베이스

3

이미지

4

음성 및 영상

4

Multiple Choice

다음 중 소셜 미디어에 올라오는 정보를 이용하여 마케팅 전략, 사회적 이슈 및 트렌드, 여론 변화 흐름 등을 분석하는 과정을 무엇이라 하는가?

1

웹 콘텐츠 마이닝

2

프로세스 마이닝

3

소셜 데이터 마이닝

4

텍스트 마이닝

5

Multiple Choice

웹 콘텐츠나 PDF, 마이크로소프트 오피스 파일, XML, 텍스트 파일 등 다양한 포맷의 문서로부터 텍스트를 추출해 고품질의 정보를 도출하는 과정을 무엇이라고 하는가?

1

텍스트 마이닝

2

로지스틱 회귀분석

3

시뮬레이션

4

사회연결망 분석

6

Multiple Choice

데이터 마이닝 기법을 활용하여 웹상의 문서들과 서비스들로부터 정보를 자동적으로 추출, 발견 하는 분석기법으로 적절한 것은?

1

텍스트 마이닝(Text Mining)

2

오피니언 마이닝(Opinion Mining)

3

사회연결망 분석(Socail Metrix Analysis)

4

웹 마이닝(Web Mining)

7

Multiple Choice

다음 중 웹마이닝 유형으로 옳지 않은 것은?

1

웹 인식 마이닝

2

웹 내용 마이닝

3

웹 사용 마이닝

4

웹 구조 마이닝

8

Multiple Choice

다음 중 사회연결망 분석의 속성에 해당하지 않는 것은?

1

통합

2

응집력

3

명성

4

구조적 등위성

9

Multiple Choice

다음 데이터 마이닝 분석 기법 중 성격이 다른 하나는 무엇인가?

1

연관분석(Association Analysis)

2

군집분석(Clustering Analysis)

3

사회연결망분석(Social Network Analysis)

4

분류분석(Classification Analysis)

10

Multiple Choice

텍스트 마이닝의 특징에 대해 설명한 것 중 맞는 것은?

1

텍스트를 어근과 어미로 구분해서 하나의 feature로 만들어내는 단계가 중요하므로 언어에 대한 이해는 중요하지만 문화와 관습까지 이해할 필요는 없다.

2

영어는 세계 공용어로써 많은 나라에서 활용하고 있기 때문에 국가별로 텍스트 마이닝을 수행할 필요는 없다.

3

자연어 처리 분야에서 분석 결과를 평가하기 위해 사용하는 방법론 가운데 대표적인 것은 정확도(precision)와 재현율(recall)이다.

4

corpus는 데이터 마이닝의 절차 중 데이터마트를 생성하는 단계이다.

11

Multiple Choice

Question image

텍스트 마이닝의 분석 결과를 평가하기 위해 사용되는 방법론 중 재현율에 관한 설명으로 맞는 것은?

1

분석 모델이 긍정으로 분류한 데이터(a+b) 중 실제 긍정 데이터는 이므로 재현율은 a/ (a+b)이다.

2

실제 존재하는 모든 긍정 메시지 (a +c) 중 분석 결과 나온 개수가 이므로 재현율은 a/ (a+c)이다.

3

전체 메시지(a+b+c+d) 중 분석 결과 나온 개수가 이므로 재현율은 a/ (a+b+c+d)이다.

4

전체 메시지 (a+b+c+d) 중 분석 결과 나온 개수가 a+b이므로 재현율은 (a+b)/ (a+b+c+d)이다.

12

Multiple Choice

데이터 마이닝 절차 중 데이터의 정제, 통합, 선택, 변환의 과정을 거친 구조화된 단계로서 더 이상 추가적인 절차 없이 데이터 마이닝 알고리즘 실험에서 활용될 수 있는 상태를 무엇이라고 하는가?

1

Feature

2

Term

3

Factor Source

4

Corpus

13

Multiple Choice

텍스트 마이닝 패키지인 TM에서 문서를 관리하는 기본 구조를 Corpus라고 부르는데, 이는 텍스트 문서들의 집합을 의미한다. 메모리에서만 텍스트 문서를 유지하고 관리하는 것은 무엇인가?

1

VCorpus

2

PCorpus

3

MCorpus

4

DataFrame Source

14

Multiple Choice

문장에서 사용된 단어의 긍정과 부정 여부에 따라 얼마나 긍정적인 단어가 많은지 여부로 소스를 부여해 긍정 문장인지를 평가하기 위한 분석으로, 트위터의 트윗과 같은 데이터를 이용해 자사의 브랜드의 긍정/부정 여부를 판단하는데 활용되는 분석은 무엇인가?

1

감성분석(Sentiment Analysis)

2

분류분석(Classification Analysis)

3

소셜네트워크분석(Social Network Analysis)

4

트윗분석(Twit Analysis)

15

Multiple Choice

사회연결망분석(Social Network Analysis)에 대한 설명으로 부적절한 것은 어느 것인가?

1

개인과 집단들 간의 관계를 노드와 링크로써 모델링해 그것의 위상 구조와 확산 및 진화 과정을 계량적으로 분석한 방법론이다.

2

최근 인터넷과 소셜네트워크의 발달로 발생하는 대용량 데이터를 활용해 개인과 개인, 개인과 집단 간의 네트워크를 분석하는 방법론이다.

3

제이콥 마리노(Jacob Mareno)가 처음 "sociometry"에 발표하지만 사회연결망이라는 용어는 Barnes(1954)가 처음으로 내놓았다.

4

최근에는 주로 그룹 간 또는 그룹 안의 개인에 집중한 연구가 진행되고 있다.

16

Multiple Choice

다음은 사회연결망 분석방법에 대한 설명이다. 이 중 잘못 나열한 것은 어느 것인가?

1

집합론적인 방법 - 각 개체들 간의 관계를 쌍으로 표현한 것

2

계층적 그래프를 이용한 방법 - 계층적 군집분석의 방식으로 각 객체를 표현한 것

3

그래프 이론을 이용한 방법 - 두 객체 간의 연결망은 두 점(노드)을 연결하는 선으로 표현한 것

4

행렬을 이용한 방법 - 각 객체를 행렬의 행과 열에 대칭적으로 배치하고 행렬로 표현한 것

17

Multiple Choice

사회연결망 분석(social network analysis)의 네트워크 구조를 파악하는 기법 중 하나로 위세가 높은 사람들과 관계가 많을수록 자신의 위세 또한 높아지는 것을 특징으로 하며, 영향력이 높은 사람에 대한 단 하나의 연결이 그렇지 않은 다른 여러 사람들과 관계를 맺는 경우보다 자신의 영향력을 키우는 기법은 무엇인가?

1

연결정도 중심성(Degree centrality)

2

근접 중심성(Closeness centrality)

3

매개 중심성(Betweenness centrality)

4

위세 중심성(Eigenvector centrality)

18

Multiple Choice

Question image

사회연결망분석 (social network analysis)에서 아래 그림과 같은 결과를 얻었다. 내용에 대한 설명 중 적절하지 않은 것은?

1

3개의 군집 (cluster)으로 군집화 하는 것이 최선인 것으로 결과가 나왔다.

2

군집화의 결과, 3번 노드와 15번 노드는 같은 군집에 포함된 것을 알 수 있다.

3

3개의 군집으로 나누었을 때 최고의 모듈성은 28%임을 알 수 있다.

4

community detection을 위해 edge betweenness 알고리즘을 활용하여 커뮤니티를 발견한다.

19

Multiple Choice

텍스트 데이터 전처리를 통해 도출되는 각 문서에서 등장하는 단어의 빈도를 이용해 만들 수 있는 matrix를 무엇이라고 하는가?

1

TDM(Term-Document Matrix)

2

워드 스테밍(Word Stemming)

3

웹 크롤링(Web Crawling)

4

제외어 처리(Stop Word)

20

Multiple Choice

다음 중 텍스트 마이닝의 기능 중 부적절한 것은?

1

문서 요약(summarization)

2

문서 분류(classification)

3

문서 제작(production)

4

특성 추출(feature extraction)

21

Multiple Choice

Question image

다음 중 아래 Term - Document Matrix에서 sparsity(희박성)의 값으로 적절한 것은?

1

2%

2

44%

3

64%

4

98%

22

Multiple Choice

다음은 텍스트 마이닝 과정 중 데이터 시각화에 해당하지 않는 내용은?

1

텍스트 데이터의 시각화 기법에는 대표적으로 워드클라우드와 의미 연결망 분석이 있다.

2

워드클라우드는 문서의 키워드 개념 등을 직관적으로 파악할 수 있도록 핵심 단어를 시각적으로 돋보이게 하는 기법이다.

3

의미 연결망 분석은 문서에 포함된 단어들의 구조적 관계를 통해 의미를 분석하는 것이다.

4

많은 단어 간의 복잡한 네트워크가 생성될 경우 의미 연결망분석이 용이하다.

23

Multiple Choice

다음 중 텍스트 전처리 과정에 대해 올바르게 나열한 것은?

================================================

㉠ 불용어 처리

㉡ 대소문자 통일

㉢ 텍스트 인코딩

토큰화

어근 추출

1

㉣-㉠-㉡-㉤-㉢

2

㉣-㉡-㉠-㉤-㉢

3

㉠-㉣-㉡-㉤-㉢

4

㉠-㉡-㉣-㉤-㉢

24

Multiple Choice

다음 중 텍스트 군집화에 해당하는 내용으로 옳은 것은?

1

텍스트 문장을 분석할 때 문장에서 주관적인 감성을 나타내는 정보를 찾아내어 긍정, 부정, 중립의 성향을 분석하는 것을 말한다.

2

텍스트 데이터에서 사용된 주제어들의 동시 사용 패턴을 바탕으로 해당 텍스트들을 대표하는 특정 주제나 이슈, 주제 그룹들을 자동으로 추출하는 분석 기법이다.

3

벡터 연산을 통해 단어 벡터 간 유사도를 이용하여 단어의 관계를 파악하고 비슷한 의미를 가지는 단어들의 위치를 파악해 군집을 형성하는 것을 말한다.

4

텍스트를 지정한 카테고리로 분류하는 기법으로, 텍스트 분석에서 가장 많이 사용하는 것을 말한다.

25

Multiple Choice

다음 중 사회연결망 분석에서 행과 열에 같은 개체가 배열되어 있는 매트릭스로 적절한 것은?

1

준 연결 매트릭스

2

2원 모드 매트릭스

3

상관 매트릭스

4

1원 모드 매트릭스

26

Multiple Choice

다음 중 사회연결망 분석의 중심성을 측정하는 방법으로 틀린 것은?

1

연결정도 중심성

2

위세 중심성

3

근접 중심성

4

밀도 중심성

27

Multiple Choice

다음 중 감성분석에 대한 설명으로 가장 부적절한 것은?

1

텍스트에 포함된 내용이 주관적인지 객관적인지를 먼저 판단해야 한다.

2

내용이 긍정적인지 부정적인지 판별하고 나의 상품이나 브랜드의 여론이 긍정적인지 부정적 인지를 찾아내는데 활용된다.

3

개별 문장의 분석에 오류가 나타나면 많은 문서를 가공하더라도 추이 파악에 어려움이 생기는 단점이 있는 분석방법이다.

4

영향력이 높은 대상자에게는 높은 가중치를 부여함으로써 더 정확한 감성지표를 계산할 수 있다.

28

Multiple Choice

다음 사회연결망 분석 중 한 노드가 연결망 내의 다른 노드들 사이의 최다 경로 위에 위치할수록 그 노드의 중심성이 높은 것으로 측정하는 방법으로 가장 적절한 것은?

1

연결정도 중심성

2

근접 중심성

3

매개 중심성

4

위세 중심성

29

Multiple Choice

문서를 유의미한 숫자의 행렬로 바꾸는 것으로, 각 단어에 고유한 정수 인덱스를 부여하는 것을 무엇이라고 하는가?

1

말뭉치(BoW, Bag-of-Word)

2

원-핫인코딩(One-Hot Encoding)

3

TF-IDF(Term Frequency-Inverse Document Frequency)

4

워드 임베딩(Word Embedding)

30

Multiple Choice

다음 중 사회연결망 분석 시 위세 중심성에 대한 설명으로 가장 적절한 것은?

1

한 노드에 직접적으로 연결된 노드들의 합으로 측정한다.

2

연결된 노드의 중요성에 가중치를 두어 중심성을 측정하는 방법이다.

3

네트워크 내에서 한 노드가 담당하는 매개자 혹은 중계자 역할의 정도를 측정하기 위한 평가 지표이다.

4

한 노드에 직접적으로 연결된 노드 뿐만 아니라 간접적으로 연결된 노드들 간의 거리를 계산하여 측정한다.

다음 중 비정형 데이터에 대한 설명으로 옳지 않은 것은?

1

형태가 있으며 연산이 불가능한 데이터이다.

2

형태가 없으며 연산이 불가능한 데이터이다.

3

텍스트 마이닝 혹은 파일일 경우, 분석을 위해 파일을 데이터 형태로 파싱해야하기 때문에 수집 데이터 처리가 어렵다.

4

소셜 데이터, 영상, 이미지, 음성, 텍스트 등이 해당한다.

Show answer

Auto Play

Slide 1 / 30

MULTIPLE CHOICE