Search Header Logo
big_1_1_3

big_1_1_3

Assessment

Presentation

Professional Development

Professional Development

Medium

Created by

KS K

Used 1+ times

FREE Resource

0 Slides • 50 Questions

1

Multiple Choice

로그데이터 수집 기법의 예로 가장 적절하지 않은 것은?

1

Scribe

2

Flume

3

Web Crawler

4

Chukwa

2

Multiple Choice

다음 중 여러 빅데이터 수집 기법 중 웹 문서를 수집하는 기법으로 올바른 것은?

1

크롤링

2

Streaming

3

RDB Aggregator

4

Log Aggregator

3

Multiple Choice

다음 중 빅데이터 수집 기법의 명칭과 특징이 올바르게 연결된 것은?

======================================================

가) 스크래핑 - 인터넷 웹사이트에 노출되는 내용 중 특정 정보만을 추출하고, 추출과 관련된 모든

동작을 자동으로 수행하는 기술

나) RSS - 관계형 데이터베이스에서 정형 데이터를 수집하여 HDFS NoSQL에 저장하는 오픈

소스 기술

다) Log Aggregator - 웹 서버 로그, 웹로그, 트랜잭션 로그, DB 로그 등 각종 서비스 로그 수집

오픈 소스 기술

라) FTP - TCP/IP 프로토콜을 이용하여 인터넷 서버로부터 각종 파일들을 송수신

1

가, 나

2

나, 다

3

다, 라

4

가, 다, 라

4

Multiple Choice

다음 로그 수집기에 대한 설명 중 가장 적절하지 않은 것은?

1

Flume은 분산 환경에서 대량의 로그 데이터를 효과적으로 수집하고 합친 후 효율적으로

전송할 수 있는 서비스이다.

2

Flume은 다양한 장비에서 수집되는 로그 파일 데이터를 HDFS와 같은 중앙저장소에

저장하는 로깅 시스템 구축 시 적합하다.

3

Scribe는 실시간 스트리밍 로그 데이터 수집 애플리케이션이며 야후에서 채택하여 활용

하였다.

4

Chukwa는 분산된 노드들의 다양한 로그 데이터를 수집하고 수집된 데이터를 HDFS에

저장하고 분석하기 위한 시스템이다.

5

Multiple Choice

다음 중 크롤링에 관한 설명으로 가장 적절하지 않은 것은?

1

크롤링은 인터넷 상의 여러 웹페이지에서 html 형식의 데이터만 수집해서 분류하고 저장하는

방법이다.

2

크롤링의 주요 목적은 데이터가 어디에 저장되어 있는지 위치에 대한 분류작업이다.

3

크롤링의 종류 중 하나인 웹 로봇은 사람과의 상호작용 없이 연속된 웹 트랜잭션들을

자동으로 수행하는 소프트웨어 프로그램이다.

4

크롤링의 종류 중 하나인 웹 크롤러는 검색엔진에서 주로 사용하며 방문한 모든 페이지의

복사본을 생성하고 생성된 페이지에 대해 인덱싱을 수행하여 빠른 검색이 가능하다.

6

Multiple Choice

다음 중 빅데이터 수집과 관련된 설명으로 가장 적절하지 않은 것은?

1

데이터 소스의 위치에 따라 내부 데이터와 외부 데이터로 구분되며 해당 구분에 따라 상이한

방법으로 데이터를 수집할 수 있다.

2

대표적으로 내부 데이터는 ETL 방식으로 데이터를 수집한다.

3

내부 데이터는 정형 데이터로 구성되어 있고 외부 데이터는 비정형 데이터로 구성되어 있다.

4

외부데이터는 주로 크롤링 기법을 활용하여 데이터를 수집한다.

7

Multiple Choice

다음 중 빅데이터 수집 시스템의 요건에 해당하지 않는 것은?

1

확장성 : 데이터 수집의 대상이 되는 서버는 충분한 확장이 가능해야 한다.

2

유연성 : 다양한 데이터 원천의 여러 포맷에 적용할 수 있도록 변경이 용이해야 한다.

3

실시간성 : 수집된 데이터는 실시간으로 반영되어야 한다.

4

통합성 : 수집 데이터는 자동적으로 통합되어 저장되어야 한다.

8

Multiple Choice

다음 중 정성적 데이터에 관한 설명으로 올바르지 않은 것은?

================================================

가) 정형 데이터의 형태를 가진다.

나) 객체 하나의 함의된 정보를 가진다는 특징이 있다.

다) 주로 내부 시스템에 위치한다.

라) 파일, 웹 등의 형태로 저장된다.

1

가, 나

2

나, 다

3

가, 다

4

가, 나, 라

9

Multiple Choice

다음 중 정량적 데이터와 가장 거리가 먼 데이터는?

1

몸무게

2

강수량

3

4

신문기사

10

Multiple Choice

다음 데이터가 속하는 데이터의 유형으로 올바른 것은?

===========================================

<'빅데이터 분석기사' 국가기술자격 시험 첫 시행>

국가기술자격으로 신설된 '빅데이터 분석기사 시험이 2020년 12월 첫 시행된다.

자격접수를 위해서는 아래와 같은 응시요건이 필요하다.... (중략)

1

정형 데이터

2

비정형 데이터

3

반정형 데이터

4

정량적 데이터

11

Multiple Choice

다음 중 반정형 데이터의 종류로 올바르지 않은 것은?

1

JSON

2

NoSQL

3

RSS

4

XML

12

Multiple Choice

다음 중 구조 관점의 데이터 유형에 관한 설명으로 가장 적절하지 않은 것은?

1

정형 데이터는 미리 정해 놓은 형식과 구조에 따라 저장되도록 구성된 데이터이다.

2

반정형 데이터는 스키마가 없으며 값과 형식에서 일관성이 없다는 특징이 있다.

3

반정형 데이터는 파일에 포함된 메타데이터를 바탕으로 테이블 형태의 데이터 스키마로 변환

하고 데이터를 매핑하여 정형 데이터로 변환할 수 있다.

4

비정형 데이터는 언어 분석이 가능한 텍스트 데이터나 이미지, 동영상 같은 멀티미디어 데이터

등이 있다.

13

Multiple Choice

다음 중 비정형 데이터에 대한 설명으로 가장 적절하지 않은 것은?

1

비정형 데이터는 일반적으로 정의된 구조가 없이 정형화되지 않은 데이터이다.

2

웹에 존재하는 모든 데이터는 비정형 데이터이다.

3

텍스트 데이터는 전처리를 위해 자연어 처리 기법을 주로 사용한다.

4

비정형 데이터의 수집 기술은 데이터 세트가 아니라 객체화되어 있는 하나의 데이터이다.

14

Multiple Choice

다음 중 정형 데이터의 수집 기술로 가장 적절하지 않은 것은?

1

Open API

2

FTP

3

ETL

4

Crawling

15

Multiple Choice

다음 중 데이터 유형별 수집 및 잠재가치에 관한 설명 중 가장 적절하지 않은 것은?

1

정형데이터는 내부 시스템인 경우가 대부분이며 내부 데이터 특성 상 활용면에서 잠재적

가치는 상대적으로 낮다.

2

반정형 데이터는 보통 데이터 제공자가 선별하여 API 형태로 제공한다.

3

비정형 데이터는 텍스트 마이닝 혹은 파일일 경우 파일을 데이터 형태로 파싱해야한다.

4

반정형 데이터는 수집주체에 의해 데이터 분석이 선행되었기 때문에 목적론적 데이터 특징이

가장 잘 나타나는 데이터이다.

16

Multiple Choice

다음 중 데이터 수집 난이도를 어려운 순서로 나열한 것은?

1

정형 - 반정형 - 비정형

2

반정형 - 비정형 - 정형

3

비정형 - 정형 - 반정형

4

비정형 - 반정형 - 정형

17

Multiple Choice

다음 중 데이터 유형과 그 종류를 연결한 것 중 가장 적절하지 않은 것은?

1

실시간 데이터 - 센서 데이터

2

실시간 데이터 - 보안장비 로그

3

비실시간 데이터 - 시스템 로그

4

비실시간 데이터 - 웹 로그

18

Multiple Choice

다음 중 저장 형태 관점에서 데이터를 구분한 종류 중 가장 적절하지 않은 것은?

1

파일 데이터

2

데이터 베이스 데이터

3

배치 데이터

4

스트림 데이터

19

Multiple Choice

다음 중 저장 형태에 따라 데이터를 분류하였을 때, 콘텐츠 데이터의 종류에 해당하지 않는 것은?

1

센서

2

텍스트

3

이미지

4

오디오

20

Multiple Choice

다음은 저장 형태 관점에 따른 데이터 유형에 대한 설명이다. 데이터에 대한 설명 중 가장 적절하지

않은 것은?

1

스트림 데이터는 개별적으로 데이터 객체로 구분될 수 있는 미디어 데이터를 의미한다.

2

스트림 데이터는 네트워크를 통해서 실시간으로 전송되는 특징이 있다.

3

파일 데이터는 시스템 로그, 서비스 로그, 텍스트, 스프레드시트 등이 있다.

4

데이터베이스 데이터는 데이터베이스 컬럼 또는 테이블 등에 저장된 데이터를 의미한다.

21

Multiple Choice

ETL을 표현하는 핵심 단어에 대한 설명 중 가장 적절한 것은?

1

추출 : 변환된 데이터를 특정 목표 시스템에 적재

2

변환 : 데이터 클렌징, 표준화, 형식변환, 통합, 다수 애플리케이션에 내장된 비즈니스 룰 적용

3

적재 : 하나 또는 그 이상의 데이터 원천으로부터 데이터 획득

4

작업단위 : 획득한 데이터를 목표 시스템에 적재하는 하나의 작업

22

Multiple Choice

다음 중 ETL에 대한 설명으로 가장 적절한 것은?

======================================

가) 데이터의 이동 및 변환 절차와 관련된 업계 표준용어이다.

나) 데이터 통합, 이동, 마스터 데이터 관리 등의 작업을 위해서도 활용된다.

다) 구현을 위한 다양한 상용 소프트웨어가 있으며 일괄 ETL과 실시간 ETL로 구분된다.

라) 다양한 시스템들 간 대용량의 데이터 교환이 필요하거나 복잡한 비즈니스 룰이 적용되는 데이터 교환이 필요한 경우에 활용된다.

1

가,나

2

가, 라

3

가, 나, 다

4

가, 나, 다, 라

23

Multiple Choice

다음 중 데이터웨어하우스 기반으로 데이터 관리가 이루어지는 경우에 관한 설명 중 가장 적절하지 않은 것은?

1

데이터의 수집, 관리, 분석의 역할을 위해 3개의 레이어로 구성된다.

2

소스 레이어는 데이터 수집과 관련된 것으로 다양한 원천으로부터 데이터를 수집한다.

3

DW 레이어에서 분석레이어로 데이터가 전달되기 전에 우선 ETL 과정을 거치게 된다.

4

분석 레이어에서 BI, 애널리틱스 등을 이용해 의사결정에 필요한 데이터분석도 수행한다.

24

Multiple Choice

다음 중 ETL의 기능으로 가장 적절하지 않은 것은?

1

데이터의 크기 확대

2

도메인 검증

3

데이터 키 값의 재구성

4

불필요한 데이터 삭제 및 중복 데이터 삭제

25

Multiple Choice

다음 중 정형 데이터로 변환하는 과정에 대한 설명 중 적절한 것은?

1

데이터 변환을 하려면 데이터 구조의 정의보다 먼저 데이터 수집 절차와 관련된 수행 코드를 정의하여야 한다.

2

태그로 둘러싸인 웹페이지 정보의 경우에는 태그를 제외한 대상 데이터를 모두 추출하여야 한다.

3

수집 및 추출 대상이 되는 정보의 위치 및 정보의 구조를 확인한 후 해당 데이터를 추출한다.

4

수집한 데이터 중 비정형 데이터만 정형 데이터로 변환할 수 있기에 비정형 데이터만 추출하여 별도 저장한다.

26

Multiple Choice

다음 중 데이터 비식별화와 관련된 설명으로 가장 적절하지 않은 것은?

1

데이터 비식별화는 2020년 8월 데이터 3법의 시행으로 인해 빅데이터 관련 산업의 관심이 집중되고 있는 분야이다.

2

비식별화는 데이터 그 자체로서 개인을 식별할 수 있는 정보만을 대상으로 한다.

3

데이터 비식별화는 프라이버시 침해를 최소화하면서도 빅데이터 분석 기술의 효용을 극대화 할 수 있는 개인정보 활용을 위해 고안되었다.

4

이름, 군번, 계좌번호 등의 데이터는 데이터 비식별화가 필요한 대상이다.

27

Multiple Choice

데이터는 개인정보 식별 측면에서 식별자와 준식별자로 구분된다. 다음 중 성격이 다른 것은?

1

홍채

2

혈압

3

진료내역

4

허리둘레

28

Multiple Choice

다음 예시에 해당하는 데이터 비식별 처리 기법으로 올바른 것은?

====================================================

홍길동, 25세, 부산 거주 한국대 재학 - 홍OO, 25세, 부산 거주, OO대학 재학

1

데이터 마스킹

2

가명처리

3

데이터 범주화

4

총계처리

29

Multiple Choice

다음 예시에 해당하는 데이터 비식별 처리 기법으로 올바른 것은?

===================================================

주민번호 901206-1234567 -> 90년대 생, 남자

1

데이터 마스킹

2

데이터 삭제

3

데이터 범주화

4

총계처리

30

Multiple Choice

다음 중 데이터 비식별화 방법에 대한 설명으로 가장 적절하지 않은 것은?

1

데이터 마스킹 - 개인 식별이 가능한 데이터에 대해 직접적으로 식별할 수 없는 다른 값으로 대체

2

데이터 삭제 - 개인정보 식별이 가능한 특정 데이터 값을 삭제

3

데이터 범주화 - 단일 식별정보를 해당 그룹의 대푯값으로 변환하거나 구간값으로 변환

4

총계처리 - 개인정보에 대하여 통계값을 적용하여 특정 개인을 판단할 수 없도록 함

31

Multiple Choice

다음 중 데이터 비식별 처리 기법 중 하나인 총계처리 기법의 세부기술로 가장 적절하지 않은 것은?

1

총계처리

2

부분총계

3

재배열

4

교환 방법

32

Multiple Choice

다음 중 식별자 처리의 세부기술과 특징을 연결한 것으로 가장 적절한 것은?

=============================================================

가) 라운딩 - 집계 처리된 값에 대해 라운딩 기준을 적용해 최종 집계처리하는 방법으로, 세세한 정보 보다는 전체 통계정보가 필요한 경우에 주로 사용함.

나) 감추기 - 개인정보에 임의의 숫자 등 잡음을 추가하는 방법

다) 재배열 - 기존 정보값을 유지하면서 개인이 식별되지 않도록 데이터 재배열

라) 식별자 삭제 - 다른 정보와 뚜렷하게 구별되는 레코드 전체를 삭제하는 방법

1

2

3

가, 다

4

가, 다, 라

33

Multiple Choice

다음 중 프라이버시 모델의 대표적 기법에 해당하지 않는 것은?

1

k - 익명성

2

l - 다양성

3

t - 근접성

4

s - 민감성

34

Multiple Choice

다음 중 프라이버시 모델에 대한 설명으로 가장 적절하지 않은 것은?

1

프라이버시 모델이란 다양한 추론 공격에 대해 개인정보 추론 위험 정도를 확률적·정량적 으로 제한하는 방법론을 의미한다.

2

k - 익명성을 통해 한 개인이 k명의 다른 사람들과 구별되지 않도록 민감하지 않은 속성을 수정할 수 있다.

3

l - 다양성을 만족하더라도 모집단에 대비하여 민감정보의 분포 차이를 통해 개인 사생활 정보가 노출되는 문제가 발생할 수 있다.

4

준식별자는 비식별화 기법들에서 변형, 조작의 대상이 되지 않는다.

35

Multiple Choice

다음 중 여러 기관에서 정의한 데이터 품질에 대한 개념으로 가장 적절하지 않은 것은?

1

특정 비즈니스 목적에 특정 사실이 부합하는지 여부를 결정하기 위해 사용되는 객관적인 기준

2

조직 목적 달성을 위해 관리되는 데이터가 데이터 이용자 만족을 충족시킬 수 있는 수준

3

데이터의 최신성, 정확성, 상호연계성을 확보하여 사용자에게 유용한 가치를 줄 수 있는 수준

4

데이터가 관심있는 집단에게 사용되기 위해 요구되는 품질 특성을 충족하도록 보장해주는 일련의 지식체계 및 절차

36

Multiple Choice

다음 중 데이터 품질 관리의 중요성으로 가장 적절하지 않은 것은?

1

데이터 분석결과의 신뢰성 확보

2

데이터 활용도 향상

3

일원화된 프로세스

4

데이터 분석의 용이성

37

Multiple Choice

다음 중 비정형 데이터의 품질 기준으로 적절하지 않은 것은?

1

신뢰성(Reliability)

2

효율성(Efficiency)

3

유효성(Validity)

4

이식성(Portability)

38

Multiple Choice

다음 중 정형 데이터의 품질 기준에 대한 설명으로 가장 적절하지 않은 것은?

1

데이터 항목은 유일해야 하며 중복되어서는 안 됨

2

데이터 항목은 정해진 데이터 유효범위 및 도메인을 충족해야 함

3

데이터가 지켜야 할 구조, 값 표현되는 형태가 일관되게 정의되고 서로 일치해야 함

4

실세계에 존재하는 객체의 표현 값이 정확히 반영이 되지 않아도 됨

39

Multiple Choice

다음 중 품질 진단 방법에 대한 설명으로 적절한 것은?

==========================================

가) 체크리스트 - 전반적인 데이터 품질관리 수준과 지표별 데이터 품질 수준 진단 가능

나) 비정형 실측 - 문서, 이미지, 동영상 등의 정보를 사람이 직접 확인을 통해 오류 여부 진단하는 방법

다) 업무규칙 진단 - 법 규정에 정의된 업무기준에 근거하여 데이터가 관리되고 있는지를 진단하는 방법

1

가, 다

2

가, 나

3

나, 다

4

가, 나, 다

40

Multiple Choice

다음 중 ETL 설계에 대한 설명 중 적절하지 않은 것은?

1

소스시스템 분석 과정에서는 소스데이터 변경에 대한 타임스탬프 관리를 해야한다.

2

데이터 변환 규칙 설정 과정에서는 데이터의 표준화 및 정합성을 위해 오류 데이터 검출, Null 데이터 처리 방안 등의 작업 규칙을 확립해야 한다.

3

타겟 시스템에 적재 시 변환 데이터 식별 가능 여부와 관계 없이 항상 동일한 적재방법만을 사용한다.

4

신뢰성 확보 방안 단계에서 데이터 검증방안을 실행하여 필요 데이터만을 타겟 시스템에 적재 할 수 있도록 한다.

41

Multiple Choice

다음 중 분산 파일 시스템에 대한 설명 중 가장 적절하지 않은 것은?

1

빅데이터의 규모 및 크기로 인해 처리 시간과 비용이 늘어나는 단점을 해결하기 위해 분산 파일 시스템이 필요하다.

2

하둡은 분산 컴퓨팅 환경을 지원하는 가장 대표적인 도구이다.

3

하둡은 간단한 프로그래밍 모델을 이용해서 분산된 다수의 컴퓨터 클러스터에서 대규모의 데이터 세트를 처리할 수 있게 한다.

4

분산 컴퓨팅 시스템은 일부 작업에 문제가 생기는 경우 해당 부분만을 재처리할 수 없다.

42

Multiple Choice

다음 중 HDFS에 대한 설명으로 적절한 것은?

====================================

가) 클라우드 컴퓨팅 환경을 구축하기 위해 이용하며 대용량 데이터의 분산 저장 기능을 제공하는 시스템이다.

나) 다수의 리눅스 서버에 설치되어 페타바이트 이상의 대용량 데이터 저장 공간을 확보할 수 있다.

다) 리눅스 장비를 사용하여 RDBMS에 비해 시스템 구축비용이 저렴하다.

라) 파일 생성, 삭제 수정이 가능하며 사용자의 직접 접근 권한을 지원한다.

1

가, 나

2

가, 나, 다

3

나, 다, 라

4

가, 나, 다, 라

43

Multiple Choice

다음 데이터 저장 기술에 관한 설명에 해당하는 것으로 올바른 것은?

=======================================================

구글 Bigtable을 본보기로 하여 자바 기반으로 개발된 비관계형 데이터베이스

1

HBase

2

HDFS

3

Cassandra

4

GFS

44

Multiple Choice

다음 중 NoSQL에 대한 설명으로 가장 적절하지 않은 것은?

1

RDBMS 중심의 데이터 저장기술로의 비정형 데이터의 저장과 관리의 한계를 극복하기 위해 등장한 새로운 데이터 저장 기술이다.

2

키 값을 이용하여 데이터를 간단하게 저장하고 데이터 저장 및 관리 시 SQL을 사용하지 않는다는 특징이 있다.

3

스키마 없이 동작하며 구조에 대한 정의 변경 없이 자유롭게 데이터베이스의 레코드에 필드를 추가할 수 있다.

4

전통적인 RDBMS의 장점이라고 할 수 있는 JOIN 연산 기능을 지원하여 대용량 데이터 처리와 대규모의 수평적 확장성을 제공한다.

45

Multiple Choice

다음 중 HBase에 대한 설명으로 가장 적절하지 않은 것은?

1

대용량의 데이터를 안정적으로 다루는데 효과적이며 전체 데이터에 대한 일관성을 보장한다.

2

HDFS, MapReduce와 함께 사용하기에 최적화되어 있다.

3

네이버 라인 메신저에 적용하기도 했으며, SQL을 사용하여 확장성이 보장되는 시스템이다.

4

스키마 지정 및 변경 없이 데이터를 저장할 수 있다.

46

Multiple Choice

다음 빅데이터 저장 기술 제품 중 특징이 다른 것은?

1

VoltDB

2

SAP HANA

3

Vertica

4

NAS

47

Multiple Choice

다음 설명에 해당하는 기술로 가장 적절한 것은?

======================================

기존 RDBMS의 주요특성인 ACID는 제공하지 않지만 뛰어난 확장성 및성능을 제공하는 저장 시스템

1

병렬 RDBMS

2

NoSQL

3

분산파일시스템

4

클라우드 파일 저장 시스템

48

Multiple Choice

다음 설명에 해당하는 기술로 가장 적절한 것은?

======================================

NoSQL 데이터베이스로 대용량의 데이터를 온라인에 저장할 수 있는 서비스이며 오픈소스 아파치 HBase용 API를 사용해서 데이터를 읽고 작성할 수 있다.

1

구글 Bigtable

2

Cassandra

3

HDFS

4

Amazon S3

49

Multiple Choice

다음 중 MapReduce에 대한 설명으로 옳지 않은 것은?

1

Hadoop 클러스터의 데이터를 처리하기 위한 시스템으로 여러 노드에 태스크를 분배하는 방법이다.

2

맵과 리듀스라는 2개의 단계로 구성된다.

3

정렬과 같은 작업은 MapReduce를 사용하여 처리하기에 매우 적합하다.

4

맵과 리듀스 사이에는 shuffle과 sort 스테이지가 존재한다.

50

Multiple Choice

빅데이터 저장의 문제점 및 해결방안을 올바르게 짝지은 것은?

==================================================

가) 데이터 저장 및 관리에 많은 비용 소모 - 데이터 저장과 관련해 TCO를 낮출 수 있는 기술력을 보유한다.

나) 저장 용량 한계에 따른 확장의 어려움 - 횡적인 용량 확장의 용이성을 향상시킨다.

다) 다양한 형식 및 대용량 데이터 관리 문제 - 데이터 형식 및 용량에 크게 구애받지 않는 기술적인 여유를 보유한다

1

가, 나

2

나, 다

3

가, 다

4

가, 나, 다

로그데이터 수집 기법의 예로 가장 적절하지 않은 것은?

1

Scribe

2

Flume

3

Web Crawler

4

Chukwa

Show answer

Auto Play

Slide 1 / 50

MULTIPLE CHOICE

Discover more resources for Professional Development