

big_1_1_3
Presentation
•
Professional Development
•
Professional Development
•
Medium
KS K
Used 1+ times
FREE Resource
0 Slides • 50 Questions
1
Multiple Choice
로그데이터 수집 기법의 예로 가장 적절하지 않은 것은?
Scribe
Flume
Web Crawler
Chukwa
2
Multiple Choice
다음 중 여러 빅데이터 수집 기법 중 웹 문서를 수집하는 기법으로 올바른 것은?
크롤링
Streaming
RDB Aggregator
Log Aggregator
3
Multiple Choice
다음 중 빅데이터 수집 기법의 명칭과 특징이 올바르게 연결된 것은?
======================================================
가) 스크래핑 - 인터넷 웹사이트에 노출되는 내용 중 특정 정보만을 추출하고, 추출과 관련된 모든
동작을 자동으로 수행하는 기술
나) RSS - 관계형 데이터베이스에서 정형 데이터를 수집하여 HDFS NoSQL에 저장하는 오픈
소스 기술
다) Log Aggregator - 웹 서버 로그, 웹로그, 트랜잭션 로그, DB 로그 등 각종 서비스 로그 수집
오픈 소스 기술
라) FTP - TCP/IP 프로토콜을 이용하여 인터넷 서버로부터 각종 파일들을 송수신
가, 나
나, 다
다, 라
가, 다, 라
4
Multiple Choice
다음 로그 수집기에 대한 설명 중 가장 적절하지 않은 것은?
Flume은 분산 환경에서 대량의 로그 데이터를 효과적으로 수집하고 합친 후 효율적으로
전송할 수 있는 서비스이다.
Flume은 다양한 장비에서 수집되는 로그 파일 데이터를 HDFS와 같은 중앙저장소에
저장하는 로깅 시스템 구축 시 적합하다.
Scribe는 실시간 스트리밍 로그 데이터 수집 애플리케이션이며 야후에서 채택하여 활용
하였다.
Chukwa는 분산된 노드들의 다양한 로그 데이터를 수집하고 수집된 데이터를 HDFS에
저장하고 분석하기 위한 시스템이다.
5
Multiple Choice
다음 중 크롤링에 관한 설명으로 가장 적절하지 않은 것은?
크롤링은 인터넷 상의 여러 웹페이지에서 html 형식의 데이터만 수집해서 분류하고 저장하는
방법이다.
크롤링의 주요 목적은 데이터가 어디에 저장되어 있는지 위치에 대한 분류작업이다.
크롤링의 종류 중 하나인 웹 로봇은 사람과의 상호작용 없이 연속된 웹 트랜잭션들을
자동으로 수행하는 소프트웨어 프로그램이다.
크롤링의 종류 중 하나인 웹 크롤러는 검색엔진에서 주로 사용하며 방문한 모든 페이지의
복사본을 생성하고 생성된 페이지에 대해 인덱싱을 수행하여 빠른 검색이 가능하다.
6
Multiple Choice
다음 중 빅데이터 수집과 관련된 설명으로 가장 적절하지 않은 것은?
데이터 소스의 위치에 따라 내부 데이터와 외부 데이터로 구분되며 해당 구분에 따라 상이한
방법으로 데이터를 수집할 수 있다.
대표적으로 내부 데이터는 ETL 방식으로 데이터를 수집한다.
내부 데이터는 정형 데이터로 구성되어 있고 외부 데이터는 비정형 데이터로 구성되어 있다.
외부데이터는 주로 크롤링 기법을 활용하여 데이터를 수집한다.
7
Multiple Choice
다음 중 빅데이터 수집 시스템의 요건에 해당하지 않는 것은?
확장성 : 데이터 수집의 대상이 되는 서버는 충분한 확장이 가능해야 한다.
유연성 : 다양한 데이터 원천의 여러 포맷에 적용할 수 있도록 변경이 용이해야 한다.
실시간성 : 수집된 데이터는 실시간으로 반영되어야 한다.
통합성 : 수집 데이터는 자동적으로 통합되어 저장되어야 한다.
8
Multiple Choice
다음 중 정성적 데이터에 관한 설명으로 올바르지 않은 것은?
================================================
가) 정형 데이터의 형태를 가진다.
나) 객체 하나의 함의된 정보를 가진다는 특징이 있다.
다) 주로 내부 시스템에 위치한다.
라) 파일, 웹 등의 형태로 저장된다.
가, 나
나, 다
가, 다
가, 나, 라
9
Multiple Choice
다음 중 정량적 데이터와 가장 거리가 먼 데이터는?
몸무게
강수량
키
신문기사
10
Multiple Choice
다음 데이터가 속하는 데이터의 유형으로 올바른 것은?
===========================================
<'빅데이터 분석기사' 국가기술자격 시험 첫 시행>
국가기술자격으로 신설된 '빅데이터 분석기사 시험이 2020년 12월 첫 시행된다.
자격접수를 위해서는 아래와 같은 응시요건이 필요하다.... (중략)
정형 데이터
비정형 데이터
반정형 데이터
정량적 데이터
11
Multiple Choice
다음 중 반정형 데이터의 종류로 올바르지 않은 것은?
JSON
NoSQL
RSS
XML
12
Multiple Choice
다음 중 구조 관점의 데이터 유형에 관한 설명으로 가장 적절하지 않은 것은?
정형 데이터는 미리 정해 놓은 형식과 구조에 따라 저장되도록 구성된 데이터이다.
반정형 데이터는 스키마가 없으며 값과 형식에서 일관성이 없다는 특징이 있다.
반정형 데이터는 파일에 포함된 메타데이터를 바탕으로 테이블 형태의 데이터 스키마로 변환
하고 데이터를 매핑하여 정형 데이터로 변환할 수 있다.
비정형 데이터는 언어 분석이 가능한 텍스트 데이터나 이미지, 동영상 같은 멀티미디어 데이터
등이 있다.
13
Multiple Choice
다음 중 비정형 데이터에 대한 설명으로 가장 적절하지 않은 것은?
비정형 데이터는 일반적으로 정의된 구조가 없이 정형화되지 않은 데이터이다.
웹에 존재하는 모든 데이터는 비정형 데이터이다.
텍스트 데이터는 전처리를 위해 자연어 처리 기법을 주로 사용한다.
비정형 데이터의 수집 기술은 데이터 세트가 아니라 객체화되어 있는 하나의 데이터이다.
14
Multiple Choice
다음 중 정형 데이터의 수집 기술로 가장 적절하지 않은 것은?
Open API
FTP
ETL
Crawling
15
Multiple Choice
다음 중 데이터 유형별 수집 및 잠재가치에 관한 설명 중 가장 적절하지 않은 것은?
정형데이터는 내부 시스템인 경우가 대부분이며 내부 데이터 특성 상 활용면에서 잠재적
가치는 상대적으로 낮다.
반정형 데이터는 보통 데이터 제공자가 선별하여 API 형태로 제공한다.
비정형 데이터는 텍스트 마이닝 혹은 파일일 경우 파일을 데이터 형태로 파싱해야한다.
반정형 데이터는 수집주체에 의해 데이터 분석이 선행되었기 때문에 목적론적 데이터 특징이
가장 잘 나타나는 데이터이다.
16
Multiple Choice
다음 중 데이터 수집 난이도를 어려운 순서로 나열한 것은?
정형 - 반정형 - 비정형
반정형 - 비정형 - 정형
비정형 - 정형 - 반정형
비정형 - 반정형 - 정형
17
Multiple Choice
다음 중 데이터 유형과 그 종류를 연결한 것 중 가장 적절하지 않은 것은?
실시간 데이터 - 센서 데이터
실시간 데이터 - 보안장비 로그
비실시간 데이터 - 시스템 로그
비실시간 데이터 - 웹 로그
18
Multiple Choice
다음 중 저장 형태 관점에서 데이터를 구분한 종류 중 가장 적절하지 않은 것은?
파일 데이터
데이터 베이스 데이터
배치 데이터
스트림 데이터
19
Multiple Choice
다음 중 저장 형태에 따라 데이터를 분류하였을 때, 콘텐츠 데이터의 종류에 해당하지 않는 것은?
센서
텍스트
이미지
오디오
20
Multiple Choice
다음은 저장 형태 관점에 따른 데이터 유형에 대한 설명이다. 데이터에 대한 설명 중 가장 적절하지
않은 것은?
스트림 데이터는 개별적으로 데이터 객체로 구분될 수 있는 미디어 데이터를 의미한다.
스트림 데이터는 네트워크를 통해서 실시간으로 전송되는 특징이 있다.
파일 데이터는 시스템 로그, 서비스 로그, 텍스트, 스프레드시트 등이 있다.
데이터베이스 데이터는 데이터베이스 컬럼 또는 테이블 등에 저장된 데이터를 의미한다.
21
Multiple Choice
ETL을 표현하는 핵심 단어에 대한 설명 중 가장 적절한 것은?
추출 : 변환된 데이터를 특정 목표 시스템에 적재
변환 : 데이터 클렌징, 표준화, 형식변환, 통합, 다수 애플리케이션에 내장된 비즈니스 룰 적용
적재 : 하나 또는 그 이상의 데이터 원천으로부터 데이터 획득
작업단위 : 획득한 데이터를 목표 시스템에 적재하는 하나의 작업
22
Multiple Choice
다음 중 ETL에 대한 설명으로 가장 적절한 것은?
======================================
가) 데이터의 이동 및 변환 절차와 관련된 업계 표준용어이다.
나) 데이터 통합, 이동, 마스터 데이터 관리 등의 작업을 위해서도 활용된다.
다) 구현을 위한 다양한 상용 소프트웨어가 있으며 일괄 ETL과 실시간 ETL로 구분된다.
라) 다양한 시스템들 간 대용량의 데이터 교환이 필요하거나 복잡한 비즈니스 룰이 적용되는 데이터 교환이 필요한 경우에 활용된다.
가,나
가, 라
가, 나, 다
가, 나, 다, 라
23
Multiple Choice
다음 중 데이터웨어하우스 기반으로 데이터 관리가 이루어지는 경우에 관한 설명 중 가장 적절하지 않은 것은?
데이터의 수집, 관리, 분석의 역할을 위해 3개의 레이어로 구성된다.
소스 레이어는 데이터 수집과 관련된 것으로 다양한 원천으로부터 데이터를 수집한다.
DW 레이어에서 분석레이어로 데이터가 전달되기 전에 우선 ETL 과정을 거치게 된다.
분석 레이어에서 BI, 애널리틱스 등을 이용해 의사결정에 필요한 데이터분석도 수행한다.
24
Multiple Choice
다음 중 ETL의 기능으로 가장 적절하지 않은 것은?
데이터의 크기 확대
도메인 검증
데이터 키 값의 재구성
불필요한 데이터 삭제 및 중복 데이터 삭제
25
Multiple Choice
다음 중 정형 데이터로 변환하는 과정에 대한 설명 중 적절한 것은?
데이터 변환을 하려면 데이터 구조의 정의보다 먼저 데이터 수집 절차와 관련된 수행 코드를 정의하여야 한다.
태그로 둘러싸인 웹페이지 정보의 경우에는 태그를 제외한 대상 데이터를 모두 추출하여야 한다.
수집 및 추출 대상이 되는 정보의 위치 및 정보의 구조를 확인한 후 해당 데이터를 추출한다.
수집한 데이터 중 비정형 데이터만 정형 데이터로 변환할 수 있기에 비정형 데이터만 추출하여 별도 저장한다.
26
Multiple Choice
다음 중 데이터 비식별화와 관련된 설명으로 가장 적절하지 않은 것은?
데이터 비식별화는 2020년 8월 데이터 3법의 시행으로 인해 빅데이터 관련 산업의 관심이 집중되고 있는 분야이다.
비식별화는 데이터 그 자체로서 개인을 식별할 수 있는 정보만을 대상으로 한다.
데이터 비식별화는 프라이버시 침해를 최소화하면서도 빅데이터 분석 기술의 효용을 극대화 할 수 있는 개인정보 활용을 위해 고안되었다.
이름, 군번, 계좌번호 등의 데이터는 데이터 비식별화가 필요한 대상이다.
27
Multiple Choice
데이터는 개인정보 식별 측면에서 식별자와 준식별자로 구분된다. 다음 중 성격이 다른 것은?
홍채
혈압
진료내역
허리둘레
28
Multiple Choice
다음 예시에 해당하는 데이터 비식별 처리 기법으로 올바른 것은?
====================================================
홍길동, 25세, 부산 거주 한국대 재학 - 홍OO, 25세, 부산 거주, OO대학 재학
데이터 마스킹
가명처리
데이터 범주화
총계처리
29
Multiple Choice
다음 예시에 해당하는 데이터 비식별 처리 기법으로 올바른 것은?
===================================================
주민번호 901206-1234567 -> 90년대 생, 남자
데이터 마스킹
데이터 삭제
데이터 범주화
총계처리
30
Multiple Choice
다음 중 데이터 비식별화 방법에 대한 설명으로 가장 적절하지 않은 것은?
데이터 마스킹 - 개인 식별이 가능한 데이터에 대해 직접적으로 식별할 수 없는 다른 값으로 대체
데이터 삭제 - 개인정보 식별이 가능한 특정 데이터 값을 삭제
데이터 범주화 - 단일 식별정보를 해당 그룹의 대푯값으로 변환하거나 구간값으로 변환
총계처리 - 개인정보에 대하여 통계값을 적용하여 특정 개인을 판단할 수 없도록 함
31
Multiple Choice
다음 중 데이터 비식별 처리 기법 중 하나인 총계처리 기법의 세부기술로 가장 적절하지 않은 것은?
총계처리
부분총계
재배열
교환 방법
32
Multiple Choice
다음 중 식별자 처리의 세부기술과 특징을 연결한 것으로 가장 적절한 것은?
=============================================================
가) 라운딩 - 집계 처리된 값에 대해 라운딩 기준을 적용해 최종 집계처리하는 방법으로, 세세한 정보 보다는 전체 통계정보가 필요한 경우에 주로 사용함.
나) 감추기 - 개인정보에 임의의 숫자 등 잡음을 추가하는 방법
다) 재배열 - 기존 정보값을 유지하면서 개인이 식별되지 않도록 데이터 재배열
라) 식별자 삭제 - 다른 정보와 뚜렷하게 구별되는 레코드 전체를 삭제하는 방법
가
다
가, 다
가, 다, 라
33
Multiple Choice
다음 중 프라이버시 모델의 대표적 기법에 해당하지 않는 것은?
k - 익명성
l - 다양성
t - 근접성
s - 민감성
34
Multiple Choice
다음 중 프라이버시 모델에 대한 설명으로 가장 적절하지 않은 것은?
프라이버시 모델이란 다양한 추론 공격에 대해 개인정보 추론 위험 정도를 확률적·정량적 으로 제한하는 방법론을 의미한다.
k - 익명성을 통해 한 개인이 k명의 다른 사람들과 구별되지 않도록 민감하지 않은 속성을 수정할 수 있다.
l - 다양성을 만족하더라도 모집단에 대비하여 민감정보의 분포 차이를 통해 개인 사생활 정보가 노출되는 문제가 발생할 수 있다.
준식별자는 비식별화 기법들에서 변형, 조작의 대상이 되지 않는다.
35
Multiple Choice
다음 중 여러 기관에서 정의한 데이터 품질에 대한 개념으로 가장 적절하지 않은 것은?
특정 비즈니스 목적에 특정 사실이 부합하는지 여부를 결정하기 위해 사용되는 객관적인 기준
조직 목적 달성을 위해 관리되는 데이터가 데이터 이용자 만족을 충족시킬 수 있는 수준
데이터의 최신성, 정확성, 상호연계성을 확보하여 사용자에게 유용한 가치를 줄 수 있는 수준
데이터가 관심있는 집단에게 사용되기 위해 요구되는 품질 특성을 충족하도록 보장해주는 일련의 지식체계 및 절차
36
Multiple Choice
다음 중 데이터 품질 관리의 중요성으로 가장 적절하지 않은 것은?
데이터 분석결과의 신뢰성 확보
데이터 활용도 향상
일원화된 프로세스
데이터 분석의 용이성
37
Multiple Choice
다음 중 비정형 데이터의 품질 기준으로 적절하지 않은 것은?
신뢰성(Reliability)
효율성(Efficiency)
유효성(Validity)
이식성(Portability)
38
Multiple Choice
다음 중 정형 데이터의 품질 기준에 대한 설명으로 가장 적절하지 않은 것은?
데이터 항목은 유일해야 하며 중복되어서는 안 됨
데이터 항목은 정해진 데이터 유효범위 및 도메인을 충족해야 함
데이터가 지켜야 할 구조, 값 표현되는 형태가 일관되게 정의되고 서로 일치해야 함
실세계에 존재하는 객체의 표현 값이 정확히 반영이 되지 않아도 됨
39
Multiple Choice
다음 중 품질 진단 방법에 대한 설명으로 적절한 것은?
==========================================
가) 체크리스트 - 전반적인 데이터 품질관리 수준과 지표별 데이터 품질 수준 진단 가능
나) 비정형 실측 - 문서, 이미지, 동영상 등의 정보를 사람이 직접 확인을 통해 오류 여부 진단하는 방법
다) 업무규칙 진단 - 법 규정에 정의된 업무기준에 근거하여 데이터가 관리되고 있는지를 진단하는 방법
가, 다
가, 나
나, 다
가, 나, 다
40
Multiple Choice
다음 중 ETL 설계에 대한 설명 중 적절하지 않은 것은?
소스시스템 분석 과정에서는 소스데이터 변경에 대한 타임스탬프 관리를 해야한다.
데이터 변환 규칙 설정 과정에서는 데이터의 표준화 및 정합성을 위해 오류 데이터 검출, Null 데이터 처리 방안 등의 작업 규칙을 확립해야 한다.
타겟 시스템에 적재 시 변환 데이터 식별 가능 여부와 관계 없이 항상 동일한 적재방법만을 사용한다.
신뢰성 확보 방안 단계에서 데이터 검증방안을 실행하여 필요 데이터만을 타겟 시스템에 적재 할 수 있도록 한다.
41
Multiple Choice
다음 중 분산 파일 시스템에 대한 설명 중 가장 적절하지 않은 것은?
빅데이터의 규모 및 크기로 인해 처리 시간과 비용이 늘어나는 단점을 해결하기 위해 분산 파일 시스템이 필요하다.
하둡은 분산 컴퓨팅 환경을 지원하는 가장 대표적인 도구이다.
하둡은 간단한 프로그래밍 모델을 이용해서 분산된 다수의 컴퓨터 클러스터에서 대규모의 데이터 세트를 처리할 수 있게 한다.
분산 컴퓨팅 시스템은 일부 작업에 문제가 생기는 경우 해당 부분만을 재처리할 수 없다.
42
Multiple Choice
다음 중 HDFS에 대한 설명으로 적절한 것은?
====================================
가) 클라우드 컴퓨팅 환경을 구축하기 위해 이용하며 대용량 데이터의 분산 저장 기능을 제공하는 시스템이다.
나) 다수의 리눅스 서버에 설치되어 페타바이트 이상의 대용량 데이터 저장 공간을 확보할 수 있다.
다) 리눅스 장비를 사용하여 RDBMS에 비해 시스템 구축비용이 저렴하다.
라) 파일 생성, 삭제 수정이 가능하며 사용자의 직접 접근 권한을 지원한다.
가, 나
가, 나, 다
나, 다, 라
가, 나, 다, 라
43
Multiple Choice
다음 데이터 저장 기술에 관한 설명에 해당하는 것으로 올바른 것은?
=======================================================
구글 Bigtable을 본보기로 하여 자바 기반으로 개발된 비관계형 데이터베이스
HBase
HDFS
Cassandra
GFS
44
Multiple Choice
다음 중 NoSQL에 대한 설명으로 가장 적절하지 않은 것은?
RDBMS 중심의 데이터 저장기술로의 비정형 데이터의 저장과 관리의 한계를 극복하기 위해 등장한 새로운 데이터 저장 기술이다.
키 값을 이용하여 데이터를 간단하게 저장하고 데이터 저장 및 관리 시 SQL을 사용하지 않는다는 특징이 있다.
스키마 없이 동작하며 구조에 대한 정의 변경 없이 자유롭게 데이터베이스의 레코드에 필드를 추가할 수 있다.
전통적인 RDBMS의 장점이라고 할 수 있는 JOIN 연산 기능을 지원하여 대용량 데이터 처리와 대규모의 수평적 확장성을 제공한다.
45
Multiple Choice
다음 중 HBase에 대한 설명으로 가장 적절하지 않은 것은?
대용량의 데이터를 안정적으로 다루는데 효과적이며 전체 데이터에 대한 일관성을 보장한다.
HDFS, MapReduce와 함께 사용하기에 최적화되어 있다.
네이버 라인 메신저에 적용하기도 했으며, SQL을 사용하여 확장성이 보장되는 시스템이다.
스키마 지정 및 변경 없이 데이터를 저장할 수 있다.
46
Multiple Choice
다음 빅데이터 저장 기술 제품 중 특징이 다른 것은?
VoltDB
SAP HANA
Vertica
NAS
47
Multiple Choice
다음 설명에 해당하는 기술로 가장 적절한 것은?
======================================
기존 RDBMS의 주요특성인 ACID는 제공하지 않지만 뛰어난 확장성 및성능을 제공하는 저장 시스템
병렬 RDBMS
NoSQL
분산파일시스템
클라우드 파일 저장 시스템
48
Multiple Choice
다음 설명에 해당하는 기술로 가장 적절한 것은?
======================================
NoSQL 데이터베이스로 대용량의 데이터를 온라인에 저장할 수 있는 서비스이며 오픈소스 아파치 HBase용 API를 사용해서 데이터를 읽고 작성할 수 있다.
구글 Bigtable
Cassandra
HDFS
Amazon S3
49
Multiple Choice
다음 중 MapReduce에 대한 설명으로 옳지 않은 것은?
Hadoop 클러스터의 데이터를 처리하기 위한 시스템으로 여러 노드에 태스크를 분배하는 방법이다.
맵과 리듀스라는 2개의 단계로 구성된다.
정렬과 같은 작업은 MapReduce를 사용하여 처리하기에 매우 적합하다.
맵과 리듀스 사이에는 shuffle과 sort 스테이지가 존재한다.
50
Multiple Choice
빅데이터 저장의 문제점 및 해결방안을 올바르게 짝지은 것은?
==================================================
가) 데이터 저장 및 관리에 많은 비용 소모 - 데이터 저장과 관련해 TCO를 낮출 수 있는 기술력을 보유한다.
나) 저장 용량 한계에 따른 확장의 어려움 - 횡적인 용량 확장의 용이성을 향상시킨다.
다) 다양한 형식 및 대용량 데이터 관리 문제 - 데이터 형식 및 용량에 크게 구애받지 않는 기술적인 여유를 보유한다
가, 나
나, 다
가, 다
가, 나, 다
로그데이터 수집 기법의 예로 가장 적절하지 않은 것은?
Scribe
Flume
Web Crawler
Chukwa
Show answer
Auto Play
Slide 1 / 50
MULTIPLE CHOICE
Similar Resources on Wayground
50 questions
big_1_2_3
Presentation
•
Professional Development
33 questions
생물의 특성
Presentation
•
11th Grade
50 questions
big_1_1_2
Presentation
•
Professional Development
35 questions
현대일본의사회와문화(3주)
Presentation
•
University
32 questions
CBL_순환기계
Presentation
•
University - Professi...
56 questions
찾아가는 학교 컨설팅
Presentation
•
Professional Development
45 questions
2차시 군집
Presentation
•
11th Grade
51 questions
2차시 개체군
Presentation
•
11th Grade
Popular Resources on Wayground
20 questions
STAAR Review Quiz #3
Quiz
•
8th Grade
20 questions
Equivalent Fractions
Quiz
•
3rd Grade
6 questions
Marshmallow Farm Quiz
Quiz
•
2nd - 5th Grade
20 questions
Main Idea and Details
Quiz
•
5th Grade
20 questions
Context Clues
Quiz
•
6th Grade
20 questions
Inferences
Quiz
•
4th Grade
19 questions
Classifying Quadrilaterals
Quiz
•
3rd Grade
12 questions
What makes Nebraska's government unique?
Quiz
•
4th - 5th Grade