
📊 빅데이터분석기사 1과목 출제 유형 분석
1과목 주요 출제 영역
- 빅데이터의 이해 (빅데이터 특징, 활용사례, 플랫폼)
- 데이터 분석 계획 (분석 방법론, 프로젝트 관리)
- 데이터 수집 및 저장 계획 (수집 방법, 저장 기술, 개인정보보호)
1과목 출제 경향
- 개념 정의 문제 50%
- 기술 특징 및 차이점 30%
- 법규 및 윤리 20%
📝 빅데이터분석기사 복원 기출문제 (10회 1과목)
빅데이터분석기사 기출 문제 1. 빅데이터분석과 관련된 내용 중 옳지 않은 것은?
- JDBC는 자바 애플리케이션에서 데이터베이스에 접근하기 위한 인터페이스이다
- OLAP는 분석을 위한 툴이다
- NoSQL은 관계형 데이터베이스가 아닌 데이터 저장 기술이다
- 하둡은 대용량 데이터 처리를 위한 분산 컴퓨팅 프레임워크이다
정답: 1)
해설 : JDBC는 자바 애플리케이션에서 관계형 데이터베이스에 접근하기 위한 표준 API로, 기술적으로는 정확한 설명입니다. 하지만 OLAP(온라인 분석 처리), NoSQL(빅데이터 저장), 하둡(분산 처리)은 모두 빅데이터 분석 및 처리에 특화된 기술인 반면, JDBC는 빅데이터 분석 기술 자체라기보다는 전통적인 데이터베이스 연결 기술에 가깝습니다. 따라서 빅데이터 분석과의 직접적 연관성이 상대적으로 낮습니다.
빅데이터분석기사 기출 문제 2. 분석조직의 유형 중 집중형 구조의 특징이 아닌 것은?
- 중앙 집중식 데이터 관리가 가능하다
- 분석결과를 집약해 가장 빠르게 저장 가능하다
- 시스템 확장성이 제한적이다
- 단일 장애점(SPOF) 위험이 존재한다
정답: 2)
해설: 분석조직의 집중형 구조는 중앙 집중식 관리의 장점이 있지만, 분석결과를 가장 빠르게 저장한다는 것은 틀린 설명입니다. 오히려 분산형 구조에서 병렬 처리를 통해 더 빠른 저장과 처리가 가능합니다. 집중형 구조는 확장성 제한과 SPOF 위험이 있는 것이 특징입니다.

빅데이터분석기사 기출 문제 3. 개인정보에 대한 설명 중 틀린 것은?
- 개인정보는 살아있는 개인에 관한 정보를 말한다
- 가명처리된 정보도 개인정보에 해당한다
- 개인정보는 최소한으로 수집해야 한다
- CCTV 영상정보는 개인정보에 해당하지 않는다
정답: 4)
해설: CCTV 영상정보는 특정 개인을 식별할 수 있는 정보로 개인정보보호법상 개인정보에 해당합니다. 개인의 얼굴, 행동 등이 기록되어 개인 식별이 가능하므로 개인정보로 분류되며, 처리 시 적법한 근거와 적절한 보호조치가 필요합니다. 참고로 주민등록번호, 운전면허번호 등도 고유식별정보로 개인정보에 포함됩니다.
빅데이터분석기사 기출 문제 4. 빅데이터의 문제점 중 책임원칙에 해당하는 것은?
- 사생활 침해로 인한 프라이버시 문제
- 빅브라더의 현실 감시 문제
- 데이터 분석 결과에 대한 책임 소재 불분명
- 알고리즘 편향으로 인한 차별 문제
정답: 3)
해설: 빅데이터의 3대 위기요인은 ①사생활 침해(개인정보 침해), ②책임원칙 훼손(책임 소재 불분명), ③알고리즘 오용(결과 편향)입니다. 보기 3)의 ‘데이터 분석 결과에 대한 책임 소재 불분명’은 알고리즘이 복잡해지면서 의사결정 과정이 블랙박스화되어 결과에 대한 책임을 누가 져야 하는지 불분명해지는 책임원칙 훼손 문제에 해당합니다.

빅데이터분석기사 기출 문제 5. 비즈니스 분석방법 절차 중 분석기획의 순서로 맞는 것은?
- 문제 정의 → 현황 분석 → 목표 설정 → 성과 측정
- 비즈니스 이해 → 프로젝트 정의 → 수행 계획 → 위험 계획 수립
- 데이터 수집 → 전처리 → 모델링 → 평가
- 요구사항 분석 → 설계 → 구현 → 테스트
정답: 2)
해설: 비즈니스 분석방법에서 분석기획 단계는 ①비즈니스 이해 → ②프로젝트 정의 → ③수행 계획 → ④위험 계획 수립 순서로 진행됩니다. 이는 체계적인 프로젝트 접근 방식을 따르는 것으로, CRISP-DM이나 KDD Process와 같은 실무 방법론에서도 유사한 순서를 제시합니다.

빅데이터분석기사 기출 문제 6. 개인정보를 익명처리했을 경우 틀린 설명은?
- 익명처리는 개인을 더 이상 식별할 수 없도록 하는 조치이다
- 익명처리된 정보는 개인정보보호법 적용 대상이 아니다
- 통계 작성이나 학술연구 목적으로 활용 가능하다
- 재식별이 절대 불가능하므로 추가 관리가 불필요하다
정답: 4)
해설: 익명처리된 정보는 원칙적으로 개인정보보호법의 적용 대상이 아니며, 통계 작성이나 학술연구 등에 자유롭게 활용할 수 있습니다. 하지만 보기 4)는 틀린 설명입니다. 기술 발전과 다른 데이터와의 결합을 통해 재식별될 위험이 항상 존재하므로, 지속적인 모니터링과 관리가 필요합니다. 특히 빅데이터 환경에서는 재식별 위험이 더욱 높아집니다.
빅데이터분석기사 기출 문제 7. 다음 중 데이터에 대한 설명으로 틀린 것은?
- 데이터는 일반적으로 정형, 비정형, 반정형 데이터로 구분된다
- 비정형 데이터는 텍스트, 음성, 영상 등 특정한 구조가 없는 데이터이다
- 반정형 데이터는 구조화 형태를 발견할 수 없다
- 관계형 데이터베이스는 정형 데이터를 저장한다
정답: 3)
해설: 반정형 데이터는 XML, JSON처럼 일정한 구조나 스키마는 가지고 있지만 관계형 데이터베이스와 같은 완전한 구조를 갖지 않은 데이터입니다. ‘구조화 형태를 발견할 수 없다’는 것은 비정형 데이터의 특징입니다.
빅데이터분석기사 기출 문제 8. 빅데이터 플랫폼의 처리 매체 노드 모듈, 저장소 관리는 어떤 계층에 해당하는가?
- 인프라스트럭처 계층
- 플랫폼 계층
- 소프트웨어 계층
- 애플리케이션 계층
정답: 1)
해설: 빅데이터 플랫폼의 3계층 구조에서 인프라스트럭처 계층은 물리적/가상적 컴퓨팅 자원(노드), 네트워크, 스토리지 관리 등 하드웨어 자원을 제공하는 최하위 계층입니다. 플랫폼 계층은 Hadoop, Spark 같은 분산 처리 프레임워크가, 소프트웨어 계층은 분석 도구와 애플리케이션이 위치합니다.

빅데이터분석기사 기출 문제 9. 다음 중 웹 데이터를 수집하는 방법과 그 설명이 잘못된 것은?
- 로그 분석: 웹 서버 로그를 분석하여 사용자 행동 파악
- 웹 크롤링: 웹사이트를 자동으로 탐색하여 데이터 수집
- FTP: 웹 로그 데이터 수집 방법
- API: 소셜미디어나 웹 서비스에서 제공하는 인터페이스 활용
정답: 3)
해설: FTP(File Transfer Protocol)는 파일 전송 프로토콜로 웹 데이터 수집 방법이 아닙니다. 웹 데이터 수집은 주로 웹 크롤링, API 활용, 로그 분석, 웹 스크래핑 등을 통해 이루어집니다.
빅데이터분석기사 기출 문제 10. 데이터 특징 아닌 것은?
- 일관성: 동일한 데이터가 시스템 전반에서 일관되게 처리되어야 한다
- 정확성: 데이터가 현실 세계의 정확한 상황을 올바르게 표현되어야 한다
- 적시성: 데이터를 사용자가 필요한 시점에 적절하게 제공되어야 한다
- 완전성: 전체 대류 용량 특성에 대한 설명이 시청되어 있어야 한다
정답: 4)
해설: 데이터 품질의 핵심 특성은 정확성(Accuracy), 완전성(Completeness), 일관성(Consistency), 적시성(Timeliness), 유효성(Validity) 등입니다. 보기 4)는 문장 자체가 어색하고 의미가 불분명합니다. 완전성은 누락된 데이터 없이 모든 필요한 데이터가 존재해야 함을 의미합니다.
빅데이터분석기사 기출 문제 11. 정보를 추가하거나 결합해야만 개인을 식별할 수 있는 정보는 무엇인가?
- 가명정보
- 개인식별정보
- 민감정보
- 고유식별정보
정답: 1)
해설: 가명정보는 추가 정보의 사용·결합 없이는 특정 개인을 알아볼 수 없도록 처리한 정보를 말합니다. 다른 정보와 결합하면 개인 식별이 가능하지만, 단독으로는 개인을 식별할 수 없는 정보입니다. 가명정보는 개인정보의 한 유형으로 개인정보보호법의 적용을 받습니다.

빅데이터분석기사 기출 문제 12. 빅데이터 활용을 업무와 서비스로 구분할 때 서비스에 해당하는 것은?
- 업무 프로세스 개선
- 의사결정 지원
- 데이터 정보 제공
- 내부 효율성 향상
정답: 3)
해설: 빅데이터 활용을 업무와 서비스로 구분할 때, 데이터 정보 제공은 외부 고객이나 사용자에게 제공하는 서비스에 해당합니다. 나머지 선택지들은 모두 조직 내부의 업무 개선에 해당합니다.
빅데이터분석기사 기출 문제 13. 분석 과제의 성격에 따른 4가지 분석 주제 유형에 대한 설명으로 가장 거리가 먼 것은?
- 최적화 (Optimization): 분석 대상과 방법을 모두 명확히 알고 있을 때, 최적의 결과를 도출하는 것을 목표로 한다.
- 통찰 (Insight): 분석 대상은 명확하지만 방법을 모를 때, 새로운 관점이나 패턴을 발견하고자 한다.
- 발견 (Discovery): 분석 대상은 모르지만 분석 방법은 알고 있을 때, 해당 방법을 적용할 새로운 대상을 탐색한다.
- 탐색 (Exploration): 분석 대상과 방법을 모두 알고 있을 때, 광범위한 탐색을 통해 유의미한 관계를 찾는다.
정답: 4)
해설 : 분석 주제의 4가지 유형은 분석 대상(What)과 방법(How)을 알고 있는지에 따라 나뉩니다.
- 최적화 (Optimization): 대상(O), 방법(O)
- 통찰 (Insight): 대상(O), 방법(X)
- 발견 (Discovery): 대상(X), 방법(O)
- 탐색 (Exploration): 대상(X), 방법(X)
4번 보기는탐색(Exploration)에 대한 설명이 틀렸습니다. 탐색은 분석 대상과 방법을 모두 모를 때 광범위하게 접근하여 문제 자체를 정의하는 단계입니다. “대상과 방법을 모두 알고 있을 때”는 최적화(Optimization)에 해당합니다.
빅데이터분석기사 기출 문제 14. 데이터레이크의 특징이 아닌 것은?
- 확장성이 뛰어나다
- 유연한 데이터 저장이 가능하다
- 비용 효율성이 높다
- 구조화된 스키마가 필요하다
정답: 4)
해설: 데이터레이크는 원시 데이터를 스키마 없이 저장하는 스키마 온 리드(Schema on Read) 방식을 사용합니다. 미리 정의된 구조화된 스키마는 데이터웨어하우스의 특징(스키마 온 라이트)입니다. 데이터레이크는 유연성, 확장성, 비용 효율성이 장점입니다.
빅데이터분석기사 기출 문제 15. 사전에 훈련된 모델을 재사용하는 방식은?
- 지도학습
- 비지도학습
- 강화학습
- 전이학습
정답: 4)
해설: 전이학습(Transfer Learning)은 하나의 도메인에서 학습된 모델을 다른 도메인에 적용하는 기계학습 방법입니다. 사전 훈련된 모델의 지식을 새로운 작업에 전이하여 활용하는 방식으로, 학습 시간과 데이터 양을 크게 줄일 수 있습니다.
빅데이터분석기사 기출 문제 16. 개인정보 보호로 옳지 않은 것은?
- 목적을 명확히 해야 한다
- 최소한으로 수집해야 한다
- 개인정보를 최대한 수집해야 한다
- 정확성을 보장해야 한다
정답: 3)
해설: 개인정보보호법의 기본 원칙 중 하나는 ‘최소수집 원칙’으로, 수집 목적에 필요한 최소한의 개인정보만 수집해야 합니다. ‘개인정보를 최대한 수집’하는 것은 개인정보보호법 위반입니다. 목적 명확화, 최소 수집, 정확성 보장은 모두 개인정보 처리 원칙입니다.
빅데이터분석기사 기출 문제 17. 데이터사이언티스트의 역할이 아닌 것은?
- 데이터분석과 연구관리
- 비즈니스 문제 해결
- 모델 개발 및 구현
- 하드웨어 인프라 구축
정답: 4)
해설: 데이터사이언티스트는 데이터 분석, 모델링, 비즈니스 문제 해결, 연구 관리가 주요 역할입니다. 하드웨어 인프라 구축은 시스템 엔지니어나 인프라 팀의 역할로, 데이터사이언티스트의 직접적인 업무 영역이 아닙니다.
빅데이터분석기사 기출 문제 18. WBS는 어떤 단계에 해당되는가?
- 프로젝트 분석 계획수립
- 요구사항 분석
- 시스템 설계
- 구현 및 테스트
정답: 1)
해설: WBS(Work Breakdown Structure, 작업분해구조)는 프로젝트의 전체 작업을 계층적으로 세분화하여 관리 가능한 단위로 나누는 것으로, 프로젝트 계획수립 단계에서 사용되는 핵심 기법입니다.
빅데이터분석기사 기출 문제 19. 아래 내용 중 옳은 것은?
- FGI는 전문가들을 통하여 도출을 하져 한다
- 브레인스토밍은 자유로운 발상을 통한 아이디어 도출이다
- 델파이 기법은 면대면 토론을 통한 합의이다
- 로드맵 기법은 과거 데이터 분석을 통한 예측이다
정답: 2)
해설: 브레인스토밍은 자유로운 분위기에서 창의적 아이디어를 도출하는 기법입니다. FGI(Focus Group Interview)는 특정 주제에 대한 소그룹 인터뷰, 델파이 기법은 전문가들의 익명 의견 수렴(면대면이 아님), 로드맵은 전략적 계획 수립 기법입니다.
빅데이터분석기사 기출 문제 20. 인공지능에 대한 설명 잘못된 것은?
- 인공지능은 추상적인 학습이 필요하다
- 기계학습은 데이터로부터 패턴을 학습한다
- 딥러닝은 신경망을 활용한 학습 방법이다
- 인공지능은 인간의 지능을 모방하려는 기술이다
정답: 1)
해설: 인공지능은 ‘추상적인’ 학습이 아니라 구체적인 데이터와 알고리즘을 통한 학습이 필요합니다. 머신러닝은 실제 데이터를 기반으로 경험적 학습 과정을 거치며, 명확한 수치 데이터나 패턴을 통해 모델을 구축합니다. 추상적 학습보다는 데이터 기반의 구체적 학습이 핵심입니다.
💡 1과목 핵심 학습 포인트
🔑 필수 암기 개념
- 빅데이터 특징: 3V(Volume, Velocity, Variety) + 4V(Value/Veracity 추가)
- 데이터 유형: 정형(구조화), 반정형(XML/JSON), 비정형(텍스트/영상)
- 개인정보 분류:
- 개인정보(살아있는 개인 식별 가능): CCTV, 이름+생년월일 등
- 가명정보(추가 정보 결합 시 식별 가능): 개인정보에 포함, 개인정보보호법 적용
- 익명정보(개인 식별 불가): 원칙적 개인정보보호법 적용 제외, 단 재식별 위험 관리 필요
- 민감정보(사상, 건강, 성생활 등): 엄격한 보호 대상
- 고유식별정보(주민번호, 운전면허번호 등): 특별 관리 대상
- 빅데이터 플랫폼 계층:
- 인프라 계층(물리/가상 자원, 노드, 스토리지 관리)
- 플랫폼 계층(Hadoop, Spark 등 분산 처리 프레임워크, 자원 관리)
- 소프트웨어 계층(분석 도구, 애플리케이션)
📊 분석 방법론
- 분석기획 순서: 비즈니스 이해 → 프로젝트 정의 → 수행 계획 → 위험 계획 수립
- 분석 과제 유형: 탐색 → 발견 → 통찰 → 최적화
- 실무 방법론: CRISP-DM, KDD Process 등 체계적 접근
- 프로젝트 관리: WBS(작업분해구조), 위험관리, 일정관리
- 아이디어 발굴:
- 브레인스토밍(자유 발상)
- 델파이(전문가 익명 의견 수렴)
- FGI(포커스 그룹 인터뷰)
- 로드맵(전략 계획)
⚖️ 법규 및 윤리
- 개인정보보호 원칙: 목적 명확화, 최소 수집, 정확성 보장, 안전성 확보
- 빅데이터 3대 위기요인:
- 사생활 침해(개인정보 침해, 프라이버시 문제)
- 책임원칙 훼손(알고리즘 블랙박스화로 인한 책임 소재 불분명)
- 알고리즘 편향(결과 편향, 차별 문제)
- 데이터 품질: 정확성, 완전성, 일관성, 적시성, 유효성
💻 기술 개념
- OLAP vs OLTP: 분석 처리(온라인 분석) vs 트랜잭션 처리(실시간 거래)
- 데이터레이크 vs 데이터웨어하우스: 스키마 온 리드 vs 스키마 온 라이트
- NoSQL: 관계형이 아닌 데이터 저장 기술 (MongoDB, Cassandra 등)
- 전이학습: 사전 훈련된 모델 재사용으로 학습 효율성 향상
- JDBC: 자바에서 관계형 DB 접근 API (빅데이터보다는 전통적 DB 기술)