빅데이터분석기사 3과목 (빅데이터 분석기획) 기출문제 복원 (10회)

빅데이터분석기사 3과목 기출문제 요약 이미지
제10회 빅데이터분석기사 3과목 기출문제 구성: 머신러닝·통계분석, 딥러닝·신경망, 데이터 전처리 및 모델 평가 검증

Table of Contents

3과목 출제 유형 분석

📊 빅데이터분석기사 주요 출제 영역

  • 머신러닝 기초 이론 (30%)
  • 통계 분석 기법 (25%)
  • 딥러닝 및 신경망 (20%)
  • 데이터 전처리 (15%)
  • 모델 평가 및 검증 (10%)

📈 출제 경향

  • 이론과 실무를 균형있게 다룬 문제 구성
  • 개념 정의보다는 적용과 해석에 중점
  • 최신 머신러닝/딥러닝 기법 포함
  • 실제 데이터 분석 상황을 반영한 문제

빅데이터분석기사 3과목 기출 문제 (41번~60번)

41. 다음 hierarchical clustering dendrogram에서 distance가 7.3일 때 몇 개의 군집으로 나누어지는가?

계층적 군집 분석 덴드로그램 시각화 예시
데이터 간 거리 기반으로 형성된 계층적 군집 분석 결과 도식
  1. 2개
  2. 3개
  3. 4개
  4. 5개

정답 : 1번

해설: 덴드로그램에서 군집 개수를 결정하는 방법은 절단선(cut-off line)을 설정하여 교차하는 수직선의 개수를 세는 것입니다.

  • 절단선 위치: Distance = 7.3
  • 절단선과 교차하는 수직선: 2개
    • 첫 번째 클러스터: 왼쪽 큰 클러스터
    • 두 번째 클러스터: 오른쪽 클러스터

💡 핵심: 덴드로그램에서 군집 개수는 항상 절단선과 교차하는 수직선의 개수와 같습니다!

42. ARIMA 모형에 대한 설명으로 옳은 것은?

  1. 비정상성 시계열 데이터에도 직접 적용할 수 있다.
  2. AR(자기회귀) + I(차분) + MA(이동평균) 모형의 조합이다.
  3. 계절성을 가진 데이터에는 사용할 수 없다.
  4. 정상성 시계열 데이터에만 적용 가능하다.

정답: 4번

해설 : ARIMA (AutoRegressive Integrated Moving Average)의 핵심 전제조건은 정상성입니다.

  • AR(p): 자기회귀 모형 – 과거 값들의 선형결합
  • I(d): 차분(Integrated) – 비정상성을 정상성으로 변환
  • MA(q): 이동평균 모형 – 과거 오차들의 선형결합

비정상성 데이터는 차분(I)을 통해 정상화한 후 적용해야 합니다.

💡 핵심: ARIMA는 정상성이 생명! 비정상성 데이터는 차분으로 정상화 후 적용해야 합니다.

43. 인공신경망에서 과적합을 해결하는 방법은?

  1. Sigmoid 함수 사용
  2. ReLU 함수 사용 ✅
  3. 배치정규화 적용
  4. 은닉층 개수 증가

정답: 2번

해설: ReLU 함수가 과적합을 해결하는 이유:

  • 희소성(Sparsity): 음수 값을 0으로 만들어 일부 뉴런을 비활성화
  • 단순한 구조: 복잡한 비선형성을 줄여 모델을 단순화
  • 기울기 유지: Sigmoid 대비 안정적인 학습으로 과학습 방지

다른 선택지들:

  • Sigmoid: 기울기 소실 문제
  • 배치정규화: 주로 학습률 저하 문제 해결
  • 은닉층 증가: 모델 복잡도 증가로 과적합 악화

💡 핵심: ReLU 함수는 기울기 소실 문제를, 배치정규화는 학습률 문제를 해결합니다!

44. 앙상블(Ensemble) 기법에 대한 설명으로 옳은 것은?

  1. 배깅은 편향을 감소시키고, 부스팅은 분산을 감소시킨다.
  2. 배깅과 부스팅 모두 편향을 감소시킨다.
  3. 배깅과 부스팅 모두 분산을 감소시킨다.
  4. 배깅은 분산을 감소시키고, 부스팅은 편향을 감소시킨다.

정답: 4번

해설: 배깅(Bagging) – 분산 감소

  • Bootstrap Aggregating
  • 병렬 처리로 여러 모델을 독립적으로 학습
  • 예측 결과를 평균내어 분산 감소
  • 대표 예시: Random Forest

부스팅(Boosting) – 편향 감소

  • 순차적 학습으로 약한 학습기를 강한 학습기로 변환
  • 이전 모델의 오류를 다음 모델이 보완
  • 편향 감소, 분산은 증가할 수 있음
  • 대표 예시: AdaBoost, XGBoost

💡 기억법: 배깅은 Bagging → Bias 아닌 분산 감소! 부스팅은 편향 감소!

45. 주성분분석(PCA)에 대한 설명 중 옳지 않은 것은?

  1. 분산이 낮은 것부터 주성분을 선택한다.
  2. 차원 축소 기법 중 하나이다.
  3. 변수들 간의 상관관계를 이용한다.
  4. 고유값이 큰 순서대로 주성분을 선택한다.

정답: 1번

해설: PCA는 분산이 높은 것부터 주성분을 선택합니다.

PCA의 핵심 원리

  1. 데이터의 분산이 최대인 방향을 찾음 → 제1주성분
  2. 제1주성분과 직교하면서 분산이 최대인 방향 → 제2주성분
  3. 순차적으로 분산이 큰 순서대로 주성분 선택

올바른 설명들

  • 차원 축소 기법 중 하나 ✓
  • 변수들 간의 상관관계(공분산 행렬) 이용 ✓
  • 고유값이 큰 순서대로 선택 (고유값 = 해당 주성분의 분산) ✓

💡 핵심: PCA는 높은 분산을 가진 주성분부터 선택하여 정보 손실을 최소화합니다!

46. 빅데이터 분석 프로젝트 진행 시 단계별 수행 작업에 대한 설명 중 옳지 않은 것은?

  1. 데이터 수집 단계에서는 분석 목적에 따라 다양한 소스에서 데이터를 확보하며, 가급적 데이터 중복이나 노이즈를 줄이는 방향으로 진행한다.
  2. 데이터 전처리에서는 결측치 대치, 이상치 탐색, 변수 변환을 수행하지만, 복잡한 데이터 변환 기법은 모델 성능 향상을 위해 반드시 적용해야 한다.
  3. 탐색적 데이터 분석(EDA) 단계는 단순 통계 요약과 시각화에 그치지 않고, 데이터 분포 및 변수 간 관계를 심도 있게 분석하여 분석 방향성을 결정한다.
  4. 최종 결과 도출 및 보고서 작성 단계에서는 단순 결과 전달을 넘어, 실제 비즈니스 적용 시 고려해야 할 이슈들을 충분히 반영한다.

정답: 2번

해설 : 선택지 2번의 “반드시 적용해야 한다”는 절대적 표현이 잘못되었습니다.

올바른 데이터 전처리 접근

  • 선택적이고 적절한 변환 기법 적용
  • 검증을 통한 효과 확인 후 적용 결정
  • 복잡한 변환이 항상 성능 향상을 보장하지 않음
  • 과적합 위험 및 해석력 저하 가능성 고려

KISS 원칙 : Keep It Simple, Stupid

  • 목적에 맞는 변환
  • 효과 검증 후 적용
  • 해석 가능성 고려
  • 단순함과 성능의 균형

💡 핵심 : 복잡한 변환이 항상 좋은 것은 아닙니다. 적절한 변환과 검증이 성공의 열쇠!

47. 다음 중 초매개변수와 매개변수에 대한 설명으로 옳은 것은?

  1. 인공신경망의 가중치는 사용자가 학습 전에 설정하는 초매개변수로, 모델 학습 과정에서 변하지 않는다.
  2. 인공신경망의 가중치는 학습 데이터로부터 학습되어 자동으로 조정되는 매개변수이다.
  3. KNN의 이웃 수(K)는 매개변수이며, 학습 과정에서 자동으로 최적화된다.
  4. 초매개변수는 학습 후 평가 단계에서 결정되는 값으로, 가중치와 편향에 포함된다.

정답: 2번

해설:

구분매개변수(Parameter)초매개변수(Hyperparameter)
정의모델이 학습을 통해 자동으로 조정하는 값사용자가 직접 설정하는 값
학습 과정학습 중 자동 업데이트학습 전 사전 설정
결정 주체알고리즘사용자
변화 여부학습 중 지속적 변화학습 중 고정

매개변수 예시

  • 인공신경망: 가중치(Weight), 편향(Bias) ✓
  • 선형회귀: 회귀계수 β₀, β₁, β₂…

초매개변수 예시

  • 인공신경망: 은닉층 수, 학습률, 배치 크기, 에포크 수
  • KNN: 이웃 수(K), 거리 측도
  • Random Forest: 트리 개수, 최대 깊이

💡 기억법: 매개변수는 컴퓨터가 자동으로 학습하는 “컴매개”, 초매개변수는 사용자가 직접 설정하는 “사초매”

48. 의사결정나무(Decision Tree) 모델의 단점으로 옳은 것은?

  1. 데이터의 양이 많아지면 적합하지 않음
  2. 의사결정나무는 변수 간 상호작용을 매우 잘 반영함
  3. 모델 복잡도가 낮을수록 과적합 위험이 커짐
  4. 의사결정나무는 데이터 전처리가 반드시 필요하다.

정답 : 1번

해설 : 의사결정나무의 대규모 데이터에서의 한계

  • 데이터 증가 → 트리 깊이 증가 → 모델 복잡도 증가
  • 계산 효율성 문제: 노드 분할 계산량 급격히 증가
  • 과적합 위험 증가: 깊고 복잡한 트리 구조 생성
  • 메모리 사용량 증가

다른 선택지들

  • 변수 간 상호작용 반영: 제한적 (단점)
  • 모델 복잡도와 과적합: 높을수록 과적합 위험 증가
  • 데이터 전처리: 상대적으로 적음 (장점)

대용량 데이터 처리 대안

  • 앙상블 기법: Random Forest, XGBoost
  • 분산 처리: Apache Spark MLlib

💡 핵심: 의사결정나무는 해석력과 사용 편의성은 뛰어나지만, 대용량 데이터에서는 효율성과 과적합 문제로 한계가 있습니다!

49. 다음 중 다중공선성 문제를 해결하는 방법으로 가장 옳은 것은?

  1. 독립 변수 간 상관계수를 높인다
  2. 다중공선성 문제를 일으키는 독립 변수를 제거한다.
  3. 종속 변수와 상관관계가 높은 독립 변수를 제거한다.
  4. 모델의 복잡도를 인위적으로 낮춘다.

정답: 2번

해설: 다중공선성(Multicollinearity): 독립변수들 간에 강한 선형 관계가 존재하는 현상

문제점

  • 회귀계수 추정의 불안정성
  • 표준오차 증가 → 통계적 유의성 판단 어려움
  • 해석의 어려움

해결 방법

  1. 변수 제거 (1순위): VIF > 10인 변수 단계적 제거
  2. 차원 축소: PCA, 요인분석
  3. 정규화 기법: Ridge, Lasso, Elastic Net
  4. 데이터 수집 개선: 표본 크기 증가

진단 방법

  • 상관계수: |r| > 0.8
  • VIF(분산팽창인자): VIF > 10
  • 조건지수: CI > 30

💡 핵심: 다중공선성은 독립변수 간 높은 상관관계가 원인이므로, 문제가 되는 변수를 제거하는 것이 가장 직접적인 해결책입니다!

50. 데이터 전처리 과정에서 정규화 후 특정 변수에 대한 두 집단 평균 차이 검정을 수행하려고 한다. 다음 중 올바른 순서로 작업을 나열한 것은?

선택지

  1. 정규화 → 정규성 검정 → t-검정 실시
  2. t-검정 → 데이터 정규화 → 정규성 검정
  3. 정규성 검정 → t-검정 → 정규화
  4. t-검정 → 정규성 검정 → 데이터 정규화

정답 : 1번

해설: 올바른 데이터 분석 순서: 전처리 → 가정 확인 → 분석

1단계 : 데이터 정규화

  • 변수들 간 스케일 차이 해결
  • 분석 결과의 객관성 확보
  • Min-Max 정규화, Z-score 표준화 등

2단계 : 정규성 검정

  • 정규화된 데이터의 분포 형태 확인
  • t-검정의 전제조건 검증
  • Shapiro-Wilk Test, K-S Test 등

3단계 : 적절한 검정 실시

  • 정규분포 만족: t-검정
  • 정규분포 위반: Mann-Whitney U Test (비모수 검정)

💡 핵심 : 전처리 → 가정 확인 → 분석 순서가 기본 원칙입니다!


51.Boosting 기법에 대한 설명으로 옳은 것은?

  1. Boosting은 약한 학습기(Weak Learner)들을 순차적으로 학습시켜 강한 학습기를 만드는 앙상블 기법이다.
  2. Boosting은 모든 학습기에 동일한 가중치를 부여해 병렬로 학습하는 방식이다.
  3. Boosting은 하나의 결정트리를 깊게 만들어 과적합을 방지한다.
  4. Boosting 기법은 부트스트랩 샘플링을 사용하여 각각의 학습기를 독립적으로 학습한다.

정답: 1번

해설: Boosting의 핵심 특징:

  • 순차적 학습: 이전 모델의 오류를 다음 모델이 보완
  • 가중치 조정: 잘못 분류된 데이터에 높은 가중치 부여
  • 점진적 개선: 단계별로 성능 향상
  • 편향 감소: 약한 학습기의 한계 극복

Boosting vs Bagging:

구분BoostingBagging
학습 방식순차적병렬적
가중치동적 조정동일 가중치
샘플링가중치 기반부트스트랩
목표편향 감소분산 감소
대표 알고리즘AdaBoost, XGBoostRandom Forest

주요 Boosting 알고리즘

  • AdaBoost: 가중치 조정을 통한 성능 향상
  • Gradient Boosting: 잔차 학습
  • XGBoost: 최적화된 구현

💡 핵심: Boosting은 약한 학습기들을 순차적으로 결합하여 점진적으로 성능을 개선하는 기법입니다!


52.다음 중 ReLU 함수와 관련된 설명으로 옳은 것은?

  1. ReLU는 기울기 소실 문제가 자주 발생한다.
  2. ReLU 함수는 음수 입력값에서도 항상 양의 기울기를 가진다.
  3. ReLU는 활성화 함수 중 계산이 가장 느린 함수이다.
  4. ReLU는 역전파 과정에서 기울기가 0으로 수렴하는 문제가 없다.

정답: 1번

해설: ReLU 함수: f(x) = max(0, x)

죽어가는 ReLU (Dying ReLU) 현상:

  1. 음수 입력 → ReLU가 0 출력
  2. 출력 0 → 역전파 시 미분값 0
  3. 기울기 0 → 가중치 업데이트 안됨
  4. 뉴런이 “죽어서” 다시 활성화되지 않음

각 선택지 분석

  • 기울기 소실 문제: 음수 영역에서 발생 ✓
  • 음수에서 양의 기울기: 음수에서 기울기는 0 ❌
  • 계산 속도: 가장 빠른 함수 중 하나 ❌
  • 기울기 0 수렴 없음: 음수 영역에서 정확히 0 ❌

해결 방법

  • Leaky ReLU: f(x) = max(αx, x) (α=0.01)
  • ELU, PReLU, Swish 등

💡 핵심: ReLU는 빠르지만 음수 영역에서 기울기가 0이 되어 죽어가는 ReLU 문제가 발생할 수 있습니다!

53. 다음 나이와 최대심박수 산점도 분석에 대해 맞게 설명한 것은?

연령과 최대 심박수 관계를 나타낸 산점도 그래
남성과 여성의 연령 증가에 따른 최대 심박수 감소 추세를 보여주는 그래프

주어진 정보

  • 남성: y = 209.6 – 0.72x, r = -0.79
  • 여성: y = 207.2 – 0.65x, r = -0.73
  1. 남성과 여성 모두 나이와 최대심박수 간에 양의 상관관계를 보인다
  2. 남성이 여성보다 더 강한 음의 상관관계를 보인다
  3. 여성의 회귀직선 기울기가 남성보다 더 가파르다
  4. 두 그룹 모두 상관계수가 0.8 이상의 강한 양의 상관관계를 나타낸다

정답: 2번

해설: 상관계수 비교

  • 남성: |r| = 0.79
  • 여성: |r| = 0.73
  • 0.79 > 0.73 → 남성이 더 강한 음의 상관관계

각 선택지 분석

  1. 양의 상관관계: 두 그룹 모두 음의 상관계수 ❌
  2. 남성이 더 강한 음의 상관관계: 절댓값 비교 시 맞음 ✓
  3. 여성 기울기가 더 가파름: |−0.72| > |−0.65| 남성이 더 가파름 ❌
  4. 0.8 이상 양의 상관관계: 음수이고 절댓값도 0.8 미만 ❌

생리학적 해석

  • 일반적 공식: 최대심박수 ≈ 220 – 나이
  • 남성: 나이에 따른 최대심박수 감소가 더 뚜렷
  • 여성: 상대적으로 완만한 감소

💡 핵심: 상관계수의 절댓값이 클수록 변수 간 관계가 강합니다!


54. 서포트 벡터 머신(SVM) 설명으로 옳은 것은?

  1. 커널 함수(트릭)를 사용하면 비선형 분류가 가능하다 ✅
  2. 독립변수를 비선형 변환하면 분류 효율이 올라간다
  3. 모든 데이터 포인트가 결정 경계 형성에 동일하게 기여한다
  4. 선형 분리만 가능하여 단순한 문제에만 적용된다

정답: 1번

해설: 커널 트릭의 핵심:

  • 저차원 비선형 데이터 → 고차원 공간에서 선형 분리
  • 직접 고차원 계산 없이 커널 함수로 효율적 처리
  • 복잡한 비선형 분류 문제를 선형 방법으로 해결

각 선택지 분석:

  1. 커널로 비선형 분류 가능: 완벽한 설명 ✓
  2. 독립변수 임의 변환: 중복 작업, 비효율적 ❌
  3. 모든 데이터 포인트 기여: 서포트 벡터만 기여 ❌
  4. 선형 분리만 가능: 커널 사용 시 비선형 분류 가능 ❌

커널 종류:

  • Linear: 선형 분리 가능한 경우
  • RBF: 가장 범용적
  • Polynomial: 중간 복잡도
  • Sigmoid: 신경망 유사 형태

SVM의 핵심 특징

  • 서포트 벡터만 결정 경계 형성에 기여
  • 마진 최대화로 일반화 성능 향상

💡 핵심: 커널 트릭은 SVM이 비선형 문제를 효율적으로 해결할 수 있게 하는 혁신적 기법입니다!


55. Attention 메커니즘에 관한 설명 중 옳은 것만을 모두 고른 것은?

ㄱ. Attention은 고정된 크기의 벡터에 모든 정보를 압축하려고 하기 때문에 정보 손실이 발생한다

ㄴ. Attention은 디코더가 출력 단어를 예측할 때 인코더의 모든 입력 단어 정보를 참조한다

ㄷ. Attention 스코어는 인코더와 디코더의 은닉 상태를 내적하여 계산한다

ㄹ. Attention은 입력 데이터 중 모든 부분을 동일한 비율로 참고한다

  1. ㄱ, ㄴ, ㄷ
  2. ㄱ, ㄹ
  3. ㄴ, ㄷ

정답 : 1번

해설

ㄱ. 고정된 크기 벡터 압축으로 정보 손실 ✓

  • Attention이 해결하려는 문제
  • 기존 Seq2Seq: 전체 입력 → 고정 크기 컨텍스트 벡터 → 정보 손실
  • Attention: 각 시점마다 필요한 정보 동적 참조 → 정보 보존

ㄴ. 디코더가 인코더의 모든 입력 단어 정보 참조 ✓

  • 디코더 각 시점에서 인코더의 모든 은닉 상태 참조
  • 가중합으로 컨텍스트 벡터 동적 생성

ㄷ. Attention 스코어는 내적으로 계산 ✓

  • 기본적인 계산 방법
  • 디코더 은닉 상태와 인코더 은닉 상태 간 유사도 측정
  • 소프트맥스로 정규화하여 확률 분포 생성

ㄹ. 모든 부분을 동일한 비율로 참고 ❌

  • 완전히 틀린 설명
  • Attention의 핵심은 차별적 가중치 부여
  • 중요한 부분에 높은 가중치, 덜 중요한 부분에 낮은 가중치

Attention 동작 과정

  1. Attention 스코어 계산: e_ij = score(s_i, h_j)
  2. Attention 가중치 계산: α_ij = softmax(e_ij)
  3. 컨텍스트 벡터 생성: c_i = Σ(α_ij × h_j)
  4. 출력 생성: y_i = f(s_i, c_i, y_{i-1})

💡 핵심: Attention은 고정된 벡터 압축의 정보 손실 문제를 해결하기 위해, 디코더가 각 시점마다 인코더의 모든 정보를 차별적 가중치로 참조하는 메커니즘입니다!

56. 다음 중 다중분산분석(MANOVA)을 통해 분석할 수 있는 것은?

  1. 성별에 따른 키의 차이
  2. 교육 방법에 따른 수학 점수의 차이
  3. 학년(1학년, 2학년)에 따른 수학 점수와 국어 점수의 차이
  4. 나이와 소득 간의 상관관계

정답 : 3번

해설: MANOVA 적용 조건

  • ✅ 독립 변수: 범주형 (집단 구분)
  • ✅ 종속 변수: 연속형 2개 이상
  • ✅ 목적: 집단 간 다중 종속 변수의 평균 차이 검정

각 선택지 분석

  1. 성별 → 키: 종속변수 1개 → ANOVA 적용
  2. 교육법 → 수학점수: 종속변수 1개 → ANOVA 적용
  3. 학년 → (수학점수, 국어점수): 완벽한 MANOVA 사례 ✓
  4. 나이-소득 관계: 상관분석 적용

선택지 3번 상세

  • 독립변수: 학년 (1학년, 2학년) – 범주형 ✓
  • 종속변수: 수학점수, 국어점수 – 연속형 2개 ✓
  • 검정: 학년에 따른 (수학, 국어) 점수 평균 벡터 차이

MANOVA vs ANOVA

  • MANOVA: 여러 종속변수 동시 검정 → 1종 오류율 통제
  • 개별 ANOVA: 각각 검정 → 1종 오류율 증가 위험

💡 핵심: MANOVA는 여러 종속 변수의 집단 간 차이를 동시에 검정하는 다변량 분석 기법입니다!


57. 성공 확률을 선형 함수로 변환하여 회귀모형에 적용하는 데 사용되는 변환 기법은 무엇인가?

  1. 로짓 변환 (logit transformation)
  2. 오즈비 변환 (odds ratio)
  3. 로그 변환 (log transformation)
  4. 제곱근 변환 (square root transformation)

정답: 1번

해설: 로짓 변환 공식 logit(p) = log(p / (1-p)) = log(odds)

변환의 목적

  • 확률 p (0~1) → 실수 전체 (-∞ ~ +∞)
  • 비선형 확률 → 선형 함수로 변환
  • 회귀분석에서 선형 관계 가정 만족

로지스틱 회귀에서의 활용

  • 선형 회귀: Y = β₀ + β₁X₁ + β₂X₂ + … + ε
  • 로지스틱 회귀: logit(p) = β₀ + β₁X₁ + β₂X₂ + …

각 선택지 분석:

  1. 로짓 변환: 완벽한 정답 ✓
  2. 오즈비: 변환 기법이 아닌 해석 도구 ❌
  3. 로그 변환: 일반적 변환, 확률 변환 부적절 ❌
  4. 제곱근 변환: 분산 안정화 목적, 로지스틱 회귀 무관 ❌

확률 예측 과정

  1. 선형 조합: η = β₀ + β₁X₁ + β₂X₂ + …
  2. 로짓 역변환: p = e^η / (1 + e^η) = 1 / (1 + e^(-η))
  3. 확률 해석: 0 < p < 1

오즈비 (Odds Ratio)

  • OR = e^β (독립변수 1단위 증가 시 오즈 변화율)
  • 회귀계수 해석의 핵심 도구

💡 핵심: 로짓 변환은 0~1 범위의 확률을 -∞~+∞ 범위의 실수로 변환하여 선형 회귀의 틀에서 확률을 모델링할 수 있게 하는 핵심 기법입니다!

58. 다음 중 교차검증(Cross-Validation)에 대한 설명으로 옳은 것은?

  1. 교차검증은 데이터를 여러 개의 부분집합으로 나누어 모델의 일반화 성능을 평가하는 방법이다
  2. 교차검증은 모델 학습 속도를 빠르게 하는 데 가장 큰 목적이 있다
  3. 교차검증은 과적합 방지를 위해 항상 데이터를 증강하는 기법이다
  4. 교차검증은 테스트 데이터와 훈련 데이터를 분리하지 않고 사용하는 방법이다

정답: 1번

해설

교차검증의 핵심 개념

  • 데이터를 여러 폴드(fold)로 나누어 여러 번 학습과 검증을 반복
  • 모델의 성능을 안정적으로 평가하는 기법

주요 목적

  • 🎯 일반화 성능 평가: 새로운 데이터에 대한 예측력 측정
  • 📊 성능 안정성: 단일 분할의 편향 제거
  • 🛡️ 과적합 방지: 모델의 일반화 능력 검증

각 선택지 분석

  1. 부분집합으로 나누어 일반화 성능 평가: 완벽한 정의 ✓
  2. 모델 학습 속도 향상: 정반대, 여러 번 학습으로 더 오래 걸림 ❌
  3. 데이터 증강 기법: 데이터 증강과 무관 ❌
  4. 분리하지 않고 사용: 분리가 핵심 ❌

교차검증 종류

  • K-Fold CV: 데이터를 K개 폴드로 분할, K번 반복
  • Leave-One-Out CV: N-1개 훈련, 1개 검증, N번 반복
  • Stratified K-Fold: 클래스 비율 유지하며 분할

장점

  • 신뢰성: 단일 분할 편향 제거
  • 효율성: 모든 데이터 활용
  • 성능 분산: 모델 안정성 측정

주의사항

  • 계산 비용: K배 더 많은 학습 시간
  • 데이터 누수: 전처리는 각 폴드 내에서 별도 수행

💡 핵심: 교차검증은 데이터를 폴드로 나누어 반복 검증함으로써 모델의 일반화 성능을 신뢰성 있게 평가하는 핵심 기법입니다!


59. 베이지안 정리에서 사전 확률이 사후 확률에 미치는 영향에 대한 설명으로 옳은 것은?

  1. 사전 확률이 높을수록 사후 확률은 항상 낮아진다.
  2. 사전 확률과 사후 확률은 독립적이다.
  3. 사전 확률이 사후 확률 계산에 직접적으로 영향을 미친다.
  4. 사전 확률은 우도(likelihood)와 동일한 개념이다.

정답 : 3번

해설

베이지안 정리: P(H|E) = P(E|H) × P(H) / P(E)

구성 요소

  • P(H|E): 사후 확률 (Posterior)
  • P(E|H): 우도 (Likelihood)
  • P(H): 사전 확률 (Prior)
  • P(E): 증거 (Evidence)

사전 확률의 역할

  • 관찰 전 가설에 대한 믿음의 정도
  • 사후 확률 계산의 핵심 요소
  • 우도와 곱해져 사후 확률에 직접 영향

각 선택지 분석:

  1. 사전 확률 ↑ → 사후 확률 ↓: 일반적으로 반대 ❌
  2. 사전 확률과 사후 확률 독립: 직접적 관련 ❌
  3. 사전 확률이 사후 확률에 직접 영향: 베이지안 정리의 핵심 ✓
  4. 사전 확률 = 우도: 완전히 다른 개념 ❌

실무 예시

  • 의학 진단: 질병 유병률(사전) + 검사 결과(우도) → 진단 확률(사후)
  • 스팸 필터: 스팸 빈도(사전) + 단어 출현(우도) → 스팸 확률(사후)

💡 핵심: 베이지안 정리에서 사전 확률은 사후 확률 계산의 핵심 요소로 직접적인 영향을 미칩니다!

빅데이터분석기사 기출 문제 60. 시계열 데이터의 구성 요소 중 불규칙적이고 예측 불가능한 변동을 의미하는 것은?

  1. 추세(Trend)
  2. 계절성(Seasonality)
  3. 순환성(Cyclical)
  4. 불규칙성(Irregular)

정답 : 4번

해설

시계열 구성 요소

1. 추세(Trend)

  • 장기간에 걸친 지속적인 증가 또는 감소 패턴
  • 경제성장, 인구 증가 등

2. 계절성(Seasonality)

  • 일정한 주기로 반복되는 패턴
  • 월별, 분기별, 연별 등 고정된 주기

3. 순환성(Cyclical)

  • 불규칙한 주기로 나타나는 장기적 변동
  • 경기 순환, 사업 주기 등

4. 불규칙성(Irregular/Random)

  • 예측 불가능한 무작위 변동
  • 오차항, 잡음(noise) 성격
  • 다른 구성 요소로 설명되지 않는 부분

시계열 분해 모델

  • 가법 모델: Y(t) = T(t) + S(t) + C(t) + I(t)
  • 승법 모델: Y(t) = T(t) × S(t) × C(t) × I(t)

불규칙성의 특징

  • 무작위성: 일정한 패턴 없음
  • 예측 불가: 통계적 모델링 어려움
  • 잡음: 신호와 구별되는 노이즈
  • 화이트 노이즈: 이상적인 불규칙성

💡 핵심 : 불규칙성은 다른 체계적 패턴으로 설명되지 않는 무작위적이고 예측 불가능한 변동입니다!

💡 빅데이터분석기사 3과목 핵심 학습 포인트

1. 머신러닝 핵심 개념

  • 편향-분산 트레이드오프: 배깅(분산↓), 부스팅(편향↓)
  • 매개변수 vs 초매개변수: 자동 학습 vs 사용자 설정
  • 과적합 해결: ReLU, 정규화, 드롭아웃, 교차검증
  • 앙상블 기법: 배깅(병렬), 부스팅(순차)

2. 통계 분석 기법

  • 다중공선성: VIF > 10, 변수 제거가 최우선 해결책
  • 주성분분석: 높은 분산부터 주성분 선택
  • 로지스틱 회귀: 로짓 변환으로 확률을 선형 함수화
  • 분산분석: ANOVA(1개), MANOVA(2개 이상 종속변수)

3. 딥러닝 및 신경망

  • 활성화 함수: ReLU의 죽어가는 뉴런 문제
  • Attention: 정보 손실 해결, 차별적 가중치 부여
  • 역전파: 기울기 소실과 폭발 문제 이해

4. 데이터 전처리

  • 올바른 순서: 전처리 → 가정 확인 → 분석
  • 정규화: 스케일 차이 해결, 분석 전 필수
  • 변환 기법: 목적에 맞는 선택적 적용

5. 모델 평가 및 검증

  • 교차검증: 일반화 성능 평가의 핵심
  • 성능 지표: 분류(정확도, AUC), 회귀(MSE, R²)
  • 과적합 방지: 검증 세트 활용, 조기 종료

📚 추가 학습 권장 사항

  1. 실무 중심 학습: 이론과 실제 적용 사례 연결
  2. 최신 기법 업데이트: 트랜스포머, BERT 등 최신 동향
  3. 코딩 실습: Python/R을 활용한 실제 구현 경험
  4. 해석력: 모델의 결과를 비즈니스적으로 해석하는 능력
  5. 윤리적 고려: AI 편향성, 공정성 등 윤리적 측면

본 복원 문제는 기억에 의해 복원된 문제이므로 정확하지 않을 수 있습니다.

함께 읽으면 좋은 글

빅데이터분석기사 10회 기출문제 2과목

빅데이터분석기사 10회 기출문제 1과목

빅데이터분석기사 자격증 소개

빅데이터분석기사 필기 기출 8회

댓글 달기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

위로 스크롤