
📊 제 10회 빅데이터분석기사 2과목 출제 유형 분석
주요 출제 영역
- 데이터 전처리 (결측치, 이상치 처리)
- 데이터 탐색 (기술통계, 분포)
- 통계기법 이해 (확률분포, 상관관계, 회귀분석)
출제 경향
- 통계 개념 및 공식 40%
- 데이터 전처리 기법 30%
- 분석 기법 및 해석 30%
📝 빅데이터분석기사 2과목 복원 기출문제
빅데이터분석기사 21번 문제) 다른 변수에 영향을 주어 원인의 역할을 하는 변수는 무엇인가?
- 상수값
- 상관관계
- 독립변수
- 종속변수
정답: 3)
해설 : 변수(Variable)는 분석 과정에서 값이 변할 수 있는 요소를 의미하며, 다른 변수에 영향을 주는 독립변수(Independent Variable)와 영향을 받는 종속변수(Dependent Variable) 모두 분석에 사용됩니다. 이 문제에서는 원인이 되는 변수를 묻고 있으므로 독립변수가 정답입니다. 상수값은 변하지 않는 값이며, 상관관계는 변수 간의 관계를 나타내는 지표이므로 변수에 해당하지 않습니다.

22. 성공 확률이 p인 베르누이 시행을 n번 독립적으로 반복할 때, 성공 횟수를 나타내는 이항분포 B(n,p)에서 수식 np(1-p)
가 의미하는 통계량은 무엇인가?
- 평균 (Mean)
- 분산 (Variance)
- 표준편차 (Standard Deviation)
- 최빈값 (Mode)
정답: 2)
해설: 이항분포 B(n,p)에서 분산은 np(1-p)
로 계산됩니다. 참고로 평균은 np
, 표준편차는 √np(1-p)
입니다.

23. 모평균이 μ, 모분산이 σ²인 모집단에서 크기가 n(≥2)인 표본을 추출할 때, 다음 중 올바른 것은?
- 표본평균의 기댓값은 모평균과 항상 같다
- 표본분산은 모분산보다 항상 크다
- 표본평균의 분산은 모분산과 같다
- 분모가 n인 표본분산은 불편추정량이다
정답: 1)
해설 : 표본평균 X̄의 기댓값은 E[X̄] = μ로 모평균과 항상 같습니다. 이는 표본평균이 모평균의 불편추정량임을 의미합니다.

24. 데이터 100, 200, 300을 Z-score로 변환하는 과정을 선형함수 f(x) = ax + b
로 나타낼 때, a + b
의 값은?
- -1.99
- 0
- 1
- 1.99
정답: 1)
해설: 이 문제의 핵심은 주어진 데이터 [100, 200, 300]을 모집단이 아닌 표본(sample)으로 간주하고 표본 표준편차를 구하는 것입니다.
1단계: 평균(μ) 계산
- μ = (100 + 200 + 300) / 3 = 600 / 3 = 200
2단계: 표본 표준편차(s) 계산
- 표본 분산(s²) = [(100-200)² + (200-200)² + (300-200)²] / (3-1) ← (n이 아닌 n-1로 나눔)
- s² = [(-100)² + 0² + 100²] / 2
- s² = [10000 + 0 + 10000] / 2 = 20000 / 2 = 10000
- 표본 표준편차(s) = √10000 = 100
3단계: Z-score 공식을 선형함수로 변환
- Z-score 공식:
Z = (x - μ) / s
- 이 공식을
f(x) = ax + b
형태로 바꾸면:Z = (1/s)x - (μ/s)
- 따라서,
a = 1/s
이고b = -μ/s
입니다.
4단계: a + b 계산
- a + b = (1/s) + (-μ/s) = (1 – μ) / s
- 위에서 구한 값을 대입하면:
- a + b = (1 – 200) / 100 = -199 / 100 = -1.99
따라서 정답은 -1.99 입니다. 이 문제는 Z-score 공식과 표본 표준편차 공식을 모두 정확히 알고 있는지 확인하는 문제입니다..
25. 포아송분포에 대한 내용으로 올바른 것은?
- 정규분포와 동일한 형태이다
- 대칭분포이다
- 평균과 분산이 같다
- 연속확률분포이다
정답: 3)
해설: 포아송분포는 평균과 분산이 λ로 같은 것이 특징입니다. 포아송분포는 단위 시간이나 단위 공간에서 발생하는 사건의 횟수를 나타내는 이산확률분포입니다. λ가 작을 때는 오른쪽으로 치우친 분포이며, λ가 커질수록 정규분포에 근사합니다.

빅데이터분석기사 26번 문제. P(X=1)=p, P(X=-1)=1-p일 때 이는 어떤 분포인가?
- 베르누이분포의 변형
- 이항분포
- 정규분포
- 균등분포
정답: 1)
빅데이터분석기사 기출문제 26번 해설: 표준적인 베르누이 분포는 ‘성공’은 1, ‘실패’는 0으로 값을 할당하여 P(X=1)=p
, P(X=0)=1-p
로 정의합니다. 즉, 결과가 두 가지뿐인 단 한 번의 시행을 의미합니다. 이 문제의 분포는 결과가 1과 -1로 표현되었을 뿐, 결과가 두 가지이고 각 확률이 p와 (1-p)라는 점에서 베르누이 분포의 핵심적인 구조를 그대로 따르고 있습니다. 따라서 이는 ‘실패’를 0 대신 -1로 표현한 베르누이 분포의 변형된 형태로 볼 수 있습니다. 계산 목적에 따라 이처럼 값을 다르게 할당하기도 합니다.

27. 다음 중 문서 분석을 위해 특이값분해(SVD)를 핵심 원리로 사용하는 분석 기법은 무엇인가?
- PCA (주성분분석)
- LSA (Latent Semantic Analysis)
- ICA (독립성분분석)
- LDA (선형판별분석)
정답: 2)
빅데이터분석기사 기출문제 27번 해설: LSA(잠재 의미 분석)는 문서 집합 내에 숨겨진(Latent) 의미 구조를 통계적으로 파악하는 자연어 처리 기법입니다. LSA는 먼저 행을 문서, 열을 단어로 구성하고 각 셀에는 단어의 빈도수를 기록한 ‘문서-단어 행렬(DTM)’을 만듭니다. 하지만 단순히 단어의 빈도수만으로는 ‘자동차’와 ‘차’가 동의어라는 점이나, ‘배’가 여러 의미를 갖는 다의어 문제를 해결하기 어렵습니다. 이 문제를 해결하기 위해 LSA는 특이값분해(SVD)라는 강력한 행렬 분해 기법을 사용합니다. SVD는 거대하고 희소한(sparse) 문서-단어 행렬을 더 작은 차원의 ‘잠재 의미 공간’으로 압축합니다. 이 압축된 공간에서는, 문맥상 비슷한 의미를 가진 단어들(예: ‘자동차’, ‘엔진’, ‘타이어’)이 서로 가깝게 배치되어 숨겨진 주제나 개념이 드러납니다. 결과적으로 LSA는 단어의 표면적인 의미를 넘어 숨겨진 주제를 파악하여, 더 정확한 문서 검색이나 문서 간 유사도 계산을 가능하게 합니다.

28. 상자그림 IQR에 대한 설명 중 틀린 것은?
- Q3 – Q1이다
- 중간 50%의 데이터 범위이다
- 이상치 탐지에 사용된다
- Q1 – Q3이다
정답: 4)
빅데이터분석기사 기출문제 28번 해설 : IQR(사분위수 범위)은 Q3 – Q1입니다. Q1 – Q3이 아닙니다. IQR은 데이터의 중간 50%가 분포하는 범위를 나타내며, 이상치 탐지에 중요한 지표로 사용됩니다.

29. 다음 중 집단 내에는 동질적(유사한 특성), 집단 간에는 이질적(서로 다른 특성)이 되도록 그룹을 나누는 분석 모형은 무엇인가?
- 회귀분석
- 판별분석
- 군집분석
- 주성분분석
정답: 3)
빅데이터분석기사 기출문제 29번 해설: 군집분석(클러스터링)은 집단 내에는 동질적(유사한 특성), 집단 간에는 이질적(서로 다른 특성)이 되도록 그룹을 나누는 분석 방법입니다. 즉, 같은 클러스터 내의 객체들은 서로 유사하고, 다른 클러스터의 객체들과는 다르도록 분류하는 비지도학습 기법입니다.
30. 회귀 모델의 가정 및 평가 지표에 대한 설명으로 잘못된 것은?
- 과소적합이 과적합보다 좋다
- 결정계수가 높을수록 좋다
- 잔차의 분산이 일정해야 한다
- 다중공선성이 없어야 한다
정답: 1)
해설: 과소적합(underfitting)과 과적합(overfitting) 모두 바람직하지 않은 현상입니다. 과소적합은 모델이 너무 단순해서 훈련 데이터조차 제대로 학습하지 못하는 상태이고, 과적합은 훈련 데이터에만 특화되어 새로운 데이터에 대한 예측 성능이 떨어지는 상태입니다. 적절한 복잡도의 모델이 가장 좋습니다.
31. 다음 중 구간추정에 대한 내용 중 맞는 것은?
- 구간추정은 점추정보다 항상 정확하다
- 신뢰구간이 넓을수록 좋다
- 신뢰수준이 높아지면 신뢰구간이 좁아진다
- 표본크기가 클수록 신뢰구간이 좁아진다
정답: 4)
해설: 표본크기가 클수록 표준오차가 작아져 신뢰구간이 좁아집니다. 이는 추정의 정확도가 높아짐을 의미합니다. 반면 3번은 틀린 설명입니다. 신뢰수준이 높아지면 신뢰구간은 넓어집니다. 예를 들어, 95% 신뢰구간보다 99% 신뢰구간이 더 넓습니다. 신뢰도를 높이기 위해서는 더 넓은 범위를 예측해야 하기 때문입니다. 구간추정은 모수가 포함될 것으로 예상되는 구간을 제시하는 방법입니다.
32. 오른쪽으로 꼬리가 긴(치우친) 분포에 대한 설명으로 맞는 것은?
- 최빈값 < 중앙값 < 평균
- 평균 < 중앙값 < 최빈값
- 중앙값 < 평균 < 최빈값
- 최빈값 < 평균 < 중앙값
정답: 1)
해설: 오른쪽으로 치우친 분포(positive skew)에서는 최빈값 < 중앙값 < 평균 순서입니다. 극값들이 평균을 오른쪽으로 끌어당기기 때문입니다. 반대로 왼쪽 치우친 분포에서는 평균 < 중앙값 < 최빈값 순서가 됩니다.
33. 초기하분포(Hypergeometric Distribution)에 대한 설명으로 옳은 것은?
- 복원추출에서 사용된다
- 비복원추출에서 사용된다
- 정규분포의 근사이다
- 이산분포가 아니다
정답: 2)
해설: 초기하분포는 비복원추출 상황에서 사용되는 확률분포입니다. 유한한 모집단에서 복원하지 않고 표본을 추출할 때 성공의 개수를 나타냅니다. 각 시행이 종속적인 것이 특징으로, 이는 이항분포(독립시행)와의 주요 차이점입니다.
34. 상관계수의 특징에 대해서 옳지 않은 것은?
- -1과 1 사이의 값을 가진다
- 단위에 영향을 받지 않는다
- 피어슨 계수는 이상치에 강하다
- 0에 가까우면 선형관계가 약하다
정답: 3)
해설: 피어슨 상관계수는 이상치에 민감합니다. 극값이 있으면 상관계수가 크게 영향을 받을 수 있습니다. 이상치에 강한 상관계수로는 스피어만 순위 상관계수가 있습니다.
35. 로지스틱 회귀에 관한 설명으로 옳지 않은 것은?
- 종속변수는 범주형이다
- 시그모이드 함수를 사용한다
- 독립변수는 정규성을 가져야 한다
- 분류 문제에 사용된다
정답: 3)
해설: 로지스틱 회귀에서 독립변수는 정규성을 만족할 필요가 없습니다. 로지스틱 회귀는 선형회귀와 달리 종속변수가 범주형일 때 사용하며, 시그모이드 함수를 통해 확률을 모델링합니다.
36. 요약 변수와 관련된 내용으로 옳은 것은?
- 일시적, 파상 변수는 계속 사용 가능
- 더미변수는 범주형 변수를 수치화한 것
- 교호작용은 고려하지 않는다
- 연속형 변수만 사용한다
정답: 2)
해설: 더미변수(가변수)는 범주형 변수를 0과 1의 수치로 변환한 변수입니다. 예를 들어, ‘성별’을 남성=1, 여성=0으로 코딩하는 것입니다. 이를 통해 회귀분석에서 범주형 변수를 사용할 수 있습니다.
37. 변수 선택에서 모델 성능 평가에 사용되는 방법은?
- 전진선택법 (Forward Selection)
- 후진제거법 (Backward Elimination)
- 단계적 방법 (Stepwise)
- 교차검증법 (Cross Validation)
정답: 4)
해설: 교차검증법은 데이터를 훈련세트와 검증세트로 나누어 모델의 성능을 평가하는 방법입니다. 변수 선택 과정에서 과적합을 방지하고 모델의 일반화 성능을 평가하는 데 사용됩니다. 전진선택법, 후진제거법, 단계적 방법은 변수 선택 기법이고, 교차검증은 모델 평가 기법입니다.
38. 데이터의 품질을 향상하기 위해 데이터의 이상치, 결측치를 탐지하고 처리하는 과정은?
- 데이터 수집
- 데이터 변환
- 데이터 정제
- 데이터 통합
정답: 3)
해설: 데이터 정제(Data Cleaning)는 이상치, 결측치, 중복값, 오류값 등을 탐지하고 처리하여 데이터 품질을 향상시키는 과정입니다. 데이터 전처리의 핵심 단계 중 하나입니다.
39. 3개 이상 그룹의 표본 평균을 검정 하는 방법은?
- t-검정
- 카이제곱검정
- 분산분석
- 회귀분석
정답: 3)
해설: 3개 이상의 그룹 평균을 동시에 비교할 때는 분산분석(ANOVA)을 사용합니다. t-검정은 2개 그룹 비교에만 사용되며, 여러 그룹을 여러 번 t-검정하면 1종 오류가 누적됩니다.
40. 두 확률변수 X와 Y의 독립성과 공분산의 관계에 대한 설명 중 항상 참인 명제는?
- 공분산이 0이면 두 변수는 독립이다
- 공분산이 0이면 두 변수는 선형관계가 없다
- 공분산이 0이면 완전한 양의 상관관계이다
- 두 변수가 독립이면 공분산은 0이다
정답: 4)
해설: 두 변수 X, Y가 독립이면 공분산 Cov(X, Y) = 0입니다. 하지만 역은 성립하지 않습니다. 즉, 공분산이 0이라고 해서 두 변수가 반드시 독립인 것은 아닙니다. 공분산이 0이라는 것은 두 변수 간에 선형 관계가 없음을 의미할 뿐, 비선형 관계는 존재할 수 있습니다. 따라서 “독립 → 공분산=0″은 참이지만, “공분산=0 → 독립”은 거짓입니다.
💡 2과목 핵심 학습 포인트
📊 확률분포
- 이항분포: 평균=np, 분산=np(1-p)
- 포아송분포: 평균=분산=λ
- 정규분포: 대칭분포, 평균=중앙값=최빈값
- 초기하분포: 비복원추출 시 사용
📈 기술통계
- 중심경향: 평균, 중앙값, 최빈값
- 산포: 분산, 표준편차, IQR
- 치우침: 좌편향(평균<중앙값<최빈값), 우편향(최빈값<중앙값<평균)
🔍 데이터 전처리
- 결측치: 평균대체, 중앙값대체, 삭제
- 이상치: IQR 방법, Z-score 방법
- 변수변환: 더미변수, 표준화, 정규화
📊 통계분석
- 상관분석 : 피어슨(연속형), 스피어만(순서형)
- 회귀분석 : 선형회귀, 로지스틱회귀
- 검정 : t-검정(2그룹), ANOVA(3그룹 이상)
🎯 주요 개념
- 표본평균: 불편추정량, E(X̄) = μ
- 신뢰구간: 표본크기↑ → 구간폭↓
- 교차검증: 과적합 방지, 일반화 성능 향상