빅데이터분석기사 4과목 (빅데이터 결과 해석) 기출문제 복원 (10회)

빅데이터분석기사 4과목 기출문제 요약 이미지
제10회 빅데이터분석기사 4과목 기출문제 구성: 모델 검증과 최적화(40%), 평가 지표와 시각화(45%), 고급 분석(15%)

Table of Contents

빅데이터분석기사 “4과목 빅데이터 결과 해석” 분석

📊 4과목 출제 영역별 분석

모델 검증 & 최적화 (40%)

  • 교차 검증: 모델 안정성 평가의 핵심 기법
  • Grid Search: 모든 하이퍼파라미터 조합 전수조사
  • 과적합 판별: 훈련/검증 오차 패턴으로 진단
  • SGD 특성: 노이즈로 인한 수렴 불안정성

평가지표 (25%)

  • 회귀: MAE, MSE(제곱 필수!), RMSE, R²
  • 분류: F1 Score = 정밀도 × 재현율의 조화평균
  • 재현율: 실제 양성 중 정확히 예측한 비율

시각화 (20%)

  • 공간데이터: 카토그램(면적 왜곡), 단계구분도(집계), 등치선도(연속값)
  • 변수 관계: 산점도, 히트맵 vs 분포: 히스토그램

고급 분석 (15%)

  • 로지스틱 회귀: 계수 → 오즈비(e^계수)로 해석
  • Lasso 회귀: L1 규제로 변수 자동 선택
  • 데이터 품질: 완전성, 유효성, 일관성 등

🎯 빅데이터분석기사 4과목 핵심 포인트

  1. 수식 정확도: MSE 제곱항, F1 계산식
  2. 해석 능력: 학습곡선, 로지스틱 회귀 결과
  3. 개념 구분: 하이퍼파라미터 vs 모델파라미터
  4. 계산 문제: 교차검증 훈련 횟수 = 조합수 × 폴드수

난이도: 기본개념 60% + 응용계산 25% + 심화해석 15%

빅데이터분석기사 기출 61. 분석 모델의 안정성을 평가하기 위해 훈련 데이터를 여러 서브셋으로 나누어 모델을 반복적으로 검증하는 방법론은?

① 그리드 탐색 (Grid Search)
② 교차 검증 (Cross-Validation)
③ 앙상블 학습 (Ensemble Learning)
④ 정규화 (Regularization)

정답: ② 해설: 교차 검증은 데이터를 여러 부분으로 나누어 일부는 훈련용으로, 일부는 검증용으로 사용하여 모델의 일반화 성능과 안정성을 평가하는 기법입니다.

62. 그리드 탐색(Grid Search)을 이용한 하이퍼파라미터 최적화에 대한 설명으로 가장 옳은 것은?

① 랜덤하게 선택된 일부 조합만 탐색하여 최적의 파라미터를 찾는다.
② 모든 가능한 하이퍼파라미터 조합을 시도하여 가장 좋은 성능을 내는 조합을 찾는다.
③ 이전 탐색 결과를 바탕으로 더 나은 성능을 보일 가능성이 있는 영역을 예측하여 탐색한다.
④ 경사 하강법을 사용하여 최적의 하이퍼파라미터 조합을 찾는다.

정답: ② 해설: 그리드 탐색은 사용자가 지정한 하이퍼파라미터 값들의 모든 조합에 대해 성능을 평가하는 전역 탐색(Exhaustive Search) 방법입니다.

63. 다음 중 학습 곡선(Learning Curve)에 대한 해석으로 가장 적절한 것은? (문제 예시: 학습 곡선 그래프가 주어지며, 훈련 오차와 검증 오차가 모두 낮은 수준에서 수렴하고 더 이상 개선되지 않는 형태)

① 모델이 과대적합(Overfitting) 상태이므로 규제(Regularization)를 강화해야 한다.
② 모델이 과소적합(Underfitting) 상태이므로 더 복잡한 모델을 사용해야 한다. ③ 훈련 데이터가 더 많이 필요하며, 추가 데이터를 확보하면 성능이 개선될 것이다.
④ 모델이 최적으로 수렴하여 더 이상 훈련 데이터가 추가되어도 성능 개선이 거의 불가능하다.

정답: ④ 해설: 훈련 오차와 검증 오차가 모두 낮고 수평적으로 수렴했다면, 모델이 현재 데이터에서 충분히 학습했음을 의미합니다. 이 상태에서는 데이터를 더 추가해도 성능 향상을 기대하기 어렵습니다.

64. 모델 훈련 과정에서 훈련 오차(Training Error)는 계속 감소하지만, 검증 오차(Validation Error)는 특정 시점부터 감소하다가 다시 증가하는 현상이 나타났다. 이 현상을 무엇이라고 하는가?

① 과소적합 (Underfitting)
② 과대적합 (Overfitting)
③ 경사 소실 (Vanishing Gradient)
④ 지역 최솟값 (Local Minimum)

정답: ② 해설: 훈련 데이터에만 너무 잘 맞춰져 새로운 데이터(검증 데이터)에 대한 예측 성능이 떨어지는 현상으로, 과대적합의 전형적인 특징입니다.

빅데이터분석기사 기출문제 65. 확률적 경사 하강법(Stochastic Gradient Descent, SGD)의 특징으로 거리가 먼 것은?

① 전체 데이터가 아닌 일부 샘플(미니배치)을 사용하여 파라미터를 업데이트한다.
② 학습 속도가 빠르고 대용량 데이터 처리에 적합하다.
③ 파라미터 업데이트 시 노이즈가 있어 전역 최솟값(Global Minimum)을 지나칠 수 있다.
④ 항상 전역 최솟값으로 수렴하는 것을 보장한다.

정답: ④ 해설: SGD는 학습 과정의 노이즈(불확실성) 때문에 지역 최솟값(Local Minimum)에 빠질 위험이 있으며, 전역 최솟값으로의 수렴을 항상 보장하지는 않습니다.

66. 하이퍼파라미터(Hyperparameter)에 대한 설명으로 틀린 것은?

① 모델 학습 전에 사용자가 직접 설정해야 하는 값이다.
② 딥러닝 모델의 은닉층 수나 학습률(learning rate)이 이에 해당한다.
③ 모델이 학습 과정에서 스스로 학습하고 업데이트하는 파라미터이다.
④ 그리드 탐색(Grid Search)이나 랜덤 탐색(Random Search)을 통해 최적화할 수 있다.

정답: ③ 해설: 모델이 학습 과정에서 스스로 학습하는 파라미터는 가중치(weight)나 편향(bias)과 같은 모델 파라미터(Model Parameter)입니다. 하이퍼파라미터는 학습에 영향을 주는 외부 변수입니다.

67. 교차 검증(Cross-Validation) 방법 중, 전체 데이터에서 단 하나의 샘플만을 검증용으로 사용하고 나머지를 훈련용으로 사용하는 과정을 모든 데이터에 대해 반복하는 기법은?

① 홀드아웃 (Hold-out)
② K-폴드 교차 검증 (K-Fold Cross-Validation)
③ LOOCV (Leave-One-Out Cross-Validation)
④ 부트스트래핑 (Bootstrapping)

정답: ③ 해설: LOOCV는 데이터의 수(n)만큼 모델을 훈련 및 평가하는 교차 검증 방식으로, 데이터셋이 작을 때 주로 사용됩니다.

68. 10개의 하이퍼파라미터 조합에 대해 최적의 조합을 찾기 위해 10-겹 교차 검증(10-fold cross-validation)을 적용할 경우, 모델은 총 몇 번 훈련되는가?

① 10번 ② 20번 ③ 100번 ④ 1000번

정답: ③ 해설: 각 하이퍼파라미터 조합마다 10번의 훈련(10-fold)을 수행해야 하므로, 총 훈련 횟수는 (하이퍼파라미터 조합 수) x (폴드 수) = 10 x 10 = 100번입니다.

69. 데이터 시각화 방법 중, 표현하려는 수치의 크기에 따라 지도의 행정구역 면적이 왜곡되어 표현되는 시각화 기법은?

① 등치선도 (Isoline Map)
② 점묘도 (Dot Density Map)
③ 단계 구분도 (Choropleth Map)
④ 카토그램 (Cartogram)

정답: ④ 해설: 카토그램은 인구, GDP 등 특정 데이터 값의 크기에 비례하여 지리적 영역의 크기를 왜곡하여 표현하는 지도 시각화 방법입니다.

70. 공간 데이터 시각화에 대한 설명으로 틀린 것은?

① 단계 구분도(Choropleth Map)는 지역별 통계치를 색상의 농도나 패턴으로 표현한다.
② 카토그램(Cartogram)은 통계 값에 따라 지역의 면적을 변형시켜 표현한다.
③ 등치선도(Isoline Map)는 기온이나 고도처럼 연속적인 값을 가진 지점들을 선으로 연결하여 표현한다.
④ 단계 구분도(Choropleth Map)는 특정 지점의 정확한 위치 정보를 표현하는 데 가장 적합하다.

정답: ④ 해설: 단계 구분도는 행정구역과 같은 폴리곤(polygon) 단위의 집계 데이터를 표현하는 데 적합하며, 특정 지점의 정확한 위치를 나타내기에는 부적합합니다.

71. 회귀 모델의 평가지표에 대한 수식으로 틀린 것은? (N: 데이터 수, yi​: 실제값, y^​i​: 예측값)

회귀 모델의 주요 평가 지표: MAE, MSE, RMSE, R² 공식 비교
회귀 모델의 주요 평가 지표: MAE, MSE, RMSE, R² 공식 비교

정답: ② 해설: MSE(Mean Squared Error)는 오차의 ‘제곱’ 평균을 의미합니다. 보기 ②번의 수식에는 오차에 대한 제곱(²)이 빠져 있으므로 잘못된 수식입니다. 정확한 수식은

MSE Mean Squared Error 평균 제곱 오차 공식 이미지
MSE(평균 제곱 오차)는 예측값과 실제값의 차이를 제곱해 평균한 지표

입니다.

72. 분류 모델의 평가지표인 F1 Score를 계산하기 위해 필요한 두 가지 구성요소는?

① 정확도(Accuracy), 특이도(Specificity)
② 민감도(Sensitivity), ROC Curve
③ 정밀도(Precision), AUC
④ 정밀도(Precision), 재현율(Recall)

정답: ④ 해설: F1 Score는 정밀도와 재현율의 조화 평균으로 계산되는 지표입니다. (F1=2⋅Precision+RecallPrecision⋅Recall​)

73. 분류 모델의 성능 평가에서 ‘실제 값이 참(True)인 데이터 중에서 모델이 참(True)으로 예측한 데이터의 비율’을 나타내는 지표는?

① 정확도 (Accuracy)
② 정밀도 (Precision)
③ 재현율 (Recall) 또는 민감도 (Sensitivity)
④ 특이도 (Specificity)

정답: ③ 해설: 이는 재현율(Recall) 또는 민감도(Sensitivity)의 정의입니다. (TP / (TP + FN))

분류 모델 평가 지표 Accuracy, Precision, Recall, Specificity 공식 이미지
분류 모델의 대표적 성능 지표: 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), 특이도(Specificity)

74. 다음 중 홀드아웃(Hold-out) 데이터 검증 방법에 대한 설명으로 가장 적절한 것은?

① 전체 데이터를 K개의 부분집합으로 나누어 K번 검증을 수행한다.
② 전체 데이터를 훈련(train), 검증(validation), 시험(test) 데이터셋으로 분리하여 모델을 평가한다.
③ 데이터에서 1개의 샘플만 테스트용으로 사용하고 나머지는 훈련용으로 사용하는 것을 반복한다.
④ 원본 데이터에서 중복을 허용하여 샘플을 뽑아 훈련 데이터를 구성한다.

정답: ② 해설: 홀드아웃은 전체 데이터를 보통 2개 또는 3개의 집합으로 나누어, 훈련에 사용되지 않은 데이터로 모델의 성능을 검증하는 가장 단순한 방식의 검증 기법입니다.

75. 모델의 과대적합(Overfitting)에 대한 설명으로 옳은 것은?

① 데이터의 수가 많을수록 발생하기 쉽다.
② 모델의 복잡도가 낮을 때 주로 발생한다.
③ 훈련 데이터에 대한 성능은 낮지만, 검증 데이터에 대한 성능은 높게 나타난다. ④ 데이터의 수가 적거나 모델이 너무 복잡할 때 발생할 수 있다.

정답: ④ 해설: 데이터의 수가 적으면 모델이 데이터의 특정 패턴이나 노이즈까지 학습하게 되어 과대적합이 발생하기 쉽습니다.

76. 로지스틱 회귀분석 결과표를 해석한 내용으로 틀린 것은? (가상의 결과표 제시 가정) (예시 결과: 변수 ‘자격증 유무’의 p-value=0.01, coef=1.5 / 변수 ‘나이’의 p-value=0.25, coef=0.2)

① 유의수준 5%에서 ‘자격증 유무’는 직업 전환에 유의한 영향을 미친다.
② 자격증을 가진 사람은 가지지 않은 사람보다 직업을 전환할 가능성이 높다.
③ ‘나이’는 직업 전환에 유의한 영향을 미친다고 보기 어렵다.
④ ‘나이’가 한 살 증가할수록 직업을 전환할 확률이 0.2% 증가한다.

정답: ④ 해설: 로지스틱 회귀의 계수(coefficient)는 로짓(logit) 변환된 값으로, 직접적으로 확률의 변화를 의미하지 않습니다. 계수 값에 지수함수(ecoef)를 적용하여 오즈비(Odds Ratio)로 변환해야 해석이 가능합니다. 예를 들어, 계수가 0.2일 때 오즈비는 e0.2≈1.22로, ‘나이’가 한 살 증가할수록 직업 전환에 대한 오즈(odds)가 약 1.22배(22%) 증가한다고 해석해야 합니다. 따라서 확률이 0.2% 증가한다는 해석은 명백히 잘못되었습니다.

77. Lasso 회귀분석이 변수 선택(feature selection) 효과를 가지는 이유로 가장 적절한 것은?

① L2 페널티 항을 사용하여 변수 간의 상관관계를 줄이기 때문이다.
② L1 페널티 항이 일부 변수의 회귀계수를 정확히 0으로 만들기 때문이다.
③ 모든 변수의 회귀계수 크기를 동일한 비율로 감소시키기 때문이다.
④ 결정나무 기반으로 중요하지 않은 변수를 제거하기 때문이다.

정답: ② 해설: Lasso 회귀는 손실 함수에 L1 규제(계수들의 절댓값 합)를 추가하며, 이로 인해 덜 중요한 변수들의 계수가 0이 되어 해당 변수들이 모델에서 제외되는 효과가 있습니다.

78. 데이터 품질(Data Quality)의 주요 관리 차원(Dimension)으로 볼 수 없는 것은?

① 완전성 (Completeness) ② 유효성 (Validity) ③ 일관성 (Consistency) ④ 다양성 (Diversity)

정답: ④ 해설: 데이터 품질의 주요 차원에는 완전성, 유효성, 일관성, 정확성(Accuracy), 적시성(Timeliness), 유일성(Uniqueness) 등이 있습니다. 다양성은 데이터의 특징일 수는 있으나, 품질을 측정하는 관리 차원으로 보기는 어렵습니다.

데이터 품질 관리 4가지 차원: 완전성, 유효성, 일관성, 다양성 이미지"
데이터 품질 관리 주요 차원 중 완전성, 유효성, 일관성은 핵심 지표이며, 다양성은 품질 관리 차원이 아님

79. 인포그래픽(Infographic)에 대한 설명으로 가장 거리가 먼 것은?

① 정보, 데이터, 지식을 시각적으로 표현한 것이다.
② 복잡한 정보를 빠르고 명확하게 전달하는 것을 목적으로 한다.
③ 차트, 지도, 다이어그램, 이미지 등 다양한 시각적 요소를 포함한다.
④ 데이터 시각화와는 완전히 다른 개념으로, 데이터 분석 결과를 포함하지 않는다.

정답: ④ 해설: 인포그래픽은 데이터 시각화를 포함하는 더 넓은 개념으로 볼 수 있으며, 종종 데이터 분석 결과를 스토리텔링 형식으로 전달하기 위해 사용됩니다. 데이터 시각화와 완전히 다른 개념이라고 보기는 어렵습니다.

80. 다음 중 변수 간의 관계(Relationship)를 파악하기 위한 시각화 방법으로 가장 거리가 먼 것은?

① 산점도 (Scatter Plot) ② 히트맵 (Heatmap) ③ 네트워크 그래프 (Network Graph) ④ 히스토그램 (Histogram)

정답: ④ 해설: 히스토그램은 단일 변수의 데이터 분포(Distribution)를 확인하기 위한 시각화 방법입니다. 산점도, 히트맵, 네트워크 그래프 등은 두 개 이상의 변수 간 관계를 나타내는 데 사용됩니다.

데이터 시각화 그래프 예시: 산점도, 히트맵, 네트워크 그래프, 히스토그램
대표적인 데이터 시각화 그래프 4가지 유형: 산점도, 히트맵, 네트워크 그래프, 히스토그램

빅데이터분석기사 10회

댓글 달기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

위로 스크롤