제46회 데이터분석 준전문가 시험 출제 경향 분석

2025년 8월 9일에 시행된 제46회 데이터분석 준전문가(ADsP) 시험은 전반적으로 이전 시험과 유사하거나 쉬운 난이도로 출제된 것으로 보입니다. 다만, 데이터베이스 관련 문제가 많이 출제되었고, 3과목(데이터 분석)에서는 ADP 시험 수준의 새로운 유형 문제가 일부 출제되었다는 의견도 있었습니다.
- 1과목 (데이터 이해) : 난이도가 쉬운 편이었습니다. 기출문제와 예상문제 위주로 공부했다면 8문제 이상 맞출 수 있는 수준이었다고 평가됩니다.
- 2과목 (데이터 분석 기획) : 이 과목 역시 지난 시험과 비슷하거나 쉬운 난이도였습니다.
- 3과목 (데이터 분석) : 전체 30문제 중 20문제 이상이 기존 기출문제, 예상문제, 모의고사와 비슷한 난이도로 출제되어 합격에 무리가 없는 수준이었습니다. 그러나 일부 신유형 문제가 포함되어 체감 난이도가 높게 느껴졌다는 의견도 있었습니다.
제 46회 ADsP 1과목 데이터 이해
1. DIKW 피라미드에 대한 설명과 용어가 가장 잘 연결된 것은?
가. A마트는 100원에, B마트는 300원에 연필을 판매한다.
나. A마트의 연필이 B마트보다 싸다.
다. 상대적으로 저렴한 A마트에서 연필을 사야겠다.
라. 다른 상품들도 A마트가 B마트보다 저렴할 것으로 판단된다.
① 가: 데이터, 나: 정보, 다: 지식, 라: 지혜
② 가: 정보, 나: 지식, 다: 지혜, 라: 데이터
③ 가: 지식, 나: 지혜, 다: 데이터, 라: 정보
④ 가: 지혜, 나: 데이터, 다: 정보, 라: 지식
정답: ①
해설 : DIKW 피라미드는 데이터(Data), 정보(Information), 지식(Knowledge), 지혜(Wisdom)의 4단계로 구성된 데이터 활용 체계입니다.
데이터 : 가공되지 않은 단순한 사실(Fact)입니다.’A마트 100원, B마트 300원’은 가공되지 않은 단순한 수치죠.
정보 : 데이터에 의미를 부여하여 특정 질문에 답할 수 있는 형태입니다. ‘A마트의 연필이 B마트보다 싸다’는 데이터를 비교·분석하여 의미를 파악한 것입니다.
지식 : 정보를 기반으로 행동을 도출하는 단계입니다. ‘A마트에서 사야겠다’는 정보를 바탕으로 의사결정을 한 것입니다.
지혜 : 지식을 일반화하여 전략적인 판단을 내리는 단계입니다. ‘다른 상품들도 A마트가 더 저렴할 것’이라고 판단하는 것은 지식을 넓게 적용한 것입니다.

2. 다음 중 데이터에 대한 설명으로 옳은 것을 고르시오.① 정성적 데이터는 정량적 데이터에 비해 저장, 분석, 처리에 더 적은 비용과 기술을 수반한다.
② 정성적 데이터는 주로 정형화된 형태로 저장된다.
③ 정성적 데이터는 주로 비정형(텍스트, 이미지, 영상) 형태로, 정량적 데이터보다 저장, 분석, 처리에 더 많은 비용과 기술이 필요하다.
④ 정량적 데이터는 분석하기 매우 어렵다.
정답 : ③
해설 : 정성적(Qualitative) 데이터는 주로 비정형 데이터로, 텍스트, 이미지, 영상 등과 같이 형태가 정해져 있지 않은 데이터를 말합니다. 이러한 데이터는 저장, 분석, 처리하는 데 더 많은 비용과 기술이 필요합니다. 반면 정량적(Quantitative) 데이터는 수치 형태로 정형화되어 있어 분석이 비교적 용이합니다.
3. 다음 중 데이터베이스의 일반적인 특징과 설명이 적절하게 연결된 것은?① 통합된 데이터 – 동일한 내용의 데이터가 중복되어 있지 않다는 것을 의미한다.
② 공유 데이터 – 한정된 자원으로 인해 여러 사용자가 동시에 데이터를 사용할 수 없다는 것을 의미한다.
③ 운영 데이터 – 데이터베이스에 저장된 데이터를 삭제할 수 없다는 것을 의미한다.
④ 저장 데이터 – 현재 사용되지 않는 데이터를 저장하는 것을 의미한다.
정답 : ①
해설: 데이터베이스의 특징 중 통합된 데이터(Integrated Data)는 동일한 내용의 데이터가 불필요하게 중복되지 않도록 통합되어 관리되는 것을 의미합니다.
4. 다음 중 기업 내부 데이터베이스 관련 설명으로 옳은 것은?① OLTP는 조회와 분석에 주로 사용된다.
② OLAP는 거래 처리를 주로 수행한다.
③ OLTP는 거래 입력, 수정, 삭제 등 온라인 거래 처리에 사용된다.
④ OLTP와 OLAP는 동일한 목적으로 사용된다.
정답 : ③
해설 : OLTP(Online Transaction Processing)는 거래 입력, 수정, 삭제 등 온라인으로 발생하는 거래를 처리하는 데 사용됩니다. 반면, OLAP(Online Analytical Processing)는 거래 데이터를 분석하여 의사결정을 지원하는 데 사용됩니다.
5. 다음 중 정보의 축적과 전달 측면에서 데이터베이스의 특징으로 옳지 않은 것은?① 데이터베이스는 정보 처리, 검색, 관리 소프트웨어와 관련 하드웨어의 발전을 견인할 수 있다.
② 데이터베이스는 정보 전송을 위한 네트워크 기술의 발전을 견인한다.
③ 정보이용성(Information Utility)은 정보의 축적과 전달 측면의 핵심 요소에 해당한다.
④ 정보이용성은 정보기술 발전 측면의 핵심 요소이다.
정답: ④
해설: 정보의 축적과 전달 측면의 핵심 요소에는 기계 가용성, 검색 가능성, 원격 조작성 등이 해당합니다. 정보이용성(Information Utility)은 정보의 축적과 전달 측면이 아니라 정보기술 발전 측면의 내용입니다.
6. 데이터와 관련된 보기 중 설명이 옳은 것을 모두 고르시오.
(가) OLTP는 다차원 데이터를 대화식으로 분석하고 복잡한 쿼리를 빠르게 처리하여 사용자에게 통찰을 제공하는 데이터 처리 기술이다.
(나) ETL은 다양한 DBMS에서 데이터를 가져와 정리한 후, 분석에 적합한 형태로 최종 저장소에 저장하는 프로세스다.
(다) 데이터 마이닝은 대량의 데이터에서 숨겨진 패턴과 규칙을 찾아내어 의사결정에 활용하는 기법이다.
① 가, 나
② 나, 다
③ 가, 다
④ 가, 나, 다
정답: ②
해설
가 : OLTP는 온라인 거래 처리에 사용되며, 다차원 데이터 분석은 OLAP의 역할입니다. 따라서 ‘가’는 틀린 설명입니다.
나: ETL(Extract, Transform, Load)은 데이터를 추출(Extract)하고, 변환(Transform)하며, 적재(Load)하는 과정으로, 다양한 소스에서 데이터를 가져와 데이터 웨어하우스에 저장하기 위해 정제, 통합, 변환하는 포괄적인 프로세스입니다. 따라서 ‘나’는 맞는 설명입니다.
다: 데이터 마이닝은 대량의 데이터에서 패턴과 규칙을 발견하여 의사결정에 활용하는 기법입니다. 따라서 ‘다’는 맞는 설명입니다.
7. 빅데이터 출현 배경으로 옳은 것을 모두 고른 것은?
가: 기업과 기관에서 발생하는 데이터가 지속적으로 축적되어 데이터의 양이 폭발적으로 증가하였다.
나: 클라우드 컴퓨팅, 네트워크 속도, 저장 기술 등 기술적 진보가 이루어졌다.
다: 아날로그 정보가 디지털화되면서 데이터 수집·저장이 용이해졌다.
① 가
② 가, 나
③ 가, 다
④ 가, 나, 다
정답: ④
해설: 빅데이터의 출현 배경에는 데이터 양의 폭발적인 증가(규모), 저장 장치, 네트워크, 클라우드 기술 등의 발전(기술), 그리고 아날로그 정보의 디지털화(디지털 전환)가 있습니다. 따라서 모두 빅데이터 출현의 배경에 해당합니다.
8. 다음 중 빅데이터가 만들어 내는 본질적인 변화로 맞는 것은?
① 데이터의 질 중심에서 양 중심으로 변화하였다.
② 데이터의 양 중심에서 질 중심으로 변화하였다.
③ 데이터 수집이 어려워졌다.
④ 데이터 분석이 복잡해졌다.
정답: ①
해설: 빅데이터 시대에는 모든 데이터를 수집하고 분석할 수 있게 되면서, 표본 조사에 의존했던 이전과 달리 데이터의 양을 중요하게 여기게 되었습니다.
9. 다음 중 분류 분석의 적용 사례로 옳지 않은 것은?
① 신용카드 부정 사용 예측
② 고객 이탈 예측
③ 스팸 메일 분류
④ 위치와 면적을 통한 아파트 가격 예측
정답: ④
해설: 분류 분석(Classification Analysis)은 특정 데이터를 여러 범주(Category)로 분류하여 예측하는 분석 기법입니다. [cite: 33] 반면, 위치와 면적을 통한 아파트 가격 예측은 가격이라는 연속적인 값을 예측하는 것이므로, 회귀 분석(Regression Analysis)에 해당합니다.
10. 빅데이터 시대의 위기 요인이 아닌 것은?
① 사생활 침해
② 데이터 오용 및 책임 문제
③ 기업 경쟁력 약화
④ 보안 문제
정답: ③
해설: 빅데이터를 활용하면 기업의 경쟁력이 오히려 강화되는 경우가 많으므로, 기업 경쟁력 약화는 빅데이터 시대의 위기 요인으로 보지 않습니다.
ADsP 기출 2과목 데이터 분석 기획
11. 데이터 분석 도입에 대한 설명으로 적절하지 않은 것은?
① 분석 도입을 위해 분석 과제를 도출해야 한다.
② 핵심 분석 과제에 집중하는 것이 효율적이다.
③ 핵심 분석이 아닌 여러 분석을 동시에 사용해야 한다. [cite: 49]
④ 분석 과제 우선순위를 선정해야 한다.
정답: ③
해설: 데이터 분석은 핵심 과제에 집중하여 수행하는 것이 효율적이며, 여러 분석을 무분별하게 동시에 수행하는 것은 자원 낭비와 혼란을 초래할 수 있습니다.
12. 분석 주제 유형에 대한 설명으로 적절한 것은?
① 분석 대상과 분석 방법 모두 모르는 경우, 통찰을 통해 문제를 해결한다.
② 분석 대상은 알지만 분석 방법은 모르는 경우, 최적화를 통해 문제를 해결한다.
③ 분석 대상과 분석 방법 모두 아는 경우, 최적화(Optimization)를 통해 문제를 해결한다. [cite: 51]
④ 분석 대상은 모르지만 분석 방법은 아는 경우, 솔루션 개발을 통해 문제를 해결한다.
정답: ③
해설: 분석 대상과 분석 방법이 모두 명확하게 정의되어 있다면, 이를 기반으로 현재 문제를 최적화하는 단계인 최적화(Optimization)를 통해 문제를 해결합니다.
13. CRISP-DM 분석 방법론에 대한 설명으로 적절한 것은?
① 단방향으로 진행되는 분석 방법론이다.
② 단계별로 한 번씩만 수행하는 것이 원칙이다.
③ 분석 산업 전반에 걸쳐 범용적으로 적용 가능한 표준 프로세스다.
④ 업무 이해 – 데이터 준비 – 데이터 이해 – 모델링 – 평가 – 전개 순서로 구성되어 있다.
정답: ③
해설: CRISP-DM(Cross Industry Standard Process for Data Mining)은 여러 산업에 걸쳐 적용할 수 있는 데이터 마이닝 표준 프로세스입니다. 단방향이 아닌 필요에 따라 이전 단계로 반복(iteration)하여 돌아갈 수 있습니다. 또한, 순서는 업무 이해 – 데이터 이해 – 데이터 준비 – 모델링 – 평가 – 전개 단계로 구성되어 있습니다.
14. 분석과제 정의서에 대한 내용으로 적절하지 않은 것은?
① 분석 대상 데이터를 정의해야 한다.
② 내부 데이터만 분석 대상으로 포함한다.
③ 외부 데이터를 포함할 수 있다.
④ 분석의 목적과 목표를 명확히 해야 한다.
정답: ②
해설: 분석 과제 정의서에서 규정하는 분석 대상 데이터는 내부 데이터뿐만 아니라 공공 데이터, 외부 통계, 시장 데이터와 같은 외부 데이터도 포함할 수 있습니다. [cite: 2, 55]
15. 다음 문장에서 (ㄱ)과 (ㄴ)에 들어갈 용어를 바르게 짝지은 것은?
분석 모델의 성능을 평가할 때, 예측값과 실제값의 차이를 줄이는 것은 (ㄱ)을 높이는 것이라 할 수 있으며, 예측을 반복했을 때 예측들의 차이를 줄이는 것은 (ㄴ)을 높이는 것이라 할 수 있다.
① ㄱ: 정확도, ㄴ: 정밀도
② ㄱ: 정밀도, ㄴ: 정확도
③ ㄱ: 정확도, ㄴ: 재현율
④ ㄱ: 재현율, ㄴ: 정밀도
정답: ①
해설: 정확도(Accuracy)는 예측값이 실제값에 얼마나 가까운지를 나타내는 지표입니다. 정밀도(Precision)는 동일한 조건에서 반복 측정했을 때 결과가 얼마나 일관성 있게 유지되는지를 나타내는 지표입니다.
16. 상향식 접근법에 대한 설명으로 적절하지 않은 것은?
① 데이터에서 시작하여 패턴을 발견한다.
② 확실한 구조와 데이터가 주어져야 한다. [cite: 60]
③ 데이터의 구조가 완벽하지 않아도 분석을 시작할 수 있다.
④ 데이터 기반 탐색 방식이다.
정답: ②
해설: 상향식 접근법(Bottom-up Approach)은 데이터에서 출발해 패턴을 발견하고 이를 기반으로 분석 목표를 정의하는 방식입니다. 데이터나 구조가 완벽히 준비되지 않아도 분석을 시작할 수 있다는 장점이 있습니다.
17. 하향식 접근법의 문제 탐색단계에서 탐색 기법으로 틀린 것은?
① 비즈니스 모델 기반 탐색
② 외부 참조 모델 탐색
③ 분석 유스 케이스 탐색
④ 데이터 기반 탐색
정답: ④
해설: 하향식 접근법(Top-down Approach)의 문제 탐색 단계에서는 비즈니스 모델 기반 탐색, 외부 참조 모델 탐색, 분석 유스 케이스 탐색 등이 핵심 기법입니다. 데이터 기반 탐색은 상향식 접근법에 해당합니다.
18. A 회사는 현재 고객 유지와 신규 고객 확보를 위한 두 가지 과제를 추진하려고 한다. 다음 중 A회사가 가장 먼저 해결해야 할 과제는 무엇인가?
과제 1: 최근 이탈 위험이 높은 고객을 대상으로 한 긴급 유지 캠페인, 이는 시급성은 높지만 난이도가 낮아 빠른 실행과 즉각적인 효과 측정이 가능하다.
과제 2: 장기적인 브랜드 마케팅을 통한 충성 고객 확보 전략, 이는 시급성이 낮고 난이도가 높아 신중한 계획 수립과 장기간에 걸친 지속적인 투자가 필요하다.
① 과제1을 우선적으로 수행한다.
② 과제2를 우선적으로 수행한다.
③ 두 과제를 동시에 수행한다.
④ 어떤 과제를 우선적으로 수행할지 판단할 수 없다.
정답: ①
해설: 분석 과제 선정 시, 시급성은 높고 난이도가 낮은 과제가 일반적으로 우선순위가 높습니다. [cite: 67] 이러한 과제는 빠른 성과 창출이 가능하고 실행 부담이 적기 때문입니다.
19. 우선순위 선정 기준에 대한 설명으로 적절하지 않은 것은?
① 시급성은 전략적 중요도를 핵심 기준으로 삼는다.
② 난이도는 데이터 확보, 기술, 인력 등의 측면을 고려한다.
③ 시급성은 전략적 중요도와 데이터 분석 비용에 의해 결정된다.
④ 난이도가 낮고 시급성이 높은 과제는 우선적으로 수행한다.
정답: ③
해설: 우선순위 판단 기준 중 시급성의 핵심은 전략적 중요도입니다. 데이터 분석 비용은 난이도와 더 큰 관련이 있습니다.
20. 분석준비도에 들어갈 내용으로 옳지 않은 것은?
① 조직 및 인력
② 분석 기술
③ 정보 시스템
④ 재무 상태
정답: ④
해설: 데이터 분석 준비도 진단 영역에는 분석 업무, 조직 및 인력, 분석 기술, 정보 시스템 등이 포함됩니다. 재무 상태는 분석 준비도 진단 영역이 아닌, 기업 경영 분석 요소입니다.
데이터분석준전문가 3과목 데이터 분석
21. 두 확률변수 X와 Y의 표본 공분산을 구하시오.
X = [1,2,3,4,5], Y = [2,4,5,6,8]
① 3.5
② 4.0
③ 4.5
④ 5.0
정답: ①
해설:
표본 공분산은 두 변수(X, Y)가 함께 어떻게 변하는지를 나타내는 통계량입니다.

22. 다음 확률변수 X와 확률분포 P(X)가 주어졌을 때, 기대값을 구하시오.
X = [1,2,3,4], P(X) = [0.4, 0.3, 0.2, 0.1]
① 2.0
② 2.5
③ 3.0
④ 3.5
정답: ①
해설
기댓값 E(X)는 확률변수 X에 해당하는 값과 그 확률을 곱하여 모두 더한 값입니다.
![확률변수의 기댓값 공식 E[X] = Σ Xi · P(Xi) 수식](https://yddaily.com/wp-content/uploads/2025/09/expected-value-formula.png)
E(X) = (1X0.4) + (2X0.3) + (3X0.2) + (4X0.1) = 0.4 + 0.6 + 0.6 + 0.4 = 2.0
23. 다음 중 시그모이드(Sigmoid) 함수의 출력 범위로 옳은 것은?① y > 0
② 0 < y < 1
③ -1 < y < 1
④ 0 <= y <= 1
정답: ②
해설: 시그모이드 함수는 모든 실수를 입력으로 받아 출력을 0과 1 사이의 값으로 변환하는 비선형 함수입니다.
24. 다음 중 데이터 마이닝 수행 단계의 순서로 가장 적절한 것은?① 목적 정의 → 데이터 가공 → 데이터 준비 → 기법 적용 → 검증
② 목적 정의 → 데이터 준비 → 데이터 가공 → 기법 적용 → 검증
③ 데이터 가공 → 데이터 준비 → 목적 정의 → 기법 적용 → 검증
④ 목적 정의 → 데이터 가공 → 기법 적용 → 데이터 준비 → 검증
정답: ②
해설: 데이터 마이닝의 올바른 수행 순서는 목적 정의 → 데이터 준비 → 데이터 가공 → 데이터 마이닝 기법 적용 → 검증입니다.
25. K-평균 군집 분석에서 초기 군집 중심(centroid) 설정 방법으로 가장 적절한 것은 무엇인가?
① 데이터셋 내의 모든 데이터 포인트의 평균을 구한다.
② 데이터셋 내의 모든 데이터 포인트의 중앙값을 구한다.
③ 데이터셋 내의 임의의 K개 관측점을 무작위로 선택한다.
④ 군집의 개수만큼 평균값을 설정한다.
정답: ③
해설: K-평균 군집 분석의 초기화 단계에서는 데이터셋에서 임의의 K개 관측값을 무작위로 선택하여 초기 군집 중심(centroid)으로 설정합니다.
26. 실제 값이 참(Positive)인 사례 중, 모델이 참(Positive)으로 올바르게 예측한 비율을 의미하는 지표는 무엇인가?
① 정확도(Accuracy)
② 정밀도(Precision)
③ F1-Score
④ 재현율(Recall)
정답: ④
해설: 재현율(Recall)은 실제 참인 값(Positive) 중에서 모델이 올바르게 참이라고 예측한 값의 비율을 나타냅니다.
27. 다음 회귀분석 결과에서 결정계수값을 구하시오.
SSE(오차제곱합) = 200
SSR(회귀제곱합) = 300
① 0.40
② 0.50
③ 0.60
④ 0.70
정답: ③
해설:
결정계수 R^2는 회귀모형이 종속변수 변동을 설명하는 비율을 의미하며, 값은 0과 1 사이입니다.

28. 다음 중 주성분 분석(PCA)에 대한 설명으로 가장 부적절한 것은?
① 데이터의 차원을 축소하는 데 사용된다.
② 변수 간 상관관계가 높은 경우 효과적이다.
③ 생성 가능한 주성분의 최대 개수는 데이터의 관측치 개수와 동일하다.
④ 분산이 가장 큰 방향으로 주성분을 생성한다.
정답: ③
해설: 주성분(Principal Component)의 최대 개수는 데이터의 특성(Feature) 개수와 동일하며, 관측치 개수와는 직접적인 관련이 없습니다.
29. 의사결정나무에서 가지치기(Post-pruning) 시 평가기준으로 사용되기 어려운 것은?
① 교차 검증 오차
② 검증 데이터셋 오차
③ 카이제곱 통계량
④ 잔차 제곱합(Sum of Squared Residuals)
정답: ④
해설: 잔차 제곱합(SSR)은 회귀나무(Regression Tree)에서 노드 내의 오차(잔차)를 줄이기 위한 분할 기준으로 사용됩니다. 분류 문제의 가지치기 평가 기준으로는 사용되지 않습니다.
30. 다음 중 정상 시계열의 특징에 대한 설명으로 옳은 것은?
① 시점에 관계없이 평균과 분산이 일정하다.
② 시점에 따라 평균과 분산이 변한다.
③ 시점에 따라 평균은 일정하고 분산은 변한다.
④ 시점에 따라 평균은 변하고 분산은 일정하다.
정답: ①
해설: 정상 시계열의 특징은 시점에 관계없이 평균과 분산이 일정하게 유지된다는 점입니다.
31. 다음 중 인공신경망(ANN)에 대한 설명으로 옳지 않은 것은?
① 렐루(ReLU) 함수는 입력이 0보다 작을 경우 0, 0보다 클 경우 입력값을 그대로 출력한다.
② 렐루(ReLU) 함수를 활성화 함수로 사용할 때, 은닉층이 없는 인공신경망은 로지스틱 회귀 모형과 동일한 특성을 가진다. [cite: 2, 114]
③ 시그모이드 함수는 0~1 범위의 확률을 출력하며 로지스틱 회귀의 확률 출력과 유사하다.
④ 은닉층의 노드 개수에는 규칙이 없다.
정답: ②
해설: 렐루(ReLU) 함수는 비선형 함수이며, 은닉층이 없는 인공신경망이라 하더라도 로지스틱 회귀 모형과 동일한 특성을 가지지는 않습니다.
32. 다음 중 인공신경망(ANN)에 대한 설명으로 옳지 않은 것은?
① 은닉층의 노드 개수에는 정해진 규칙이 없다.
② 은닉층의 노드 개수는 문제와 데이터에 따라 다르게 설계하는 것이 일반적이다.
③ 모든 은닉층 노드의 수는 동일해야 한다. [cite: 2, 125]
④ 다층 퍼셉트론(MLP)은 여러 개의 은닉층을 가질 수 있다.
정답: ③
해설: 은닉층의 노드 개수는 문제와 데이터에 따라 다르게 설계하는 것이 일반적이며, 모든 은닉층의 노드 수가 동일해야 한다는 규칙은 없습니다.
33. 다음 중 연관분석(Association Analysis)에 대한 설명으로 옳지 않은 것은?
① 함께 발생하는 항목 간의 관계를 파악하는 분석 기법이다.
② 지지도보다 신뢰도가 더 중요한 지표이다.
③ 지지도와 신뢰도를 통해 연관 규칙의 유용성을 평가한다.
④ 대표적인 예시로는 장바구니 분석이 있다.
정답: ②
해설: 연관분석에서는 규칙의 전반적인 발생 빈도를 나타내는 지지도(Support)와 규칙의 정확성을 나타내는 신뢰도(Confidence) 모두 중요합니다. 지지도가 너무 낮으면 통계적으로 의미가 없을 수 있으므로 최소 기준을 설정하는 것이 핵심입니다.
34. 완전 연결 인공신경망의 연결 가중치 수(바이어스 제외)를 구하시오.
입력층: 20개 노드
은닉층: 50개 노드
출력층: 3개 노드
① 1150
② 1000
③ 150
④ 2050
정답: ①
해설:
완전 연결(Fully Connected) 신경망에서 가중치 수는 인접한 두 층의 노드 수를 곱한 값의 합입니다.
입력층 → 은닉층 가중치 수: 20X50 = 1000
은닉층 → 출력층 가중치 수: 50X3 = 150
전체 가중치 수: 1000 + 150 = 1150
35. 다음 중 다차원척도법(MDS)의 활용 사례로 옳은 것은?
① 고객을 여러 그룹으로 군집화한다.
② 영화 간 유사성 분석 및 시각화
③ 고객 세그먼트를 정의한다.
④ 아파트 가격을 예측한다.
정답: ②
해설: 다차원척도법(MDS, Multidimensional Scaling)은 객체 간 유사도(또는 거리) 정보를 바탕으로 고차원 데이터를 2차원 또는 3차원 공간에 배치하여 시각화하는 기법입니다. 영화 데이터의 장르, 출연 배우 등을 이용해 영화 간 거리를 계산하고, MDS를 통해 유사한 영화들이 가깝게 배치된 시각화를 얻을 수 있습니다.
36. 다음 중 결측값 처리에 대한 설명으로 옳은 것은?
① 결측값을 대체하는 방법은 오직 평균값 대체뿐이다.
② 결측값 대체는 표본 수를 유지하고 정보 손실을 최소화하는 데 사용된다.
③ 결측값은 무조건 삭제하는 것이 가장 좋은 방법이다.
④ 결측값 대체 방식은 다양하다.
정답: ②
해설: 결측값 대체는 결측치로 인해 데이터 정보가 과도하게 삭제되는 것을 방지하고 표본 수를 유지하기 위해 사용됩니다. 단순 삭제, 평균/중앙값 대체, 회귀 대체 등 다양한 방법이 있습니다.
37. 가설 검정에 대한 설명으로 가장 적절하지 않은 것은?
① P-value는 유의수준보다 작으면 귀무가설을 기각한다.
② P-value가 유의수준보다 작으면 대립가설을 채택한다.
③ P-value가 유의수준보다 작으면 대립가설을 기각한다.
④ P-value가 유의수준보다 크면 귀무가설을 채택한다.
정답 : ③
해설 : P-value가 유의수준 보다 작으면 귀무가설을 기각하고, 대립가설을 채택합니다.
38. 다음 중 통계적 추론으로 적절하지 않은 것은?
① 표본을 통해 모집단의 특성을 추론한다.
② 30대 남성 표본 평균 체중의 기댓값을 모집단 평균 $\mu$로 판단할 수 있다.
③ 모집단 전체를 조사하는 것이다.
④ 표본의 통계량을 통해 모집단의 모수를 추정한다.
정답: ③
해설: 통계적 추론은 모집단 전체를 조사하는 것이 아니라, 표본의 통계량을 이용하여 모집단의 특성(모수)을 추론하는 것입니다. 모집단 전체를 조사하는 것은 전수조사라고 합니다.
39. 다음 중 상관 분석에 대한 설명으로 잘못된 것은?
① 두 변수 간의 관계의 정도와 방향을 파악하는 기법이다
② -1부터 1까지의 값을 갖는 상관계수를 사용한다.
③ 상관계수의 절댓값이 1에 가까울수록 강한 선형 관계를 의미한다.
④ 독립 변수에 대한 종속 변수의 값을 예측한다.
정답: ④
해설: 상관 분석은 두 변수 간의 관계의 정도와 방향을 파악하는 것이 목적이며, 독립 변수를 통해 종속 변수의 값을 예측하는 것은 회귀 분석(Regression Analysis)의 역할입니다.
40. 다음 중 분류 분석의 정의로 가장 올바른 것은?
① 이미 분류된 데이터를 바탕으로 새로운 데이터가 어떤 그룹에 속하는지 예측하는 분석 기법이다. [cite: 2, 112]
② 데이터들 사이의 숨겨진 구조를 찾아내어 그룹을 형성하는 분석 기법이다.
③ 두 변수 간의 관계를 파악하고 예측하는 분석 기법이다.
④ 데이터의 미래값을 예측하는 분석 기법이다.
정답: ①
해설: 분류 분석(Classification Analysis)은 과거에 분류된 학습 데이터를 이용하여 새로운 데이터가 어떤 범주(category)에 속하는지 예측하는 지도 학습(Supervised Learning) 기법입니다.
41. 다층 퍼셉트론(MLP)에서 출력층의 결과가 다변(multiclass)일 때 주로 사용하는 활성화 함수는 무엇인가?
① 시그모이드(Sigmoid)
② 렐루(ReLU)
③ 하이퍼볼릭 탄젠트(Tanh)
④ 소프트맥스(Softmax)
정답: ④
해설: 소프트맥스(Softmax) 함수는 분류 모델의 출력값을 확률 분포로 변환하는 함수입니다.
다중 클래스 분류 문제에서 각 클래스에 속할 확률을 얻기 위해 마지막 계층에서 주로 사용됩니다.
42. 1-특이도(False Positive Rate)를 X축으로 삼고 민감도(True Positive Rate)를 Y축으로 갖는 그래프는?
① ROC 커브
② PR 커브
③ 산점도
④ 히스토그램
정답: ①
해설: ROC 커브(Receiver Operating Characteristic Curve)는 분류 모델의 성능을 평가하기 위해 X축에 1-특이도(FPR)를, Y축에 민감도(TPR)를 나타낸 그래프입니다.
43. K-평균 군집 분석에서 초기 군집 중심(centroid)을 선택하는 방법으로 옳은 것은?
① 데이터 집합에서 무작위로 추출한다.
② 모든 데이터의 평균값을 사용한다.
③ 모든 데이터의 중앙값을 사용한다.
④ 전문가의 의견을 반영하여 설정한다.
정답: ①
해설: K-평균 군집 분석은 초기 군집 중심을 데이터셋 내의 K개 관측값을 무작위로 선택하여 설정합니다.
44. 다음 중 연관분석에 관한 설명 중 옳지 않은 것은?
① A와 B가 함께 발생할 확률을 지지도라고 한다.
② 규칙 A→B의 지지도가 낮으면 통계적으로 유의미한 규칙으로 보기 어렵다.
③ A→B일 때, 지지도보다 신뢰도가 더욱 중요한 지표이다. [cite: 2, 139]
④ 연관분석은 장바구니 분석에 활용된다.
정답: ③
해설: 연관분석에서 지지도(Support)와 신뢰도(Confidence)는 모두 중요한 지표이며, 지지도가 너무 낮으면 신뢰도가 높아도 의미 없는 규칙이 될 수 있습니다.
45. 다음 표는 특정 기간 동안 판매된 음료 구매 건수를 나타낸 것이다. “커피 → 우유”의 지지도(Support)를 구하시오.
항목 | 구매 건수 |
커피 | 100 |
우유 | 100 |
녹차 | 100 |
커피, 우유, 녹차 | 50 |
우유, 녹차 | 200 |
커피, 우유 | 250 |
커피, 녹차 | 200 |
① 0.2 ② 0.3 ③ 0.4 ④ 0.5
정답: ②
해설

46. 최장연결법을 이용하여 군집 분석을 수행한 결과에 대한 설명으로 옳지 않은 것은?
① 군집 간 거리는 가장 멀리 떨어진 개체들의 거리를 기준으로 한다.
② 모든 군집화 과정은 동일한 결과를 낳는다.
③ 군집화는 계층적 군집 분석에 속한다.
④ 군집 결과는 재분석 시 달라질 수 있다.
정답: ④
해설: 계층적 군집 분석은 결정론적 알고리즘이므로 동일한 데이터와 동일한 군집화 방법을 사용하면 결과는 항상 같습니다. 따라서 “군집 결과는 재분석 시 달라질 수 있다”는 설명이 옳지 않습니다.
46. 연관분석에서 최소 지지도를 2로 설정했다. 다음 보기 중 최대 길이의 빈발항목 집합으로 옳은 것은?
{a, b, c}, {b, c, e}, {c, e}, {a, b, c, e}, {a, b, c}
① {a, b, c}
② {b, c, e}
③ {c, e}
④ {a, b, c, e}
정답: ②
해설: 최소 지지도가 2이므로, 거래 목록에 2번 이상 등장하는 항목 집합을 찾아야 합니다.
{a, b, c}: 2번 등장
{b, c, e}: 2번 등장
{c, e}: 2번 등장
{a, b, c, e}: 1번 등장
이 중 최대 길이를 가진 빈발항목 집합은 {b, c, e}입니다.
48. 다음 중 로지스틱 회귀분석 결과에 대한 해석으로 옳지 않은 것은?
① 종속변수 default는 연체 여부(Yes/No)를 나타낸다.
② 독립변수 income이 증가하면 연체 확률이 증가한다. [cite: 2, 110]
③ 독립변수 balance가 고정일 때 income이 증가하면 연체 확률이 감소한다. [cite: 2, 110]
④ balance와 income 모두 통계적으로 유의미한 변수이다.

정답: ③

49. 다음 중 부스팅(Boosting)에 대한 설명으로 옳은 것은?
① 여러 개의 모델을 독립적으로 학습시켜 결과를 결합한다.
② 이전 모델의 오차를 보완하기 위해 약한 학습기를 순차적으로 학습시키는 앙상블 기법이다. [cite: 2, 123]
③ 모델의 예측력을 높이기 위해 순차적으로 진행하는 앙상블 분석 기법이다.
④ 모델 간의 상관관계를 낮추어 예측 성능을 높이는 기법이다.
정답: ②
해설: 부스팅(Boosting)은 여러 개의 약한 학습기(Weak Learner)를 순차적으로 학습시켜 이전 모델의 오차를 보완하고 예측 성능을 향상시키는 앙상블 기법입니다.
50. 중앙 50% 데이터가 흩어진 정도를 나타내는 것은?
① 평균
② 분산
③ 사분위수 범위(IQR)
④ 표준편차
정답: ③
해설: 사분위수 범위(IQR, Interquartile Range)는 제3사분위수에서 제1사분위수를 뺀 값으로, 데이터의 중앙 50%가 얼마나 퍼져 있는지를 나타내며 이상치에 영향을 덜 받습니다.
함께보면 좋은 글
“이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.”