분산분석(ANOVA): 세 집단 이상의 평균, 어떻게 비교할까?
목차
- 분산분석(ANOVA)이란 무엇인가?
- 분산분석의 심장: F분포의 이해
- 분석의 틀을 결정하는 주요 모형
- 상황에 맞는 분산분석 유형 선택하기
- 결론 그 너머: 추가 분석 기법
- 통계적 자유의 척도: 자유도(Degrees of Freedom)
- 실무 데이터 분석: 엑셀을 활용한 분산분석
- 결론 및 심화 학습
- 참고 문헌
1. 분산분석(ANOVA)이란 무엇인가?
신약 개발 연구에서 세 가지 다른 치료법(A, B, C)이 환자의 혈압 강하에 미치는 효과를 비교한다고 가정해 보자. 각 치료법을 적용받은 환자 집단의 평균 혈압 강하 수치가 다른지 어떻게 통계적으로 확인할 수 있을까? 두 집단의 평균을 비교할 때는 흔히 t-검정(t-test)을 사용하지만, 세 집단 이상이 되면 t-검정을 반복 사용할 경우 심각한 오류를 낳을 수 있다. 이러한 문제를 해결하기 위해 등장한 통계 기법이 바로 분산분석(Analysis of Variance, ANOVA)이다.
분산분석은 통계학자 로널드 피셔(Ronald Fisher)에 의해 개발된 강력한 통계 분석 방법으로, 세 개 이상 집단의 평균이 통계적으로 유의미하게 다른지를 검정하는 데 사용된다. 이름 때문에 분산 자체를 비교하는 것으로 오해할 수 있지만, 분산분석의 핵심은 분산의 비교를 통해 평균의 차이를 추론하는 것이다.
구체적으로 분산분석은 데이터의 총 변동(분산)을 두 가지 요소로 분해한다.
- 집단 간 분산(Between-group variance): 각 집단의 평균이 전체 데이터의 평균과 얼마나 다른지를 나타낸다. 이는 독립 변수(예: 치료법)의 효과에 의한 변동으로 해석될 수 있다.
- 집단 내 분산(Within-group variance): 각 집단 내의 데이터들이 해당 집단의 평균으로부터 얼마나 흩어져 있는지를 나타낸다. 이는 무작위 오차(random error)나 측정 오차 등 설명되지 않는 변동을 의미한다.
분산분석은 이 두 분산의 비율을 계산하여 집단 간 평균 차이가 통계적으로 의미 있는 수준인지를 판단한다.
2. 분산분석의 심장: F분포의 이해
분산분석의 핵심 논리는 F-통계량과 F분포에 기반한다. F-통계량은 앞서 설명한 두 분산의 비율로 계산된다.
F = (집단 간 분산) / (집단 내 분산)
만약 집단 간 평균 차이가 없다면(즉, 독립 변수의 효과가 없다면), 집단 간 분산은 집단 내 분산과 비슷해져 F-통계량은 1에 가까운 값을 가질 것이다. 반대로, 집단 간 평균 차이가 크다면 집단 간 분산이 집단 내 분산보다 훨씬 커져 F-통계량은 1보다 큰 값을 갖게 된다.
이렇게 계산된 F-통계량이 통계적으로 유의미한지 판단하기 위해 사용하는 확률 분포가 바로 F분포이다. F분포는 두 개의 자유도(집단 간 자유도, 집단 내 자유도)에 의해 모양이 결정되는 비대칭적인 분포이다. 계산된 F-통계량이 F분포 상에서 극단적인 위치(보통 상위 5%)에 해당하면, 우리는 "집단 간 평균 차이는 우연히 발생한 것이 아니며 통계적으로 유의미하다"고 결론 내릴 수 있다. 이를 귀무가설(H0: 모든 집단의 평균은 같다)을 기각한다고 표현한다.
3. 분석의 틀을 결정하는 주요 모형
분산분석을 수행할 때는 연구의 목적과 데이터의 특성에 따라 적절한 분석 모형을 선택해야 한다. 주요 모형으로는 고정효과, 무선효과, 혼합효과 모형이 있다.
3.1 고정효과 모형(Fixed-effects Model)
고정효과 모형은 연구자가 관심을 갖는 독립 변수의 수준(level)들이 명확하게 정해져 있고, 연구 결과를 해당 수준들에만 한정하여 해석하고자 할 때 사용된다. 예를 들어, 특정 세 가지 교수법(A, B, C)의 학업 성취도 차이를 비교하는 연구에서 연구자의 관심은 오직 이 세 가지 교수법에만 국한된다. 다른 교수법으로 결과를 일반화할 의도가 없는 경우, 이는 고정효과 모형에 해당한다. 대부분의 심리학 및 사회과학 연구에서 사용되는 가장 일반적인 분산분석 모형이다.
3.2 무선효과 모형(Random-effects Model)
무선효과 모형은 독립 변수의 수준들이 더 큰 모집단에서 무작위로 추출된 표본이라고 가정할 때 사용된다. 연구의 목적은 실험에 사용된 특정 수준들을 넘어, 그 수준들이 속한 전체 모집단에 대한 추론을 하는 것이다. 예를 들어, 여러 공장에서 생산된 제품의 품질을 비교할 때, 실험에 참여한 공장들이 전체 공장들 중 일부를 무작위로 선택한 것이라면 무선효과 모형을 적용할 수 있다. 이 경우, 분석 결과는 실험에 포함되지 않은 다른 공장들의 품질 차이에 대해서도 일반화하여 해석할 수 있다.
3.3 혼합효과 모형(Mixed-effects Model)
혼합효과 모형은 이름에서 알 수 있듯이, 하나의 연구 설계 안에 고정효과 요인과 무선효과 요인이 함께 포함된 경우에 사용된다. 예를 들어, 위에서 언급한 세 가지 특정 교수법(고정효과)의 효과를 여러 학교(무작위로 선택된 무선효과)에서 비교하는 연구라면 혼합효과 모형이 적합하다. 이 모형을 통해 특정 교수법들의 효과를 보면서, 그 효과가 학교라는 변수에 따라 어떻게 달라지는지에 대한 일반화된 결론을 얻을 수 있다.
4. 상황에 맞는 분산분석 유형 선택하기
분산분석은 분석에 포함되는 독립 변수와 종속 변수의 수에 따라 여러 유형으로 나뉜다.
4.1 일원분산분석 (One-way ANOVA)
일원분산분석은 하나의 독립 변수가 하나의 연속형 종속 변수에 미치는 영향을 분석할 때 사용된다. 독립 변수는 세 개 이상의 집단(수준)으로 구성되어야 한다. 예를 들어, 서로 다른 세 가지 비료(A, B, C)가 작물의 평균 수확량에 미치는 영향을 비교하는 경우가 이에 해당한다. 여기서 독립 변수는 '비료 종류'이고, 종속 변수는 '수확량'이다.
4.2 이원분산분석 (Two-way ANOVA)
이원분산분석은 두 개의 독립 변수가 하나의 연속형 종속 변수에 미치는 영향을 분석할 때 사용된다. 이 분석의 가장 큰 장점은 각 독립 변수가 종속 변수에 미치는 주효과(main effect)뿐만 아니라, 두 독립 변수가 결합하여 나타내는 상호작용 효과(interaction effect)까지 검증할 수 있다는 점이다. 예를 들어, 비료 종류(A, B)와 토양 종류(가, 나)가 작물 수확량에 미치는 영향을 분석한다고 가정해 보자. 이원분산분석을 통해 비료의 효과와 토양의 효과를 각각 확인할 수 있을 뿐만 아니라, '특정 비료가 특정 토양에서만 유독 더 좋은 효과를 내는지'와 같은 상호작용 효과도 파악할 수 있다.
4.3 다변량분산분석 (MANOVA)
다변량분산분석(Multivariate Analysis of Variance, MANOVA)은 하나 이상의 독립 변수가 두 개 이상의 연속형 종속 변수에 미치는 영향을 동시에 분석하는 기법이다. 예를 들어, 세 가지 교수법(독립 변수)이 학생들의 '수학 점수'와 '과학 점수'(두 개의 종속 변수)에 미치는 영향을 함께 분석하고 싶을 때 MANOVA를 사용한다. 종속 변수들 간의 상관관계를 고려하여 분석하므로, 각 종속 변수에 대해 분산분석을 여러 번 수행하는 것보다 통계적 검정력을 높이고 1종 오류(실제로 차이가 없는데 차이가 있다고 잘못 결론 내리는 오류)의 증가를 막을 수 있는 장점이 있다.
4.4 공분산분석 (ANCOVA)
공분산분석(Analysis of Covariance, ANCOVA)은 분산분석에 회귀분석의 개념을 결합한 분석 방법이다. 기본적인 구조는 분산분석과 같지만, 분석에 공변량(covariate)이라는 변수를 추가로 통제한다. 공변량은 종속 변수에 영향을 미칠 것으로 예상되지만 연구의 주된 관심사는 아닌 연속형 변수이다. 예를 들어, 새로운 교수법의 효과를 검증할 때, 학생들의 '사전 학업 성취도'가 결과에 영향을 미칠 수 있다. ANCOVA는 이러한 사전 학업 성취도의 영향을 통계적으로 제거한 후, 순수하게 교수법이 학업 성취도에 미치는 효과를 분석할 수 있게 해준다. 이를 통해 분석의 정확도와 검정력을 높일 수 있다.
5. 결론 그 너머: 추가 분석 기법
분산분석 결과 "집단 간 평균에 유의미한 차이가 있다"는 결론을 얻었다면, 그 다음 질문은 자연스럽게 "그렇다면 어떤 집단들 사이에 차이가 있는가?"로 이어진다.
5.1 사후분석 (Post-Hoc Analysis)
분산분석의 F-검정은 전체 집단들 중 적어도 하나 이상의 평균이 다르다는 사실만 알려줄 뿐, 구체적으로 어느 집단과 어느 집단의 평균이 다른지는 알려주지 않는다. 사후분석은 분산분석에서 귀무가설이 기각되었을 때, 여러 집단들을 두 개씩 짝지어 어떤 집단 간에 평균 차이가 유의미한지를 구체적으로 검정하는 분석 방법이다.
t-검정을 여러 번 반복하면 1종 오류가 증가하는 문제가 발생하므로, 사후분석에서는 이를 보정하기 위한 다양한 방법들이 사용된다. 대표적인 방법은 다음과 같다.
- Tukey HSD (Honestly Significant Difference): 모든 집단 쌍을 비교하며, 각 집단의 표본 크기가 동일할 때 주로 사용된다.
- Scheffe's Method: 가장 보수적이고 엄격한 방법으로, 1종 오류를 범할 확률이 매우 낮다. 복잡한 비교(예: (집단1+집단2)/2 vs 집단3)도 가능하다.
- Bonferroni Correction: 가장 간단한 방법 중 하나로, 유의수준(α)을 비교하는 쌍의 수로 나누어 1종 오류를 제어한다.
5.2 반복측정 분산분석 (Repeated Measures ANOVA)
반복측정 분산분석은 동일한 개체(또는 집단)를 여러 조건에서 반복적으로 측정하여 그 평균의 차이를 검정하는 방법이다. '피험자 내 설계(within-subjects design)'라고도 불린다. 예를 들어, 특정 약물 투여 후 시간 경과(투여 직후, 1시간 후, 2시간 후)에 따른 혈압 변화를 측정하는 연구나, 참가자들이 세 가지 다른 유형의 광고를 모두 시청한 후 각 광고에 대한 선호도를 평가하는 연구에 사용될 수 있다.
이 분석 방법은 서로 다른 사람들을 각 조건에 배정하는 '피험자 간 설계(between-subjects design)'에 비해 개인차에서 오는 변동을 통제할 수 있어 더 적은 표본으로도 높은 검정력을 확보할 수 있다는 장점이 있다.
6. 통계적 자유의 척도: 자유도(Degrees of Freedom)
자유도(df)는 통계적 추정을 위해 사용되는 정보의 양, 또는 "자유롭게 변할 수 있는 값의 수"를 의미하는 중요한 개념이다. 분산분석에서 자유도는 F분포의 형태를 결정하고, 평균제곱(Mean Square)을 계산하는 데 사용된다.
일원분산분석에서의 자유도는 다음과 같이 계산된다.
- 집단 간 자유도 (df_between):
k - 1(k = 집단의 수). 이는 집단 평균들 간의 변동을 계산할 때 사용된다. - 집단 내 자유도 (df_within 또는 df_error):
N - k(N = 총 관측치의 수, k = 집단의 수). 이는 각 집단 내의 변동을 계산할 때 사용된다. - 총 자유도 (df_total):
N - 1. 이는 전체 데이터의 변동을 나타낸다.
이들 관계는 df_total = df_between + df_within으로 성립하며, 분산분석표의 핵심 구성 요소가 된다. 자유도가 클수록 더 신뢰할 수 있는 통계적 추정이 가능하다.
7. 실무 데이터 분석: 엑셀을 활용한 분산분석
고가의 통계 프로그램 없이도 엑셀(Excel)의 '데이터 분석' 도구를 활용하여 간단한 분산분석을 수행할 수 있다. 다음은 일원분산분석을 수행하는 절차이다.
- 데이터 입력: 엑셀 시트에 각 집단의 데이터를 열(column)별로 구분하여 입력한다.
- 데이터 분석 도구 활성화: [파일] > [옵션] > [추가 기능]으로 이동하여 '분석 도구'를 선택하고 활성화한다.
- 분산분석 실행: [데이터] 탭에서 '데이터 분석'을 클릭하고, '분산 분석: 일원 배치법'을 선택한다.
- 입력 범위 및 옵션 설정:
- 입력 범위: 분석할 데이터 전체 범위를 드래그하여 지정한다.
- 데이터 방향: 데이터가 열 기준으로 입력되었으므로 '열'을 선택한다.
- 이름표: 첫 행에 집단 이름(예: 비료A, 비료B)을 입력했다면 '첫째 행 이름표 사용'에 체크한다.
- 유의 수준(Alpha): 일반적으로 0.05(5%)를 사용한다.
- 출력 옵션: 결과를 표시할 위치(새 워크시트 등)를 선택한다.
- 결과 해석: '확인'을 누르면 분산분석표가 포함된 결과가 출력된다. 여기서 F-통계량이 F-기각치보다 크거나, P-값이 설정한 유의수준(0.05)보다 작으면 "집단 간 평균에 통계적으로 유의미한 차이가 있다"고 해석할 수 있다.
8. 결론 및 심화 학습
분산분석(ANOVA)은 셋 이상의 집단 간 평균을 비교하기 위한 필수적인 통계 도구이다. 데이터의 총 변동을 집단 간 변동과 집단 내 변동으로 분해하고, 그 비율인 F-통계량을 통해 가설을 검정하는 논리적 구조를 가지고 있다. 연구 설계에 따라 고정/무선/혼합 모형을 선택하고, 독립 변수와 종속 변수의 수에 따라 일원분산분석, 이원분산분석, MANOVA, ANCOVA 등 적절한 유형을 적용해야 한다.
분산분석을 통해 유의미한 차이가 발견되면 사후분석을 통해 구체적으로 어떤 집단 간에 차이가 있는지 파악해야 하며, 동일한 대상을 반복 측정하는 연구에서는 반복측정 분산분석을 활용하여 분석의 효율성과 정확성을 높일 수 있다. 자유도의 개념은 이러한 분석의 신뢰도를 이해하는 기초가 된다.
이 글을 통해 분산분석의 기본 원리와 다양한 활용법을 이해했기를 바란다. 더 깊이 있는 학습을 위해 아래 관련 용어들을 추가로 탐구해볼 것을 권장한다.
- 더 알아볼 주제: 상호작용 효과의 시각화, 분산분석의 기본 가정(정규성, 등분산성, 독립성) 및 위반 시 대처법, 비모수적 대안(크루스칼-왈리스 검정), 검정력 분석(Power Analysis).
9. 참고 문헌
Statology. (n.d.). The Differences Between ANOVA, ANCOVA, MANOVA, and MANCOVA. Retrieved September 22, 2025, from https://www.statology.org/anova-ancova-manova-mancova/
Stats Make Me Cry Consulting. (2014, August 11). Statistical Soup: ANOVA, ANCOVA, MANOVA, & MANCOVA. Retrieved September 22, 2025, from https://statsmakemecry.com/smmctumblr/statistical-soup-anova-ancova-manova-mancova
Laerd Statistics. (n.d.). Repeated Measures ANOVA. Retrieved September 22, 2025, from https://statistics.laerd.com/statistical-guides/repeated-measures-anova-statistical-guide.php
Velog. (2023, February 24). [통계노트] 6. 분산분석(1). Retrieved September 22, 2025, from https://velog.io/@junhyuk_p/statistic-note-6
ERIC. (1999). Fixed-, Random-, and Mixed-Effects ANOVA Models. Retrieved September 22, 2025, from https://files.eric.ed.gov/fulltext/ED432606.pdf
© 2025 TechMore. All rights reserved. 무단 전재 및 재배포 금지.
기사 제보
제보하실 내용이 있으시면 techmore.main@gmail.com으로 연락주세요.

