8. 통계 — 회귀·상관
상관분석
- 피어슨 상관계수 (r): -1 ≤ r ≤ 1. 두 등간/비율 변수 선형관계
- 스피어만 순위상관: 서열척도
- 해석: |r| < 0.3 약함, 0.3~0.7 중간, > 0.7 강함
- 주의: 상관 ≠ 인과
회귀분석
- 단순선형회귀: Y = a + bX + ε
- 다중회귀: Y = a + b₁X₁ + b₂X₂ + ... + ε
- 회귀계수 b: X가 1단위 변화 시 Y의 변화량
- 결정계수 R²: 0~1. 모형 설명력
- 조정 R²: 변수 수 보정
회귀 가정
- 선형성
- 독립성 (잔차)
- 등분산성
- 정규성 (잔차)
- 다중공선성 X (VIF < 10)
회귀 진단
- 잔차 분석·이상치·영향력 관측치 (Cook's D)
- 다중공선성: 분산팽창인자 VIF, 공차 (Tolerance)
모형 비교
- F검정: 회귀 전체 유의성
- t검정: 개별 회귀계수 유의성
- 변수 선택: 전진·후진·단계
📌 출제: 상관계수 + 회귀계수 해석.