📚 단원별 바로가기 (10)
Auto Summary Note · 사회조사분석사 2급
사회조사분석사 2급 자동 단권화
1. 사회조사방법론 — 기본 개념
과학적 조사의 특성
- 객관성·검증가능성·재생가능성·체계성·논리성·일반화·간결성·간주관성
조사의 분류
| 기준 | 분류 |
|---|---|
| 목적 | 탐색·기술·설명·예측 |
| 시간 | 횡단조사 (한 시점) vs 종단조사 (반복) |
| 종단 | 패널·코호트·추세조사 |
| 자료성격 | 양적 vs 질적 |
| 접근 | 연역적 (이론→가설→검증) vs 귀납적 (관찰→일반화) |
조사 절차
- 문제 인식·연구주제 선정
- 문헌고찰
- 가설 설정
- 조사 설계
- 자료 수집
- 자료 분석
- 해석·결론
- 보고서 작성
변수와 가설
- 독립변수: 원인. 영향을 주는 변수
- 종속변수: 결과. 영향을 받는 변수
- 매개변수: 독립 → 매개 → 종속 (인과 경로)
- 조절변수: 독립-종속 관계의 강도·방향 변경
- 통제변수: 영향 통제
- 가설: 검증 가능, 명확, 측정 가능, 한정성, 관계 진술
📌 출제: 변수 종류·종단조사 매년.
2. 조사 설계·실험
조사 설계 4유형
| 설계 | 특징 |
|---|---|
| 실험설계 (진실험) | 무작위배정·통제집단·사전사후. 인과추론 강함 |
| 유사실험설계 | 비동등 통제집단·시계열·단일집단 |
| 비실험설계 | 1회 사례·이전실험·횡단조사·종단조사 |
| 전실험설계 | 1회 사례·단일집단 사전사후·정태집단비교 |
실험의 타당도
- 내적타당도: 인과관계 정당성
- 위협 요인: 역사·성숙·검사·도구·통계회귀·선발·상실·확산
- 외적타당도: 일반화 가능성
- 위협 요인: 표본 대표성·반응성·실험효과·반복
인과추론 3조건
- 공변관계: 두 변수 함께 변화
- 시간적 선후: 원인이 결과보다 앞
- 비허위성: 제3변수 영향 X
📌 출제: 내적타당도 위협 매년.
3. 측정·척도
측정의 4가지 척도
| 척도 | 특징 | 예 |
|---|---|---|
| 명목 | 범주·분류 (순서 X) | 성별·종교·혈액형 |
| 서열 | 순서 (간격 X) | 계급·학력·만족도 |
| 등간 | 간격 동일 (절대영점 X) | 온도·IQ·연도 |
| 비율 | 절대영점 (모든 연산) | 나이·소득·키·시간 |
주요 척도법
- 리커트 척도 (Likert): 5점·7점 동의 정도. 등간 척도
- 거트만 척도 (Guttman): 누적 척도. 한 항목 동의하면 하위 모두 동의
- 서스톤 척도 (Thurstone): 등간격 척도. 평가위원 평가
- 의미분화척도 (SD): 양극 형용사 (좋음↔나쁨)
- 보가두스 사회적 거리척도: 인종·민족 거리감
신뢰도 (Reliability)
- 검사-재검사 신뢰도: 같은 검사 두 번 → 상관
- 동형검사 신뢰도: 두 동형 검사 상관
- 반분 신뢰도: 한 검사 반으로 → 두 점수 상관
- 내적일관성 신뢰도: Cronbach α (0.7+ 좋음)
- 평가자간 신뢰도: 평가자 간 일치도
타당도 (Validity)
- 내용타당도: 측정도구가 개념 영역 모두 cover
- 기준타당도: 외부 기준 (예측·동시)
- 구성타당도: 이론적 구성 개념 측정 (수렴·판별·요인분석)
📌 출제: 척도 4종 + 신뢰도/타당도 매년.
4. 표본추출
표집의 기본
- 모집단: 조사 대상 전체
- 표집틀 (sampling frame): 모집단 목록
- 표본: 추출된 일부
- 대표성: 모집단 특성 반영
- 표집오차: 표본의 추정값과 모집단 모수 차이. 표본 ↑ → 오차 ↓
확률표집 (Probability)
| 방법 | 특징 |
|---|---|
| 단순무작위 | 난수표·로또식 |
| 계통 (체계적) | 일정 간격 (k번째) |
| 층화 | 모집단을 층 → 각 층에서 무작위 |
| 집락 (군집) | 지역·집단 단위로 추출 후 전수 |
| 다단계 | 여러 방법 결합 |
비확률표집 (Non-Probability)
| 방법 | 특징 |
|---|---|
| 편의 | 접근 쉬운 대상 (대표성 ↓) |
| 유의 (의도) | 판단으로 선정 (질적 연구) |
| 할당 | 층별 정해진 수만큼 (편의 결합) |
| 눈덩이 | 지인 추천 (희소집단) |
표본크기 결정
- 모집단 크기·신뢰수준 (95%·99%)·허용오차·예상 비율
- n = z²·p·(1-p)/e² (비율 추정)
- 일반 조사: 1,000~2,000 권장
📌 출제: 확률·비확률 표집 분류 매년.
5. 자료 수집
설문조사 (Survey)
- 형식: 자기기입식 (응답자가 직접) vs 면접식 (조사원)
- 방법: 우편·전화·대면·인터넷·이메일·모바일
- 장점: 표준화·비교·통계·대규모 가능
- 단점: 회수율·응답성실성·문항 한계
설문지 작성 원칙
- 이중질문 (double-barreled) 금지: "당신은 좋은 부모이고 좋은 직장인입니까?" → 분리
- 유도질문 금지: 답변을 암시하는 표현 X
- 이해 가능한 단어: 전문용어·외래어 ↓
- 응답자 부담 ↓: 짧고 명확
- 일반→특수 순서·쉬운→어려운 순서
- 인구사회학적 질문은 끝부분
- 여과질문·선별질문: 해당자만 추가 질문
면접조사
- 구조화 면접: 표준화된 질문 (양적)
- 반구조화 면접: 일부 표준 + 자유 (혼합)
- 비구조화 면접: 자유 대화 (질적)
- 심층면접: 1:1 깊이 탐색
- FGI (Focus Group Interview): 6~12명 그룹 토의
관찰조사
- 참여관찰 vs 비참여관찰
- 공개관찰 vs 비공개관찰
- 구조화 vs 비구조화
- 실험실 vs 자연관찰
2차 자료
- 이미 수집된 자료 활용 (통계청·KOSIS·한국갤럽 등)
- 장점: 비용·시간 절감 / 단점: 목적 불일치·신뢰성
📌 출제: 설문지 작성 원칙 매년.
6. 통계 — 기술통계
중심경향값
- 평균 (mean): 합/개수. 극단값 영향 ↑
- 중앙값 (median): 정렬 후 가운데. 극단값 영향 X
- 최빈값 (mode): 가장 빈번. 명목척도
- 분포 모양: 정규분포 (mean=median=mode), 왼쪽 꼬리 (mean
median)
산포도
- 범위: 최댓값 - 최솟값
- 분산: Σ(x-μ)²/n. σ² 또는 s²
- 표준편차: √분산. σ 또는 s
- 변동계수 (CV): σ/μ × 100. 단위 다른 비교
- 사분위수범위 (IQR): Q3 - Q1
왜도·첨도
- 왜도 (Skewness): 분포의 비대칭. 0=대칭, +=오른쪽 꼬리, -=왼쪽
- 첨도 (Kurtosis): 봉우리 뾰족함. 정규=3 (또는 0)
분포 시각화
- 도수분포표·히스토그램·꺾은선·원그래프·상자그림 (boxplot)·줄기-잎 그림
📌 출제: 평균·중앙값 + 표준편차 계산 매년.
7. 통계 — 추론통계 (가설검정)
표본분포·중심극한정리
- 중심극한정리 (CLT): 표본 ↑ (n≥30) → 표본평균 분포는 정규분포 근사
- 표준오차 (SE): σ/√n
가설검정
- H0 (귀무가설): 차이 없음
- H1 (대립가설): 차이 있음 (양측·단측)
- 유의수준 α: 1종 오류 허용 (보통 0.05)
- 검정통계량: z·t·F·χ² 등
- p-value: 귀무 하에서 관측값 이상 나올 확률
- 판단: p < α이면 H0 기각 (=유의함)
오류
- 1종 오류 (α): H0 참인데 기각
- 2종 오류 (β): H0 거짓인데 채택
- 검정력 = 1-β (참 거짓을 거짓이라 판단)
주요 검정
| 검정 | 용도 |
|---|---|
| z검정 | 모평균 (모분산 알려진 경우) |
| t검정 (1·2·대응) | 모평균 (모분산 모름) / 두 집단 평균 비교 / 짝지은 표본 |
| 분산분석 (ANOVA) | 3집단 이상 평균 비교 (F검정) |
| 카이제곱 (χ²) | 적합도·독립성·동질성 (범주형) |
| 회귀분석 | 독립-종속 관계 |
| 상관분석 | 두 변수 관계 강도 (Pearson·Spearman) |
신뢰구간
- 95% 신뢰구간: x̄ ± z₀.₀₂₅ × SE = x̄ ± 1.96 × σ/√n
- 해석: "100번 반복하면 95번 모수 포함"
📌 출제: t/F/χ² 적용 + 1종/2종 오류 매년.
8. 통계 — 회귀·상관
상관분석
- 피어슨 상관계수 (r): -1 ≤ r ≤ 1. 두 등간/비율 변수 선형관계
- 스피어만 순위상관: 서열척도
- 해석: |r| < 0.3 약함, 0.3~0.7 중간, > 0.7 강함
- 주의: 상관 ≠ 인과
회귀분석
- 단순선형회귀: Y = a + bX + ε
- 다중회귀: Y = a + b₁X₁ + b₂X₂ + ... + ε
- 회귀계수 b: X가 1단위 변화 시 Y의 변화량
- 결정계수 R²: 0~1. 모형 설명력
- 조정 R²: 변수 수 보정
회귀 가정
- 선형성
- 독립성 (잔차)
- 등분산성
- 정규성 (잔차)
- 다중공선성 X (VIF < 10)
회귀 진단
- 잔차 분석·이상치·영향력 관측치 (Cook's D)
- 다중공선성: 분산팽창인자 VIF, 공차 (Tolerance)
모형 비교
- F검정: 회귀 전체 유의성
- t검정: 개별 회귀계수 유의성
- 변수 선택: 전진·후진·단계
📌 출제: 상관계수 + 회귀계수 해석.
9. 자료 분석·통계 패키지
분석 절차
- 코딩 (응답 → 숫자)
- 편집 (이상치·결측치 처리)
- 입력 (Excel·SPSS·R·Python)
- 기술통계 (분포·중심·산포)
- 추론통계 (검정·회귀)
- 해석·보고
결측치 처리
- 완전제거: 누락 케이스 제외
- 평균 대체: 평균값으로 채움
- 중앙값·최빈값 대체
- 회귀 대체: 다른 변수로 예측
- 다중대체 (MI): 여러 값 생성 후 통합
이상치 처리
- 탐지: 박스플롯·z-score (>3)·IQR×1.5
- 처리: 제거·변환·통계량 보정 (윈저화)
주요 통계 패키지
| 패키지 | 특징 |
|---|---|
| SPSS | 직관적 GUI. 사회과학 표준 |
| SAS | 대규모 기업·금융 |
| R | 오픈소스. 패키지 풍부 |
| Python | pandas·numpy·scipy·statsmodels·scikit-learn |
| Stata | 경제학·정책 분석 |
| Excel | 기본 분석. 분석도구 |
📌 출제: 결측치·이상치 처리.
10. 조사 윤리·보고서
조사 윤리
- 고지된 동의 (Informed Consent): 조사 목적·방법·이용 동의
- 익명성·비밀보장: 응답자 식별 X
- 피해 방지: 신체·심리·재산 피해 X
- 속임수 금지: 불가피 시 사후 설명 (debriefing)
- 이해상충 공개: 자금 출처·이해관계
- IRB: 기관생명윤리위원회 심의 (인간 대상 연구)
조사 보고서
- 표지·목차·요약
- 서론: 배경·목적·필요성
- 이론적 배경: 선행연구·개념정의
- 연구방법: 표집·자료수집·분석방법
- 결과: 통계표·그래프·해석
- 논의: 의미·한계·향후 연구
- 결론·시사점
- 참고문헌·부록
보고서 작성 원칙
- 객관성·논리성·간결성·명확성
- 표·그래프 적극 활용
- 출처·근거 명확
- 독자 수준 고려
📌 출제: 조사 윤리 (IRB·고지된 동의).