Statistics 101: part 1
들어가며
Statistics 통계학
통계학은 관심 또는 연구대상이 되는 집단(모집단)의 특성을 파악하기 위해 모집단으로부터 일부의 자료(표본)를 수집, 정리, 요약, 분석하여 표본의 특성을 파악하고 이를 이용하여 모집단의 특성에 대해 추론하는 원리와 방법을 제공하는 학문이다.
- 목차는 <예제로 배우는 R 데이터 분석 입문>를 참고했습니다.
- 용어는 한국어와 영어를 병행 표기했습니다.
목차
- 데이터의 요약 및 표현
- 확률변수와 분포함수
- 통계적 추정과 검정
- 평균차이 검정(t-test)
- 분산분석(ANOVA)
- 질적변수들의 연관성
- 상관분석
- 비모수적 검정
참고자료
- 책 <현대통계학>
- 책 <예제로 배우는 R 데이터 분석 입문>
- 강의 <Master statistics&machine learning: intuition, math, code>
- 강의 <확률 및 통계> 이상화 교수
- 강의 <핵심 확률/통계> 김성범 교수
- 책 <Statistical Thinking for the 21st Century>
1. 데이터의 요약 및 표현
Statistics = state(국가) + ics (학문)
(1) 자료의 형태
- column: 변수(Variable), 속성(Attribute), 필드(Field)
-
row: 개체(Observation), 레코드(Record)
- 오류값(Error) : 변수가 가질 수 없는 값, 변수값의 불가능한 조합, 일관성 없는 코드값, 잘못된 코드값
- 특이값(Outlier) : 정상이 아닌 자료값, 특이값은 오류값일 수도 있고 그렇지 않을 수도 있다.
- 특이값을 다루는 방법 (dataset에 따라 알맞는 방법 사용)
- 전략1: 특이값 찾아서 없애기 (굉장히 신중히)
- 전략2: 특이값 냅두고 robust한 분석방법 사용
- non-parametric t-test
- spearman correlations
- permutation testing
- robust weighted regression and iteratively reweighted regression
- 특이값을 다루는 방법 (dataset에 따라 알맞는 방법 사용)
- 결측값(Missing) : 알 수 없는 값. 원인과 기록방법을 정밀하게 조사하여 자료를 정정하고 기록방법을 변경해야 하며, 필요 시에는 자료를 보정해야 한다.
| 분류 | 형태 | 설명 | 예 |
|---|---|---|---|
| 수치형(numbers) | 구간(등간)(Intrval) | 상대영점 | 온도, 성적 |
| 수치형(numbers) | 비율(Ratio) | 절대영점 | 길이, 무게 |
| 수치형(numbers) | 이산(Discrete) | 정수형태의 수 | 인구 |
| 범주형(labels) | 순서(Ordinal) | sort 가능 | 성적등급 |
| 범주형(labels) | 명목(Nominal) | sort 불가능 | 혈액형, 직업, 지역 |
통계적 분석 방법
| 종속변수의 수 | 분석기법 | 독립변수 | 종속변수 |
|---|---|---|---|
| 1 개 | t-test (평균차이검정) | 명목 | 이산, 연속 |
| 1 개 | ANOVA (분산분석) | 명목 | 이산, 연속 |
| 1 개 | 회귀분석 | 명목, 이산, 연속 | 이산, 연속 |
| 1 개 | 로지스틱 회귀분석 | 명목, 이산, 연속 | 명목, 순서 |
| 1 개 | 판별분석 | 명목, 이산, 연속 | 명목, 순서 |
| 1 개 | 공분산분석 (ANCOVA) | 명목, 이산, 연속 | 이산, 연속 |
| 1 개 | 반복측정분산분석 | 명목, 이산, 연속 | 이산, 연속 |
| 2 개 이상 | MANOVA | 명목 | 이산, 연속 |
| 분석기법 | 자료 (척도) | 대안적 분석기법 | 자료(척도) |
|---|---|---|---|
| 독립성검정 | 명목 | Kolmogorov-Smirnov 검정 (단일, 독립 두 표본) | 이산, 연속 |
| 상관관계분석 | 명목, 순서, 이산, 연속 | Mann-Whitney 검정 | 순서, 이산, 연속 |
| 요인분석 | 이산, 연속 | Kruskal-Wallis 검정 | 순서, 이산, 연속 |
| 군집분석 | 명목, 순서, 이산, 연속 | Wilcoxon 검정 | 순서, 이산, 연속 |
| 다차원척도법(MDS) | 순서, 구간 | Friedman 검정 | 순서, 이산, 연속 |
| 신뢰성분석 | 이산, 연속 | Kendall 검정 | 순서, 이산, 연속 |
| 비율(차이)검정 | 명목 | RUN 검정 | 순서, 이산, 연속 |
| 적합도 검정 | 명목 | - | - |
(2) 모수와 통계량
- 기술통계학(Descriptive Statistics)
- 추측통계학(Inferential Statistics)
- 모집단(Population) : 관심의 대상이 되는 전체집단
- 모수(Parameter) : 모집단의 특성
- 표본(Sample) : 모집단에서 추출된 일부
- 통계량(Statistic; 추정량(Estimator), 추정치(Estimate)) : 표본으로부터 관측된 내용
(3) 기술통계량
대표값 (중심경향, Measure of Centrality)
- 평균(Mean; 일반적으로 산술평균)
- 중앙값(Median; 중위수)
- 최빈값(Mode)
산포도 (Measure of Dispersion)
- 편차(Deviation)
- 분산(Variance) : 편차(평균고의 차이)의 제곱합을 자유도 n-1로 나눈 것
- 표준편차(Standard Deviation) : 분산에 제곱근을 취한 것
-
변동계수(CV; Coefficient of Variation; 변이계수)
- 표준화(Standardization) = Z-transformation
- $Z=\frac{x-\bar{x}}{s}=\frac{\textrm{centering}}{\textrm{scaling}}$
- 중심화(centering): 평균이 0이 되도록 함. 중심으로부터의 편차에 관심을 가짐
- 척도화(scaling): 표준편차가 1이 되도로 함. 측정단위 자체를 없앰.
- 관측치의 상대적 위치의 척도로 사용됨
- 관측치간 상대적인 크기를 비교할 수 있음
- 단위가 없는 순수한 수치
- 관측치 전체 데이터 내에서의 위치를 나타내는 데 효율적으로 사용됨
- $Z=\frac{x-\bar{x}}{s}=\frac{\textrm{centering}}{\textrm{scaling}}$
- 0-1 정규화 (normalization)
분위수 (Quantile)
- 백분위수(Percentile)
- 십분위수(Decile)
- 사분위수(Quartile)
- Box Plot
범위 (Range)와 사분위범위 (Inter Quantile Range)
- 범위 : 최대값 - 최소값
- 사분위범위 : 3사분위수 - 1사분위수
왜도 (Skewness) 와 첨도 (Kurtosis)
- 왜도: 비대칭(asymmetry) 정도. 꼬리쪽 기준
- 음수: left or negative skew
- 0: 치우침 없음 (ex.정규분포)
- 양수: right or positive skew
- 첨도: 뾰족한(peakedness) 정도
- 음수: flat
- 0: 정규분포
- 양수: steep
(4) 그래프를 이용한 양적 데이터의 요약
- 히스토그램(Histogram)
- 줄기-잎 그림(Stem-and-Leaf plot)
- 상자그림(Box Plot)
- 다중상자그림(Multiple Box Plot)
(5) 질적 데이터의 요약
- 빈도표(Frequency Table)
(6) 그래프를 이용한 질적 데이터의 요약
- 막대도표(Bar Chart)
- 원도표(Pie Chart)
- 파레토 도표(Pareto Chart)
- 모자이크 도표(Mosaic Chart)
2. 확률변수와 분포함수
통계적 조사에서 조사대상의 일부만을 관측하고도 조사대상 전체에 대한 결론을 이끌어 내는 데에 논리적 근거가 되는 것은 확률의 개념이다. 통계학에서 확률론(Probability Theory)이 여기서 활용된다.
(1) 표본공간과 사건
- 표본공간(Sample Space): 통계적 실험이나 조사에서 가능한 모든 실험결과(outcome)의 집합
- 보통 S로 표현
- 사건 or 사상 (event): 표본공간 S의 임의의 부분집합
- 보통 A, B, C 등의 대문자로 표현
- 근원사건(elementary event) = 단순사건(simple event): 한 개의 원소로 이루어진 사건
- 사건 A의 한 원소를 관측하면 사건 A가 일어났다고 한다.
- 합사건(union event), 곱사건(product event), 여사건(complementary event), 배반사건(disjoint events)
(2) 확률
확률의 정의
- 고전적 정의: P.Laplace(1749~1827)가 정의
- 예를 들어 “4개에서 2개를 뽑는다”라는 표현에는 “뽑힐 가능성을 같게 하여”라는 뜻이 함축적으로 포함된 것으로 간주한다. 이러한 의미를 명확히 하기 위해 “랜덤하게 추출한다”라는 표현을 사용한다.
- 표본공간에서 근원사건의 개수가 유한개이며, 각 근원사건이 일어날 가능성이 같은 경우에 대하여 확률을 정의하였다. 그러나 실제 문제에서는 이와 같은 고전적 정의에 의한 확률만으로는 설명되지 않는 현상이 많다. 예를 들어, 특정한 치료법에 의해 질병이 치료될 확률을 구하는 경우에는 전체조사의 결과의 개수가 유한이 아니며, 각 근원사건이 일어날 가능성도 같지 않다. 따라서 좀 더 일반화된 확률의 정의를 필요로 한다.
- 공리적 정의: A.N.Kolmogorov가 정의
- 통계적 실험을 반복적으로 행하면, 한 사상이 발생하는 것은 일정한 법칙을 따른다는 것을 경험을 통하여 알 수 있다. 특히, 한 사건의 상대도수는 흔히 일정한 상수로 가까이 가는 것을 경험적으로 알 수 있다. 이러한 경우에 우리는 ‘통계적 규칙성이 있다’고 한다.
- 상대도수의 극한적 개념으로 확률을 정의함으로써 상대도수가 가지는 기본적 성질을 확률이 갖도록 요구하는 것은 당연하다고 할 수 있다.
- 이러한 확률의 정의는 고전적 정의를 특수한 경우로 포함한 일반적인 정의임을 알 수 있다. 즉, $N$개의 실현결과로 구성된 표본공간에서 각각의 실현결과가 같은 정도로 가능하다면, (b), (c)로부터 각각의 실현결과의 확률은 $1/N$이고, $m$개의 원소로 구성된 사건의 확률은 (c)로부터 $m/N$이 되어 고전적 정의에 의한 확률과 같아진다.
확률에 관한 성질
조건부 확률
- 비복원추출(sampling without replacement), 복원추출(sampling with replacement), 분할(partition)
- 전확률공식
- 베이즈 정리
- 사전확률 (prior probability): 사건 $A_1$, …, $A_n$을 $n$가지의 ‘원인’이라고 한다면 사전확률은 ‘원인’의 가능성이라 할 수 있다.
-
사후확률 (posterior probability): $P(A_k B)$는 B가 관측된 후에 ‘원인’ $A_k$의 가능성이라 할 수 있다. - 베이즈정리가 뜻하는 것은 관측 전의 원인에 대한 가능성과 관측 후의 원인의 가능성 사이의 관계라고 할 수 있다.
독립사건(independent events), 종속사건(dependent events)
(3) 확률변수와 확률분포
- 확률변수(Random Variable) : 표본공간 S에서 정의된 실수값 함수
- 확률분포(Probability Distribution) : 확률변수 X와 확률을 대응시켜 주는 관계
- 확률분포표
- 확률분포도
- 확률밀도함수
- 확률분포함수(Probability Distribution Function)
- 이산확률변수(Discrete Random variable)
- 확률질량함수(Probability Mass function)
- 연속확률변수(Continuous Random variable)
- 확률밀도함수(Probability Density Function)
(4) 기대값과 분산
- 기대값(Expected value) : 확률변수 X에 대해 확률을 가중치로 하여 계산된 가중평균
- 분산(Variance)
- 기대값의 성질
- 분산의 성질
(5) 이산형 확률분포
초기하분포(Hyper Geometric Distribution)
- 유한모집단에서의 단순랜덤추출법 or 단순임의추출법 (simple random sampling): 크기가 N인 유한모집단에서 크기 n의 표본을 비복원으로 뽑는 법(조합)으로 구한 경우의 수가 모두 동일한 확률로 뽑힐 수 있도록 표본을 추출하는 방법
- 크기 N인 유한모집단에서 M개가 특별한 속성 A를 갖고 있고, 나머지 N-M개는 속성 A를 갖고 있지 않다고 가정하자. 이러한 모집단에서 크기 n의 표본을 단순랜덤추출할 때, 추출된 표본에서 속성 A를 갖고 있는 것의 개수를 X의 확률분포를 초기하분포라 부른다.
베르누이분포(Bernoulli Distribution)
- 베르누이 시행(Bernoulli trial): 어느 실험이 오직 두 가지 가능한 결과만을 가질 때의 시행
- 베르누이 확률변수: 베르누이시행의 표본공간 {success, fail}에서 Y(success)=1, Y(fail)=0인 확률변수를 베르누이확률변수라 한다.
이항분포(Binomial Distribution)
- 성공률이 p인 베르누이시행이 n번 독립적으로 반복시행되었을 때, 확률변수 X를 “성공횟수”라고 하자. 이 때 X의 확률분포를 시행횟수 n과 성공률 p를 갖는 이항분포라 한다.
포아송분포(Poisson Distribution)
- 포아송분포는 단위시간이나 단위공간에서 희귀하게 일어나는 사건(rare event)의 ‘횟수’ 등에 유용하게 사용될 수 있다.
- ex) 단위시간 내의 전화신청 횟수, 단위길이의 철선의 결함수, 어느 지역에서의 1일 교통사고 사망자수 등
- 포아송분포는 이항분포의 근사분포로서 정의할 수도 있다.
(6) 연속형 확률분포
정규분포(Normal Distribution)
- 다른 말로 ‘가우스분포(Gauss distribution)’
표준정규분포(Standard Normal Distribution)
- 평균이 0이고 표준편차가 1인 정규분포
다른 분포
- 지수분포
- 와이블분포
- 베타분포
- 감마분포
(7) 표본분포
확률표본
- 확률표본(random sample): 서로 독립이고 동일한 모집단 분포를 따르는 여러개의 확률변수들. 아직 관측전!
- 확률표본은 특정한 확률변수들의 집합
- 확률변수임을 명확히 하기 위해 대문자 사용 ($X_1$, $X_2$, …)
- 표본(sample): 확률표본이 실제값으로 관측된게 표본이다. 이제 관측 후!
- 실현(realization) 혹은 표본화(sampling): 표본공간의 표본이 현실 세계의 데이터로 선택되는 것을 라고 한다. 표본화는 문맥에 따라 다른 의미로도 사용되는데 많은 수의 데이터 집합에서 일부 데이터만 선택하는 과정도 표본화라고 한다.
- 소문자를 사용한다. ($x_1$, $x_2$, …)
- 통계량(statistics): 관측 가능한 확률표본의 함수. 통계량은 모집단의 어떤 특성에 관심있는가에 따라 여러 가지를 생각할 수 있다.
- 통계량의 정의에 따라 통계량은 확률변수임을 알 수 있다.
- 통계량은 확률변수이므로 그 분포를 갖게 된다.
표본분포
- 표본분포 (sample distribution): 통계량이 확률분포를 갖게 될 때, 통계량의 확률분포를 표본분포라고 한다.
표본평균의 분포
- 중심극한정리(Central Limit Theorem; CLT)
- 모분포의 분포모양과 무관하게 ‘표본평균’의 분포는 표본의 크기가 커질수록 정규분포를 따른다.
이항분포의 정규근사
- 연속성 수정(Continuity Correction): 정규근사의 핵심. 이산형분포를 연속형 분포로 변환시 최소단위의 절반을 포함시켜주어야 한다.
정규모집단에서의 표본분포
여러 가지 통계적 추론에서 다양하게 사용되는 정규모집단에서의 몇 가지 중요한 표본분포들이 있다.
t-분포(Student’s t-Distribution):
카이제곱분포(Chi-square Distribution)
F-분포(F-Distribution)
Monte Carlo sampling
Monte carlo(=Money Carlo) methods(simulation)는 여러 종류의 sampling 기법들을 포괄적으로 표현하는 용어이다. 이를 응용한 방법 중 하나가 Markov Chain Monte Carlo (MCMC) sampling기법이다. Monte Carlo sampling은 시행 횟수가 늘어남에 따라 통계적 확률은 수학적 확률에 한없이 가까워진다라는 사실을 활용한 것이다. 이를 통해 수학 공식을 적용하지 않고도 확률을 계산할 수 있다. 모집단에서 데이터를 무작위로 sampling해서 미지의 모수나 함수를 추정 혹은 근사하는 방법이다.
3. 통계적 추정과 검정
(1) 통계적 추정
통계처리의 중요한 목적 중 하나는 통계량을 근거로 해서 모집단의 특성을 파악하는 것이다. 즉, 표본평균, 표본분산, 표본비율과 같은 통계량을 통해 이에 대응되는 모평균, 모분산, 모비율과 같은 모수들에 대한 통계적 추론을 하는 것이다.
모집단과 표본
- 모집단(Population): 관심의 대상이 되는 전체집단
- 모수(Parameter): 모집단의 특성을 나타내는 미지의 ‘상수’값. 확률분포를 표현하는 값.
- 표본(Sample): 모집단에서 추출되서 실제 관측된 값들의 집합. 일반적으로 확률표본(무작위 추출)
- 통계량(Statistic; 추정량(Estimator), 추정치(Estimate)) : 표본으로부터 관측된 내용
- 추정량(Estimator): 미지의 모수를 추정하기 위해 사용되는 통계량. 알파벳. ($\bar{X}$)
- 추정치(Estimate): 추정량이 관측되어 얻어진 값. 실제 숫자값
단순임의추출에서 주요 모수에 대한 불편추정량
하나의 모수에 대해 단 하나의 추정량만 존재하는 것은 아니다. 예를 들어 모평균에 대한 추정량으로 표본평균만 있는 것이 아니라 중앙값, 최빈값 등이 있다. 이러한 추정량 중 어떤 추정량이 모수에 대한 좋은 추정량인지 판단해야 한다. 이를 판단하는 기준으로 아래 4가지 기준이 있다. 덧붙여 분명한 사실은 표본에서 얻은 통계량 또는 추정량은 표본을 추출할 때마다 변하게 되므로 확률변수라는 것이다. 아래 4 가지 성격은 모수에 대한 추정량으로서 우리가 바라는 성격일 뿐 필수불가결한 성격은 아니다. 하지만 이러한 성격이 충족될수록 좋은 추정량이라고 판단할 수 있다.
- 불편성(Unbiasedness)
- 일치성(Consistency)
- 효율성(Efficiency): 최소분산
- 충분성(Sufficiency)
점추정과 구간추정
- 통계적 추정(Statistical Estimation)
- 점추정(Point Estimation): 하나의 값으로 모수를 추정하는 것
- 구간추정(Interval Estimation): 일정한 신뢰수준 하에서 모수가 포함되어 있으리라고 기대되는 적절한 구간을 설정하여 모수를 추정하는 것
- 신뢰구간(confidence interval)
- 신뢰구간 = 추정값 +- 표본오차(신뢰계수 * 표준오차) = $\bar{x}\pm t(k)\frac{s}{\sqrt{n}}$
- 표본오차(standard error): 자료 전체가 아닌 일부의 표본을 뽑아 조사함에 따라 발생하는 오차로서 표본조사의 정확성을 나타내는 척도이다.
- 표본오차는 추출방법에 따라 여러 가지 형식으로 나타날 수 있지만 보통 표본의 크기에 반비례한다. 따라서 표본의 크기가 증가하면 표본오차가 작아져 좀 더 정확한 추정값을 구할 수 있다. 다만, 비표본오차가 존재하므로 표본의 크기가 크다고 반드시 좋은 것만은 아니다. 표본오차는 신뢰계수가 있어야 계산 가능하고 단위에 따라 판단이 어려운 측면이 있어 상대표준오차를 병행 사용한다.
- 비표본오차: 보통 면접방법이나 질문지 구성방식의 오류, 조사원의 자질, 조사표의 작성 또는 집계, 분석단계 등 조사의 전체 과정에서 발생할 수 있는 오차.
- 표준오차(standard error) $\frac{s}{\sqrt{n}}$: 흩어짐의 정도를 나타내는 측도로서, 흔히 추정량의 표준편차를 사용하는데 이를 추정량의 표준오차라고 한다.
- 표본오차(standard error): 자료 전체가 아닌 일부의 표본을 뽑아 조사함에 따라 발생하는 오차로서 표본조사의 정확성을 나타내는 척도이다.
- 오차한계(Margin of Error): 모집단의 참값과 표본에서 산출되는 통계량과의 차에 관한 일정한 경계값. 즉 모수 추정치의 표본오차
- 신뢰수준(Confidence level): 가능한 모든 표본들 중에서 그 한계를 만족시키는 표본들의 비율. 100$\times$(1 - 유의수준)%
- 신뢰수준 95%의 의미는 100번 중 95번은 신뢰구간이 모수를 포함하고 있다는 것이고 이는 95번은 올바른 구간추정이 된다는 의미이다. 다시 말해 구간추정은 실제로 한번 추출된 크기 n의 표본만 가지고 추정하므로 구해진 구간은 모수를 포함하고 있거나 또는 포함하고 있지 않거나 둘 중 하나이다.
- 오차한계와 신뢰수준의 관계
- 신뢰수준을 크게하면 오차한계는 커진다.
- 동일한 신뢰수준에서 오차한계를 줄이는 방법: 포본크기를 크게 하거나, 보다 정밀한 방법을 사용한다.
모평균에 대한 추정
모비율에 대한 추정
모분산과 모표준편차에 대한 추정
표본크기의 결정
(2) 통계적 가설검정
표본으로부터 주어지는 정보를 이용하여, 모수에 대한 예상, 주장 또는 단순한 추측 등의 옳고 그름을 판정하는 과정을 통계적 가설검정(statistical hypothesis thesting) 또는 간단히 검정(testing)이라 한다. 추정한걸 검정해야지 비로소 추론이 완성된다.
가설(hypothesis)
- 정의: a falsifiable claim that requires verification, typically from experimental or observational data, and that allows for predictions about future observations.
- 가설이 중요한 이유
- Hypotheses improve experiment design, critical thinking, and data analyses.
- Hypotheses transform loose ideas into concrete and specific claims.
- Hypotheses are used to develop new and more accurate theories, and to dissolve bad theories.
- Most progress in science, engineering, and medicine is the result of hypothesis-testing
- strong hypothesis를 만드는 특징들
- clear
- specific
- falsifiable
- based on prior data or theory
- leads to a statistical test
- a statement, not a question
- a prediction about the direction of an effect
- relevant for unobserved data or phenomena
- relevant for understanding nature
귀무가설과 대립가설
- 귀무가설(null hypothesis): 데이터에서 나타나도 전혀 흥미롭지 않은 가설
- 대립가설(alternative hypothesis): effect hypothesis라고 부르는게 좋다.
- 대립가설의 형태에 따라 단측검정이냐 양측검정이냐가 결정
모든 추론 통계는 기본적으로 특정 유형의 데이터 및 가정 유형, 귀무 가설을 생성하는 다양한 방법, 분포 등에 채택되는 signal to noise ratio이다.
귀무가설 분포와 대립가설 분포의 차이를 이해하거나 정량화하려면 정규화된(normalized) 방법이 필요하다. 이 방법은 이러한 분포의 중심(centers) 차이를 정량화하는 것이다. (= the means of these two distributions)
이때 문제가 2가지 있다.
- 이 차이는 scale dependent하다. 길이의 경우 meter, centimeter, milimeter 등이 될 수 있다.
- 이러한 분포의 너비(the width of these distributions)가 상당히 중요하다는 것이다.
따라서 이러한 문제로 분포 너비의 일부 기능에 의해 조정(scaled)되거나 정규화(normalized)된 중심의 차이(difference of centers)가 필요하다.
검정통계량과 기각역
- 검정통계량(test statistic) : 귀무가설과 대립가설 중 어느 하나를 채택하는 데 기준이 되는 통계량. ‘통계적으로 비교분석한다’라고 할 때 사용하는 값을 통칭. 통계적 가설의 진위여부를 검정하기 위해 ‘표본으로부터 계산’하는 통계량. 표본통계량을 2차 가공한 것 (표본통계량을 곱하고 더한 것)
- 임계값(critical value): 귀무가설을 채택할 것인지 기각할 것인지를 판정하는 기준이 되는 값. 임계값은 유의 수준 $\alpha$, 표본크기 n, 그리고 검정통계량의 분포에 의해 결정된다.
- 기각역(rejection region, critical region): 귀무가설을 기각하여 대립가설을 채택하는 검정통계량의 영역. 임계값이 결정되면 만들어지는 영역
제1종 오류와 제2종 오류
- 제 1종오류 : 귀무가설이 사실일 때 귀무가설을 기각하는 오류
- 제 2종오류 : 대립가설이 사실일 때 귀무가설을 채택하는 오류
- 유의수준($\alpha$, significance level) : 제1종 오류를 범할 확률의 최대허용한계. 즉, 유의수준이 $\alpha$인 검정법이란 제 1종오류를 범할 확률이 $\alpha$ 이하인 검정법을 뜻한다.
- 검정력(power): 1-$\beta$
양측검정과 단측검정
- 양측검정(two-sided test)
- 단측검정(one-sided test)
가설검정순서
- 귀무가설과 대립가설(연구가설) 설정
- 유의수준과 임계값 결정
- 귀무가설의 채탱영역과 기각영역 결정
- 검정통계량의 계산
- 검정통계량 값과 임계값의 비교를 통해 결론
구간추정과 가설검정 관계
구간추정과 가설검정은 서로 보는 관점이 다를 뿐이지 별개의 것이 아니다.
- 구간추정은 내부(신뢰구간)에 관심. 모수가 있음직한 신뢰구간을 구하는 것
- 가설검정은 외부(기각영역)에 관심. 귀무가설의 모수가 없음직한 기각역을 설정
유의확률 (p-value)
- 통계적 유의성 검정(statistical significance testing)은 처리효과가 우연에 의한 것인지 통계적으로 유의한 것인지를 결정하는 것
- significance probability
모수적 검정에서 귀무가설의 분포($H_O$ distribution)는 공식(방정식)에 의해서 만들 수 있다. 하지만 대립가설의 분포는 우리가 알 수가 없다. 분포 대신 대립가설 통계량 값 하나($H_A$ value)로 검정한다.
이때 관찰된 효과($H_A$ value)가 우연히 발생하였다고 말할 수 없을 정도로 충분히 클 때 그 효과는 통계적으로 유의하다고 말한다.
이때 중요한 점은 우리는 $H_A$가 참인지는 증명할 수 없다. 단지 우리가 할 수 있는건 효과가 없다고 가정했을 때 (=귀무가설이 참이라고 가정했을 때) $H_A$와 관련된 검정통계량이 관찰될 확률을 계산할뿐이다.
모수적 검정과 비모수적 검정
비모수적(non-parametric)이라는 말은 가우시안 분포처럼 어떤 특정 분포를 가정하지 않았다는 뜻이다. 추론할 때도 공식(equation)을 사용해서 귀무가설 분포를 만들지 않고 데이터를 통해서 만든다. 비모수적 검정에 대해서는 chapter 8에서 자세히 다룰 예정이다.
| 모수적 검정 (parametric test) | 비모수적 검정 (nonparametric test) |
|---|---|
| one-sample t-test | Wilcoxon sign-rank test |
| two-sample t-test | Mann-Whitney U test |
| Pearson correlation | Spearman correlation |
| ANOVA | Kruskal-Wallis test |
| - | permutation testing |
Multiple comparisons and Bonferroni correction
4. 평균차이 검정(t-test)
(1) 평균차이 검정(t-test) 개념
t-test의 가정
- 수치형 데이터 타입(일반적으로 interval이나 ratio)
- 데이터는 서로 독립이다.
- 데이터는 일반화할 수 있는 모집단으로부터 랜덤으로 뽑혔다.
- 평균과 표준편차는 중심과 산포도를 나타낼 수 있는 valid descriptor이다 (즉, 정규분포를 따른다)
(2) 평균차이 검정 분류
단일 모집단에 대한 검정(집단 1개)
다른 표현으로 단일표본 평균차이 검정(one sample t-test)이라고도 한다. 모집단의 평균이 기준이 되는 어떤 평균값과의 차이가 있는지 없는지 살펴보는 검정방법이다. 실질적인 통계분석 문제에서는 모분산도 모르고 소표본인 경우에 주로 행해진다. 이 경우 검정통계량의 분포가 t분포를 따르기 때문에 t-test라고 부른다. 이때 귀무가설은 ‘모집단의 평균과 기준이되는 어떤 평균값과의 차이가 없다’이다.
- 모평균에 대한 검정
- 모분산 $\sigma^2$이 알려져 있는 경우
- 검정통계량 : $Z=\frac{\bar{x}-\mu_0}{\sigma/\sqrt{n}}$
- 모분산 $\sigma^2$이 알려져 있지 않은 경우
- 검정통계량 : $T=\frac{\bar{x}-\mu_0}{s/\sqrt{n}}=\frac{(\bar{x}-\mu_0)\sqrt{n}}{s}$
- 모분산 $\sigma^2$이 알려져 있는 경우
- 모비율에 대한 검정
- 이항비율 검정(binomial proportion test)
- 검정통계량 : $\sum_{k=0}^{x}\binom{n}{k}p_0^k(1-p_0)^{n-k}$
- 정규근사 검정(표본의 크기가 충분히 큰 경우)
- 표본의 크기가 충분히 큰 경우 표본비율 $\hat{p}=x/n$은 평균이 $p$이고 분산이 $p(1-p)/n$인 정규분포를 따른다.
- 검정통계량 : $Z=\frac{\hat{p}-p_0}{p_0\sqrt{(1-p_0)/n}}$
- 이항비율 검정(binomial proportion test)
- 모분산에 대한 검정
- 카이제곱분포를 따른다.
- 검정통계량 : $\chi^2=\frac{(n-1)S^2}{\sigma_0^2}$
두 모집단에 대한 비교 (집단 2개)
two sample t-test는 두 데이터 집합이 같은 분포에서 추출된건지 여부를 검정한다. 검정통계량의 분자는 항상 $\bar{x_1}-\bar{x_2}$로 같은데 분모가 검정종류에 아래 3가지 기준에 따라서 나뉜다.
- paired vs. unpaired
- paired: paired samples t-test
- unpaired: independent two sample t-test
- equal variance vs. unequal Variance (주관적으로 해석하기 나름. 등분산검정을 하기도 한다.)
- equal variance: 같은 모집단에서 나왔을거라 가정하고 같은 분산을 가진다고 가정.
- unequal variance: 다른 그룹에서 나온거 같아서 다른 분산을 가진다고 가정.
- equal sample size vs. unequal sample size
독립표본에 의한 두 모평균의 비교: 독립표본 t-검정
독립표본 평균차이 검정(independent two sample t-test)은 독립적인 두 모집단의 평균이 같은지 틀린지를 살펴보는 검정방법이다. 두 확률표본이 두 모집단으로부터 각기 독립적으로 관측되었다는 것이다. 이때 모집단은 각각 정규분포를 가정한다. 이때 각 집단의 표본크기가 작은 경우 모집단의 정규성 검정을 하는 것이 좋다. 정규성 가정을 만족시키지 못한다고 생각되는 자료는 독립표본 t검정을 시행하기보다는 비모수적 검정방법인 맨-휘트니의 두 표본 검정방법을 사용하는 것이 좋다.
검정통계량의 형태는 두 모집단의 분산을 모르기는 하지만 1) 같다고 가정할 수 있는 경우와 2) 같다고 가정할 수 없는 경우에 따라 다르게 표현한다. 또한 두 모집단의 분산이 같은지 틀린지에 따라 검정통계량의 형태가 달라지기 때문에 두 모분산에 대한 동질성(homogeneity of variance)을 먼저 검정해야 한다. 즉, 등분산검정을 시행한다.
t-test에 앞서 (a) 집단별 기술통계량을 살펴보고 (b) 분산에 대한 검정, 그리고 (c) 분산에 대한 검정 결과에 따라 t-test를 시행한다.
-
모분산 $\sigma_1^2$과 $\sigma_2^2$이 알려진 경우
-
모분산 $\sigma_1^2$과 $\sigma_2^2$을 모르는 경우
- 표본크기가 충분히 클 때
- $\sigma_1^2$ = $\sigma_2^2$ (= $\sigma^2$) : 두 모집단은 미지의 동일한 모분산을 갖는다는 조건
- $\sigma_1^2$ ≠ $\sigma_2^2$
대응표본에 의한 두 모평균의 비교: 대응표본 t-검정
대응표본 t검정(paired samples t-test)는 실험 전후의 결과값 같이 연관성이 존재하는 두 표본에 대해서 실시하는 검정이다. 같은 그룹이 2번 응답한 경우 각각의 응답을 two-sample로 본다.
Leave a comment