떼닝로그

통계학 기초 본문

Boostcamp AI Tech/AI Mathematics

통계학 기초

떼닝 2022. 6. 17. 05:45

모수

  • 통계적 모델링은 적절한 가정 위에서 확률분포를 추정(inference)하는 것이 목표
  • 유한한 개수의 데이터에서 관측하여 정확하게 알아내는 것은 불가능하므로, 근사적으로 확률분포를 추정해야 함
  • 예측모형의 목적은 데이터와 추정 방법의 불확실성을 고려해서 위험을 최소화하기 위함
  • 어떤 가정을 미리 부여하는지 아닌지에 따라 모수적, 비모수적 방법론으로 나뉨
    • 데이터가 특정 확률분포를 따른다고 선험적으로(a priori) 가정한 후, 그 분포를 결정하는 모수(parameter)를 추정하는 방법을 모수적(parametric) 방법론
    • 특정 확률분포를 가정하지 않고, 데이터에 따라 모델의 구조 및 모수의 개수가 유연하게 바뀌면, 또는 모수의 개수가 무한할 때 비모수(noparametric) 방법론

확률분포 사용 예시

  • 기계적으로 확률분포를 가정해선 안 되며, 데이터를 생성하는 원리를 먼저 고려해야
    • 데이터가 2개의 값만 가지는 경우 : 베르누이 분포
    • 데이터가 N개의 이산적인 값을 가지는 경우 : 카테고리 분포
    • 데이터가 [0,1]사이에서 값을 가지는 경우 : 베타분포
    • 데이터가 0 이상의 값을 가지는 경우 : 감마분포, 로그정규분포 등
    • 데이터가 실수 전체에서 값을 가지는 경우 : 정규분포, 라플라스 분포 등
  • 모수를 추정한 후에는 반드시 통계적 검정을 해야 함

데이터로 모수 추정하기

  • 정규분포의 모수는 평균 μ과 분산 σ².
표본평균과 표본분산
  • 표본분산을 구할 때 N-1을 사용하는 것은 불편(unbiased) 추정량을 구하기 위해서임
  • 통계량의 확률분포를 표집분포(sampling distribution)
    • 통계량은 표본들의 분포가 아닌, 표본평균과 표본분산의 확률분포를 나타냄
    • 표집분포는 N이 커질수록 정규분포 N(μ, σ²/N)을 따름 : 이를 중심극한정리(Central Limit Theorem)
  • 베르누이 확률 분포를 따르는 확률변수들의 분포
베르누이 확률 분포를 따르는 확률변수들의 분포
  • 점점 정규분포를 따라가는 모습 확인 가능. 평균값은 하나의 값으로, 분산은 점점 작아지는 형태.

최대가능도 추정법

  • 표본평균과 표본분산은 중요한 통계량이나, 확률분포마다 사용하는 모수가 다르므로 적절한 통계량이 달라지게 됨.
  • 최대가능도 추정법(maximum likelihood estimation, MLE)를 통해 이론적으로 가장 가능성이 높은 모수를 추정 가능
최대가능도(MLE) 식
  • 확률밀도에선 θ를 x에 대한 함수로 인식하나, 가능도(likelihood)에서는 주어진 data x에 대해서 모수 θ를 변수로 둔 함수
  • 데이터 집합 X가 독립적으로 추출되었을 경우 로그가능도 최적화
로그가능도 최적화

왜 로그가능도를 사용하는가?

  • 로그가능도를 최적화하는 모수 θ가능도를 최적화하는 MLE
  • 데이터의 숫자가 수억 단위가 된다면, 연산 오차때문에 컴퓨터의 정확도로 가능도 계산 불가
  • 로그가능도를 이용함으로써 곱셈을 덧셈으로 변환 가능 -> 컴퓨터로의 연산 가능
  • 연산량 O(n²)에서 O(n)으로 줄어듦
  • 대개의 손실함수의 경우, 경사하강법을 사용하므로, 음의 로그가능도(negative log-likelihood)를 최적화

MLE 추정법 예제

정규분포 (연속확률변수)

  • 정규분포에서의 모수는 평균과 표준편차
  • 정규분포를 따르는 확률변수 X로부터 독립적인 표본 {x₁, x₂, ..., x_n}을 얻었을 때 최대가능도 추정법을 이용하여 모수 추정
정규분포에서의 최대가능도 추정법
  • 위의 결과에서 각각 평균과 표준편차로 나눠 미분 진행.
  • 두 미분이 모두 0이 되는 μ와 σ를 찾으면 가능도 최대화
위가 평균, 아래가 표준편차를 이용한 미분
  • 데이터가 주어져있을 때 데이터들의 표본평균이 최대가능도 추정법과 일치
  • MLE는 불편추정량을 보장하진 않으나, consistency를 보장

카테고리 분포 (이산확률변수)

  • 베르누이분포(두 개의 값 중 하나 선택)를 d차원으로 확장한 형태가 카테고리분포. one-hot vector로 값 표현
  • 카테고리 분포 Multinoulli(x;p₁, p₂, ..., p_d)를 따르는 확률변수 X로부터 독립적인 표본 {x₁, x₂, ..., x_n}을 얻었을 때 최대가능도 추정법을 이용하여 모수 추정하면
카테고리분포에서의 최대가능도 추정법1
  • 카테고리분포의 모수는 확률을 나타내고 있기 때문에 p를 모두 더한 값이 1이 되어야 함
  • 주어진 \(x_i\)의 k번째 차원에 해당하는 값인 \(x_ik\)는 0과 1로만 이루어짐
  • log를 이용하여 곱셈을 덧셈으로 표현 가능
카테고리분포에서의 최대가능도 추정법2
  • 모수들을 전부 더했을 때 1이 된다는 제약을 만족하면서 왼쪽 목적식을 최대화하는 것이 MLE
    • 라그랑주 승수법을 통해 최적화 문제를 풀 수 있음
    • 제약식(등식)을 양변으로 넘겨준 상태에서 λ 곱해준 식을 목적식에 더해줌으로써 새로운 목적식 생성
  • 카테고리 분포의 MLE는 경우의 수를 세어서 비율을 구하는 것

딥러닝에서 최대가능도 추정법

  • 딥러닝 모델의 가중치를 θ = \((W^(1), ..., W^(L))\)이라 표기했을 때, 분류 문제에서 소프트맥스 벡터는 카테고리분포의 모수(p₁, p₂, ..., \(p_k\))를 모델링
  • one-hot vector로 표현한 정답 레이블 y를 관찰데이터로 이용해 확률분포인 소프트맥스 벡터의 로그가능도 최적화 가능
    softmax 벡터의 로그가능도 최적화

확률분포의 거리

  • 손실함수(loss 함수)들은 모델이 학습하는 확률분포와 데이터에서 관찰되는 확률분포의 거리를 통해 유도
  • 데이터공간에 두 개의 확률분포 \(P(x)\)와 \(Q(x)\)가 있을 경우 두 확률분포 사이의 거리를 계산할 때 아래 함수 이용
    • 총변동 거리 (Total Variation Distance, TV)
    • 쿨백-라이블러 발산 (Kullback-Leibler Divergence, KL)
    • 바슈타인 거리 (Wasserstein Distane)

쿨백-라이블러 발산

위와 같이 정의하고, 아래와 같이 분해 가능

  • 분류 문제에서 정답 레이블을 P, 모델 예측을 Q라 두면 최대가능도 추정법은 쿨백-라이블러 발산을 최소화하는 것과 같음
  • 확률분포상의 거리를 최소화하는 것과 로그가능도를 최대화하는 것은 굉장히 밀접하게 연결되어있음

'Boostcamp AI Tech > AI Mathematics' 카테고리의 다른 글

CNN 기초  (0) 2022.06.18
베이즈 통계학  (0) 2022.06.17
확률론 기초  (0) 2022.06.16
딥러닝 학습방법 이해하기  (0) 2022.06.16
경사 하강법 (Gradient Descent)  (1) 2022.06.15
Comments