수학 용어들

DM wiki
둘러보기로 이동 검색으로 이동

베이즈 정리

  • 고딩때 배우는 베이즈 정리 10년 넘게 볼 때마다 잊어먹는거 실화냐
    • P(z|x) = P(z)*P(x|z) / P(x)
    • 사후확률 = 가능도*사전확률 / 모델에 대한 증거
    • Posterior = Prior*Likelihood / Evidence(Marginal likelihood)
    • 증거(데이터)가 나타났을 때 가설 확률 = (가설 확률)*(가설일때 증거 나타날 확률) / (가설별로 증거에 대한 가능도 더하기 = 상수항)
    • (VAE) 그림일 때 잠재변수 확률 = 잠재변수 확률 * 잠재변수일때 그림 나타날 확률 / 잠재변수별로 그림에 대한 가능도 더하기

확률/가능도(우도)

  • 어떤 분포가 평균 μ, 분산 1인 정규분포를 따른다고 하면
    • 확률(Probability): μ는 고정, y가 변수일 때
    • 가능도(우도, Likelihood): y가 관찰되었을 때, μ가 변수

최대 가능도 추정

  • (최대 우도 추정, Maximum Likelihood Estimator, MLE): 주어진 데이터에서 가장 그럴듯한 μ 찾기

일반화된 최대 가능도 추정

  • 정규분포에서는 (μ, var)를 찾는 것이겠지만, 일반적 분포를 생각해보자.
  • 이 분포(의 파라미터)를 θ라 하자. 즉, 정규분포는 (μ, var)가 찾고자 하는 θ이다.
  • 가능도 함수(우도 함수) (대충)
    • 명탐정 코난이 되어보자. 증거1, 증거2, 증거3이 들어왔다.
    • 용의자1한테 증거들을 들이대봤더니 그 확률이 어느 정도인지 나왔다.
    • 이 용의자가 범인일 '가능성'을 나타낸다.
  • 가능도 함수(우도 함수) (진짜)
    • '용의자'는 분포를 생성하는 파라미터 θ, 증거들은 데이터 x1, x2, x3
    • 다시 말하면 증거들이 주어졌을 때, 관심 있는 사건(역시 이 놈이 범인이었다)이 일어날 가능성
    • 관측 데이터 x1, x2, x3가 주어졌을 때, θ의 가능도이다.
    • 즉 그 분포에다가 x 대입해보면 됨
    • L(θ|(x1, x2, x3)) = pθ(x1, x2, x3) = Pθ(X1=x1, X2=x2, X3=x3)
  • 최대 가능도 추정
    • 가능도를 최대로 만들고 싶은게 최대 가능도 추정이다.
    • 즉, 주어진 자료들을 바탕으로 이 자료들을 생성할만한 가장 그럴듯한 분포(의 파라미터)를 찾고 싶은 거다
    • 근데 x1, x2, ... 등등이 모두 독립적이고 같은 확률분포를 따른다면? 그러면 걍 곱하면 댄다
    • 그러니깐 pθ(x1)*pθ(x2)*pθ(x3)임
    • 로그를 취해도 댐 (곱셈이 덧셈으로 바낌)

사전/사후 분포

  • 사전/사후 분포
    • 어딜 가도 ㄹㅇ 분포를 이용해서 어쩌구저쩌구만 말하지 사전/사후 분포가 뭔지 설명을 안 해줌;;;
  • 추론 대상
    • θ
  • 사전 분포 (prior)
    • 어떤 사건이 일어나기 전에, 그 사건의 확률 밀도를 표현하는 분포
    • 추론 대상의 확률밀도함수
    • P(θ)
  • 가능도 분포 (likelihood)
    • ??
    • P(x|θ)
  • 사후 분포 (posterior)
    • 어떤 사건이 일어났는데, 우리가 알고 있는 사건분포에서는 그 사건이 일어날 확률이 몇인가(가능성)
    • 사건을 관측 후, 그 정보를 A의 확률 계산에 사용
    • P(θ|x)
  • 청바지 공장 예시
    • 청바지 공장: 서울, 대전, 대구에 있다
    • 사건: 서울 공장에서 생산했다.
    • 추론 대상: A1 = 「서울 공장에서 생산한 제품 분포 파라미터」
    • 사전 분포: p(A1) = 서울 공장에서 생산한 제품일 확률
    • 가능도 분포: p(B|A1) = 서울 공장의 불량 확률
    • 한정상수: p(B): 바지가 고장일 확률 => 추정 중에는 생략 가능 (어떤 추정법을 써도 이건 똑같으므로)
    • 사후 분포: p(A1|B) = 불량난 청바지가 서울 공장에서 나왔을 확률
  • VAE 예시
    • 생성 모델 파라미터
    • 다변량 파라미터
    • 사전 분포
      • 실제: pθ(z), N(0, I)로 가정
        • 실제 세계의 z는 신만이 알고 있다.
        • 즉 실제 세계의 z의 분포는 아무도 모른다. 그런데 이 z로부터 실제 세계가 돌아간다.
      • 추정: qθ(z) (베르누이 디코더)
        • 그러면 밑에서 설명할 인코더로 z들을 모아서, 이것들의 평균을 내면 그게 z의 분포가 아닐까? 라는게 아이디어
    • 사후 분포
      • 실제: pθ(z|x)
        • 실제 세계의 z는 신만이 알고 있다.
      • 사후 분포 추정: qφ(z|x) (가우시안 인코더)
        • 실제 세계의 화상 x가 들어왔다는 것은 이미 신만이 알고 있는 z로부터 x가 생성되었다는 뜻이다. 그래서 사후분포이다.
        • 즉, 어떤 화상 x가 들어 왔을 때, 우리가 알고 있는 잠재 변수 z에서는 그 화상 x가 일어날 확률이 몇인가?
        • 이는 알기 어렵다. 일단 무슨 잠재 변수에서 왔는지도 모르고, 잠재 변수들의 의미도 모르기 때문

미분류

  • KL 다이버전스: 두 확률 분포 간의 차이를 정량화 하는 수식
  • 생성 모델: 주어진 데이터들이 가지는 실제 분포를 '추정' 해서, 그 분포에서 새로운 데이터를 '생성'하는 모델