수학 용어들
Kim135797531 (토론 | 기여)님의 2019년 10월 19일 (토) 09:50 판 (새 문서: ===확률/가능도(우도)=== * 어떤 분포가 평균 μ, 분산 1인 정규분포를 따른다고 하면 ** 확률(Probability): μ는 고정, y가 변수일 때 ** 가능도(우...)
확률/가능도(우도)
- 어떤 분포가 평균 μ, 분산 1인 정규분포를 따른다고 하면
- 확률(Probability): μ는 고정, y가 변수일 때
- 가능도(우도, Likelihood): y가 관찰되었을 때, μ가 변수
최대 가능도 추정
- (최대 우도 추정, Maximum Likelihood Estimator, MLE): 주어진 데이터에서 가장 그럴듯한 μ 찾기
일반화된 최대 가능도 추정
- 정규분포에서는 (μ, var)를 찾는 것이겠지만, 일반적 분포를 생각해보자.
- 이 분포(의 파라미터)를 θ라 하자. 즉, 정규분포는 (μ, var)가 찾고자 하는 θ이다.
- 가능도 함수(우도 함수) (대충)
- 명탐정 코난이 되어보자. 증거1, 증거2, 증거3이 들어왔다.
- 용의자1한테 증거들을 들이대봤더니 그 확률이 어느 정도인지 나왔다.
- 이 용의자가 범인일 '가능성'을 나타낸다.
- 가능도 함수(우도 함수) (진짜)
- '용의자'는 분포를 생성하는 파라미터 θ, 증거들은 데이터 x1, x2, x3
- 다시 말하면 증거들이 주어졌을 때, 관심 있는 사건(역시 이 놈이 범인이었다)이 일어날 가능성
- 관측 데이터 x1, x2, x3가 주어졌을 때, θ의 가능도이다.
- 즉 그 분포에다가 x 대입해보면 됨
- L(θ|(x1, x2, x3)) = pθ(x1, x2, x3) = Pθ(X1=x1, X2=x2, X3=x3)
- 최대 가능도 추정
- 가능도를 최대로 만들고 싶은게 최대 가능도 추정이다.
- 즉, 주어진 자료들을 바탕으로 이 자료들을 생성할만한 가장 그럴듯한 분포(의 파라미터)를 찾고 싶은 거다
- 근데 x1, x2, ... 등등이 모두 독립적이고 같은 확률분포를 따른다면? 그러면 걍 곱하면 댄다
- 로그를 취해도 댐 (곱셈이 덧셈으로 바낌)
사전/사후 분포
- 사전/사후 분포
- 어딜 가도 ㄹㅇ 분포를 이용해서 어쩌구저쩌구만 말하지 사전/사후 분포가 뭔지 설명을 안 해줌;;;
- 추론 대상
- θ
- 사전 분포 (prior)
- 어떤 사건이 일어나기 전에, 그 사건의 확률 밀도를 표현하는 분포
- 추론 대상의 확률밀도함수
- P(θ)
- 가능도 분포 (likelihood)
- ??
- P(x|θ)
- 사후 분포 (posterior)
- 어떤 사건이 일어났는데, 우리가 알고 있는 사건분포에서는 그 사건이 일어날 확률이 몇인가(가능성)
- 사건을 관측 후, 그 정보를 A의 확률 계산에 사용
- P(θ|x)
- 청바지 공장 예시
- 청바지 공장: 서울, 대전, 대구에 있다
- 사건: 서울 공장에서 생산했다.
- 추론 대상: A1 = 「서울 공장에서 생산한 제품 분포 파라미터」
- 사전 분포: p(A1) = 서울 공장에서 생산한 제품일 확률
- 가능도 분포: p(B|A1) = 서울 공장의 불량 확률
- 한정상수: p(B): 바지가 고장일 확률 => 추정 중에는 생략 가능 (어떤 추정법을 써도 이건 똑같으므로)
- 사후 분포: p(A1|B) = 불량난 청바지가 서울 공장에서 나왔을 확률
- VAE 예시
- 생성 모델 파라미터
- 다변량 파라미터
- 사전 분포
- 실제: pθ(z), N(0, I)로 가정
- 실제 세계의 z는 신만이 알고 있다.
- 즉 실제 세계의 z의 분포는 아무도 모른다. 그런데 이 z로부터 실제 세계가 돌아간다.
- 추정: qθ(z) (베르누이 디코더)
- 그러면 밑에서 설명할 인코더로 z들을 모아서, 이것들의 평균을 내면 그게 z의 분포가 아닐까? 라는게 아이디어
- 실제: pθ(z), N(0, I)로 가정
- 사후 분포
- 실제: pθ(z|x)
- 실제 세계의 z는 신만이 알고 있다.
- 사후 분포 추정: qφ(z|x) (가우시안 인코더)
- 실제 세계의 화상 x가 들어왔다는 것은 이미 신만이 알고 있는 z로부터 x가 생성되었다는 뜻이다. 그래서 사후분포이다.
- 즉, 어떤 화상 x가 들어 왔을 때, 우리가 알고 있는 잠재 변수 z에서는 그 화상 x가 일어날 확률이 몇인가?
- 이는 알기 어렵다. 일단 무슨 잠재 변수에서 왔는지도 모르고, 잠재 변수들의 의미도 모르기 때문
- 실제: pθ(z|x)
미분류
- KL 다이버전스: 두 확률 분포 간의 차이를 정량화 하는 수식
- 생성 모델: 주어진 데이터들이 가지는 실제 분포를 '추정' 해서, 그 분포에서 새로운 데이터를 '생성'하는 모델