기타 메모

A/B테스트 결과 분석에 앞서 확통 개념 정리

Jonchann 2021. 2. 4. 19:31

내일쯤 다시 정리할 것임

참고한 글

확통 개념

확률 변수

어떠한 확률이 일어날 경우
e.g. 주사위에서 1이 나올 확률에서 1은 확률 변수이다

확률 분포

확률 변수와 확률을 짝지어 나타낸 것(함수)

이산 확률 분포

각 확률 변수가 특정 실수로 연속되지 않은 확률 분포
e.g.
X = {x1, x2, x3, …, xi, …, xn}
Pr = {p1, p2, p3, …, pi, …, pn}

이항 분포

이산 확률 분포의 대표적인 예.
e.g. 어떤 기사를 탭하는 행위를 t라고 하자. 총 n회 시행 중에서 t가 일어날 확률을 나타낸 분포
X = { x0, x1, x2, …, xi, …, xn }
Pr = {nCrp^0q^n, nCrp^1q^{n-1}, nCrp^2q^{n-2}, …, nCrp^iq^{n-i}, …, nCr*p^nq^0}
식으로 나타내면 아래와 같다.
( n )p^x * q^{n-x}
t

e.g. A디자인을 본 방문자 1,300명 중 120명이 구매를 했고 B디자인을 본 방문자 1,270명 중 125명이 구매했다면, 그리고 그 행위는 전부 독립적이었다면 각각 아래 이항분포를 따른다.

* D는 데이터
P(D|A) = ( 1300 )p_A^120 * q_A^{1300 - 120}

                  120

P(D|B) = ( 1270 )p_B^125 * q_B^{1270 - 125}

                  125

베르누이 시행

결과가 둘 중 하나로만 일어나는 실험이나 시행
e.g. 기사를 탭하거나(1) 하지 않거나(0)

베르누이 확률 변수

시행 결과를 0 혹은 1로 바꾼 변수(베르누이 시행의 예 참고). 확률 변수를 0 혹은 1만 가질 수 있으므로 이산 확률 변수이다. 경우에 따라 1, -1로 나타내는 경우도 있다.

베르누이 확률 분포

베르누이 확률 변수가 따르는 확률 분포. 1이 나올 확률을 μ로 표현한다.
e.g. Bern(x; μ) = {μ if x = 1 else 1-μ}
여기서 ;은 구분하기 위한 기호이다.

확률 변수 X가 베르누이 분포에 따라 발생한다면 이를 ‘확률 변수 X가 베르누이 분포를 따른다’고 하고 아래와 같이 표현한다.
X ~ Bern(x; μ)
베르누이 확률 분포의 예를 식으로 표현하면 아래와 같다.
Bern(x; μ) = μ^x * (1-μ)^{1-x}

감마 함수(제 2종 오일러 적분; 제 1종은 베타 함수)

계승(factorial; n!) 함수; 자연수만을 정의역으로 하는 함수 의 정의역을 복소수로 확장한 함수를 말한다.
Γ(a) = ∫_0^∞ {x^{a-1} * e^{-x}} dx

참고로

정수: n + x = 0을 만족하는 n, x과 0을 정수라 한다.

자연수: 양의 정수

복소수: x^2 + 1 = 0 같은 방정식도 근을 가질 수 있도록 실수를 확장한 수이며 여기서 발생하는 것이 허수(i; √-1)이다.
e.g. z = a + bi = ( a b )
-b a

베타 분포

확률 변수 x는 a, b라는 두 모수를 가지는 분포로 표본 공간은 0 <= x <= 1 이다. 식으로 나타내면 아래와 같다.
Beta(x; a, b) = Γ(a+b)/Γ(a)Γ(b) * x^{a-1} * {1-x}^{b-1}

베타 분포를 따르는 확률 변수는 항상 0~1 사이이기 때문에 성공 확률 분포의 가장 자연스러운 가정이 된다(?).
PA, PB ~ Beta(α, β) (α, β는 모수); 확률이 어느 값에 밀집되어 있을 것이다 라는 것을 알 수 있음.

베타 분포의 그래프 중 확률 밀도 함수(그래프 중 가장 튀어나온 부분)가 특정 지점에서 가장 높다는 것을 안다면(기사를 탭하는 액션이 일어날 확률이 가장 높은 부근) 그 분포에 쓰인 α, β를 사전 확률(Beta(α, β))로 채택한다.

이러한 사전 정보가 없을 경우에는 무정보 사전 분포인 Beta(1, 1)=균등분포(Uniform(0, 1)); 0~1 사이 어딘가에서 액션을 취할 것이다 을 가정하고 아래와 같이 사후 분포를 구한다.
참고로 사후 분포는 Beta(α + t, β + n - t)를 따른다. 사후 분포의 첫번째 모수는 α + 성공 횟수, β + 실패 횟수 이다.
e.g.
A디자인에 따른 탭 확률 사후 분포는 Beta(1 + 120, 1 + 1300 - 120) = Beta(121, 1181)
B디자인에 따른 탭 확률 사후 분포는 Beta(1 + 125, 1 + 1275 - 125) = Beta(126, 1151)