-
정보량, 불확실성, 섀넌 엔트로피CS 2023. 1. 13. 15:33
https://www.youtube.com/watch?v=CdH7U3IjRI8
정보 : 불확실성을 측정하는 정량적 표현
불확실성이 높을 수록, 얻게 되는 정보량이 많다.
확률변수 𝑋의 값이 𝑥인 사건의 정보량
𝐼(𝑥)=−log𝑃(𝑥)
위 식에서 밑이 2인 경우 정보량의 단위를 섀년(shannon) 또는 비트(bit)
자연상수(exp)를 밑으로 할 경우 내트(nat)
머신러닝에서는 대개 밑을 자연상수
Shannon Entropy
정보량을 의미하는 섀넌의 엔트로피는 아래와 같이 나타난다.
𝐻(𝑃)=𝐻(𝑥)=−∑𝑥𝑃(𝑥)log𝑃(𝑥)
기대값 섀넌 엔트로피공식 섀년 엔트로피 공식(위와 같음) 엔트로피 공식은 기대값과 같은 포맷을 갖고 있다.
기대값의 X는 엔트로피의 log 1/p 이다.
log 1/p 는 정보의 양이다.
왜 log 1/p 가 정보의 양인가?
조건1 : 불확실성 높을 수록 정보량 높다.
p(x1) > p(x2) -> I(x1) < I(x2)
그러므로 inverse probability를 사용.
I(x) = 1/p(x)
조건2 : 독립적인 정보량은 그냥 더하면 된다.
I(x1, x2) = I(x1) + I(x2)
독립적인 확률 두개의 곱을 더하기로 바뀍 위해 log를 사용.
I(x) = log(1/p(x))
왜 log의 base가 2인가?
정보량을 비트수로 구하기 위해.