본문 바로가기
카테고리 없음

KL Divergence란

by Labeler 2024. 8. 23.


KL 다이버전스는 Kullback-Leibler Divergence의 약자로, 두 확률 분포 간의 차이를 측정하는 비대칭적 수치이다.

머신러닝, 확률이론, 통계학, 정보이론 등에서 활용되는 개념이고, P 확률 분포화 Q 확률 분포가 얼마나 다른지를 보는 개념

여기서 정보이론 (Information Theory)이란 정보를 저장, 전송, 처리, 압축 하는 학문분야를 말하는데 여기서 정보량과 Entropy 개념이 나온다.

발생할 확률이 낮으면 정보량이 많다고 볼 수 있고, 이를 정량화 한 것이 정보량. (왜냐하면 어더한 사건이 발생할 확률이 낮으면 그 사건이 제공하는 정보량은 크다고 보기 때문 / ex 범죄자의 성씨 정보를 얻었는데 김씨가 아닌 권씨면 더욱 범죄자가 좁혀짐)

I(xj) = - log a p(xj)
xj가 발생할 확률이 p(xj)이며, 확률이 낮을수록 - log 값이 커지기 때문에 정보량이 많음 (a는 보통 bit로써 2를 사용)