¿Por qué la entropía en la teoría de la información se define como -summationp (x) * logp (x). ¿Cuál es la razón detrás de esto?

¿Por qué no mirar el artículo de Shannon (“Una teoría matemática de la comunicación”) en sí mismo? La justificación se da allí.

Para resumir, Shannon estaba tratando de encontrar una función que capturara con precisión el “contenido de información” de alguna fuente (que se modela como una variable aleatoria). La suposición es que se conoce la distribución de probabilidad de la variable aleatoria fuente (inicialmente, siguiendo a Shannon, podemos pensar en la fuente como una variable aleatoria discreta que toma muchos valores, digamos [matemáticas] X [/ matemáticas])

Antes de Shannon, Hartley ya había dado su medida, que no implicaba la distribución de [matemáticas] X [/ matemáticas]. La medida de información de Hartley era solo [math] log ~ [/ math] [math] L [/ math] (podemos suponer que la base es 2, pero puede ser cualquier cosa en principio), donde [math] L [/ math ] es el número de valores posibles que [math] X [/ math] puede tomar. Es fácil entender por qué se selecciona [math] log ~ [/ math] [math] L [/ math] (Shannon da argumentos en su artículo). Una explicación es que puede representar [math] X [/ math] usando [math] log ~ L [/ math] bits, si sabe que tomará [math] L [/ math] posibilidades.

Sin embargo, esto claramente tuvo un problema si introdujo la distribución de probabilidad de [matemática] X [/ matemática], porque si sabía que había ciertos valores que [matemática] X [/ matemática] puede tomar con mayor probabilidad que otros, entonces probablemente podría reducir el número de bits necesarios para representar [matemática] X [/ matemática] al codificar esas posibilidades altamente probables con menor número de bits y las opciones menos probables con más bits. Esto te da una idea aproximada de la motivación de Shannon.

Ahora Shannon consideró que la función [matemática] H (X) = \ sum_ {x} p (x) log \ frac {1} {p (x)} [/ matemática] capturaba este efecto de la distribución de probabilidad en el Número de bits necesarios para representar la fuente. Él demostró rigurosamente que, sin importar la técnica que se use, uno debe usar al menos bits [matemática] H (X) [/ matemática] para representar [matemática] X [/ matemática] correctamente. Lo llamó entropía, tomando prestada la palabra de la termodinámica, en el sentido de que [matemáticas] H (X) [/ matemáticas] representaba el contenido de información real en la fuente.

Shannon justifica rigurosamente esta elección en su artículo. Puede buscarlo y comprenderlo si tiene los antecedentes matemáticos necesarios (http://worrydream.com/refs/Shann… Página 10 / Sección 6)