¿Qué ecuación puede calcular la vaguedad de un texto?

Lo que podría usar es, como otros han mencionado pero no se ha declarado explícitamente, es un algoritmo de Machine Learning.

El aprendizaje automático es un concepto enorme que puede hacer exactamente lo que está buscando, o exactamente lo contrario. Una cosa que podría hacer es, usando una medida de “vaguedad” en su sentido, aproximar cuántas veces aparece una palabra en un texto mediante medidas relativas comparativas.

Vamos a los negocios.

Digamos que una palabra aparece en un texto 1,000 veces, pero hay otras 99,000 palabras en el texto, totalizando 100,000 palabras en total. Con su método, tendría una vaguedad de .01.

Ahora, digamos que otra palabra aparece cinco veces, pero es más significativa que otras palabras. Por ejemplo, “neuropatológico” en un estudio científico que relaciona el autismo con el consumo prenatal de alcohol. No quisiéramos que “el” fuera una palabra más relevante que “neuropatológico” supondría.

Elimine estadísticamente los valores atípicos, lo que eliminará la inclusión de palabras innecesarias, ya sean artículos u otras palabras extremadamente comunes que no agregan mucho al tema.

NOTA: De aquí en adelante, todos los valores con un ‘~’ inicial se pueden reinterpretar como otros valores cercanos según el cuerpo del texto, pero son una buena aproximación para fines generales.

Si las palabras están a más de ~ 2.75 desviaciones estándar de la media en la dirección positiva, es probable que sean valores atípicos. Estas palabras se usan con demasiada frecuencia para ser de uso crítico. Si están a ~ 3 desviaciones estándar de la media en la dirección negativa, es mucho menos probable que sean atípicos en términos de utilidad, pero aún pueden ser útiles en términos de. Caso por caso, elimine los que se encuentran entre ~ 3 y ~ 3.2 desviaciones estándar restadas de la media.

Ahora que las palabras sin sentido se han eliminado más o menos del cuerpo del texto, debe usar exactamente la fórmula que ha escrito. Giro épico de la trama, ¿eh?

Tengo que estar de acuerdo con el comentario de Bruce Alan Martin a su pregunta. En el mejor de los casos, la medida que está proponiendo describe la “palabrería”, que asume se correlaciona con la “vaguedad”. Eso a veces puede ser cierto, pero la correlación es débil. Supongamos que aplica el algoritmo a las pruebas matemáticas. La notación matemática es compacta, por lo que los símbolos se repiten con frecuencia. La mayoría de las pruebas matemáticas serían consideradas vagas por su algoritmo actual.

Cualquier definición útil de “vaguedad” se reduce a la ambigüedad del significado. No sé si alguien ha encontrado correlatos de significado ambiguo en las propiedades del texto, como el recuento de palabras. Dudo que haya cálculos de propiedades sintácticas por sí solas que predigan de manera confiable la “vaguedad”.

En pocas palabras, no se puede medir la vaguedad sin modelar el significado de alguna manera.

Debe especificar qué quiere decir exactamente con vaguedad de un texto . Mi comprensión de la vaguedad es que es principalmente una propiedad léxica más que textual (por ejemplo, El camino fue largo es una declaración vaga).

Si realmente desea cuantificar la vaguedad de pasajes de texto completos (o incluso unidades de texto más largas), debe informarnos qué forma de representación está utilizando para comenzar la semántica textual. Además, ¿con qué referencia estás midiendo?

Saltando un poco por delante de las cosas, me gustaría agregar que soy bastante escéptico, la vaguedad puede cuantificarse en términos absolutos. Feliz, por supuesto, ser persuadido de lo contrario.

Esto me recuerda a tf – idf. Eche un vistazo a eso para posibles enfoques para puntuar especificidad / vaguedad.

Puedes entrenar a una modelo en un corpus de texto primero. Calcule tf-idf en un gran cuerpo de texto. Luego califique la vaguedad de cada palabra en su texto de destino de acuerdo con los valores calculados previamente. Puedes calificar palabras que nunca has visto durante el entrenamiento como altamente específicas.