¿Qué ecuación puede calcular la vaguedad de un texto?

Lo que podría usar es, como otros han mencionado pero no se ha declarado explícitamente, es un algoritmo de Machine Learning.

El aprendizaje automático es un concepto enorme que puede hacer exactamente lo que está buscando, o exactamente lo contrario. Una cosa que podría hacer es, usando una medida de “vaguedad” en su sentido, aproximar cuántas veces aparece una palabra en un texto mediante medidas relativas comparativas.

Vamos a los negocios.

Digamos que una palabra aparece en un texto 1,000 veces, pero hay otras 99,000 palabras en el texto, totalizando 100,000 palabras en total. Con su método, tendría una vaguedad de .01.

Ahora, digamos que otra palabra aparece cinco veces, pero es más significativa que otras palabras. Por ejemplo, “neuropatológico” en un estudio científico que relaciona el autismo con el consumo prenatal de alcohol. No quisiéramos que “el” fuera una palabra más relevante que “neuropatológico” supondría.

Elimine estadísticamente los valores atípicos, lo que eliminará la inclusión de palabras innecesarias, ya sean artículos u otras palabras extremadamente comunes que no agregan mucho al tema.

NOTA: De aquí en adelante, todos los valores con un ‘~’ inicial se pueden reinterpretar como otros valores cercanos según el cuerpo del texto, pero son una buena aproximación para fines generales.

Si las palabras están a más de ~ 2.75 desviaciones estándar de la media en la dirección positiva, es probable que sean valores atípicos. Estas palabras se usan con demasiada frecuencia para ser de uso crítico. Si están a ~ 3 desviaciones estándar de la media en la dirección negativa, es mucho menos probable que sean atípicos en términos de utilidad, pero aún pueden ser útiles en términos de. Caso por caso, elimine los que se encuentran entre ~ 3 y ~ 3.2 desviaciones estándar restadas de la media.

Ahora que las palabras sin sentido se han eliminado más o menos del cuerpo del texto, debe usar exactamente la fórmula que ha escrito. Giro épico de la trama, ¿eh?

Cómo resolver [matemática] 2x + 2y + 3z = -1 [/ matemática], [matemática] x-y + z = -3 [/ matemática], [matemática] -4x + 3y-2z = 4 [/ matemática] usando la regla de Cramer

¿Cómo resolverías este problema matemático del sistema de ecuaciones de 3 variables?

¿Cuál es la diferencia entre ecuaciones lineales y cuadráticas?

¿Por qué seccionar un cono con un plano da lugar a una ecuación cuadrática?

¿Cuál es la diferencia entre la ecuación cuadrática y la fórmula cuadrática y para qué las usarías en la vida real?

¿Puedo hacer una doble especialidad al hacer una maestría?

Tengo que estar de acuerdo con el comentario de Bruce Alan Martin a su pregunta. En el mejor de los casos, la medida que está proponiendo describe la “palabrería”, que asume se correlaciona con la “vaguedad”. Eso a veces puede ser cierto, pero la correlación es débil. Supongamos que aplica el algoritmo a las pruebas matemáticas. La notación matemática es compacta, por lo que los símbolos se repiten con frecuencia. La mayoría de las pruebas matemáticas serían consideradas vagas por su algoritmo actual.

Cualquier definición útil de “vaguedad” se reduce a la ambigüedad del significado. No sé si alguien ha encontrado correlatos de significado ambiguo en las propiedades del texto, como el recuento de palabras. Dudo que haya cálculos de propiedades sintácticas por sí solas que predigan de manera confiable la “vaguedad”.

En pocas palabras, no se puede medir la vaguedad sin modelar el significado de alguna manera.

Ryan DeElena

Debe especificar qué quiere decir exactamente con vaguedad de un texto . Mi comprensión de la vaguedad es que es principalmente una propiedad léxica más que textual (por ejemplo, El camino fue largo es una declaración vaga).

Si realmente desea cuantificar la vaguedad de pasajes de texto completos (o incluso unidades de texto más largas), debe informarnos qué forma de representación está utilizando para comenzar la semántica textual. Además, ¿con qué referencia estás midiendo?

Saltando un poco por delante de las cosas, me gustaría agregar que soy bastante escéptico, la vaguedad puede cuantificarse en términos absolutos. Feliz, por supuesto, ser persuadido de lo contrario.

Ryan DeElena

Esto me recuerda a tf – idf. Eche un vistazo a eso para posibles enfoques para puntuar especificidad / vaguedad.

Puedes entrenar a una modelo en un corpus de texto primero. Calcule tf-idf en un gran cuerpo de texto. Luego califique la vaguedad de cada palabra en su texto de destino de acuerdo con los valores calculados previamente. Puedes calificar palabras que nunca has visto durante el entrenamiento como altamente específicas.

Eduard – Gabriel Munteanu

More Interesting

Tengo algunas dificultades para interpretar este problema de palabras del sistema de ecuaciones. ¿Qué enfoque debo tomar?

¿Hay alguna ecuación que pueda representar la gráfica de un polígono?

¿Cómo resolvería esta ecuación funcional: [matemáticas] \ dfrac {f \ left (x \ right)} {f \ left (x-1 \ right)} = 2x [/ math]

¿Están relacionadas las ecuaciones diferenciales y la geometría diferencial?

¿Cuál es la solución real para [matemáticas] 0 = x ^ {x + 1} – (x + 1) ^ x [/ matemáticas]?

¿Cuál sería la respuesta a (con resultados): 4 (y – 3) = 12?

¿A qué se aplican las ecuaciones polares en la vida real?

¿Es la suma de Ramanujan realmente un fraude de una mente genio?

¿Las constantes (usadas en ecuaciones) tienen algún significado físico?

¿Cómo afectará el misil interceptor de la India a la ecuación de defensa en la región?