Lo que podría usar es, como otros han mencionado pero no se ha declarado explícitamente, es un algoritmo de Machine Learning.
El aprendizaje automático es un concepto enorme que puede hacer exactamente lo que está buscando, o exactamente lo contrario. Una cosa que podría hacer es, usando una medida de “vaguedad” en su sentido, aproximar cuántas veces aparece una palabra en un texto mediante medidas relativas comparativas.
Vamos a los negocios.
Digamos que una palabra aparece en un texto 1,000 veces, pero hay otras 99,000 palabras en el texto, totalizando 100,000 palabras en total. Con su método, tendría una vaguedad de .01.
- ¿Cuál es la diferencia entre la ecuación cuadrática y la fórmula cuadrática y para qué las usarías en la vida real?
- ¿Qué podemos hacer para eliminar totalmente las fuentes de energía no renovables de la ecuación?
- La ley de Coulomb se asemeja a la ley de gravitación del cuadrado inverso, entonces, ¿por qué hay mucha diferencia en los valores de sus constantes respectivas?
- Cómo resolver para [matemáticas] y [/ matemáticas] en la siguiente ecuación
- ¿Por qué esta ecuación físicamente correcta no es dimensionalmente correcta? Mencionado en detalles
Ahora, digamos que otra palabra aparece cinco veces, pero es más significativa que otras palabras. Por ejemplo, “neuropatológico” en un estudio científico que relaciona el autismo con el consumo prenatal de alcohol. No quisiéramos que “el” fuera una palabra más relevante que “neuropatológico” supondría.
Elimine estadísticamente los valores atípicos, lo que eliminará la inclusión de palabras innecesarias, ya sean artículos u otras palabras extremadamente comunes que no agregan mucho al tema.
NOTA: De aquí en adelante, todos los valores con un ‘~’ inicial se pueden reinterpretar como otros valores cercanos según el cuerpo del texto, pero son una buena aproximación para fines generales.
Si las palabras están a más de ~ 2.75 desviaciones estándar de la media en la dirección positiva, es probable que sean valores atípicos. Estas palabras se usan con demasiada frecuencia para ser de uso crítico. Si están a ~ 3 desviaciones estándar de la media en la dirección negativa, es mucho menos probable que sean atípicos en términos de utilidad, pero aún pueden ser útiles en términos de. Caso por caso, elimine los que se encuentran entre ~ 3 y ~ 3.2 desviaciones estándar restadas de la media.
Ahora que las palabras sin sentido se han eliminado más o menos del cuerpo del texto, debe usar exactamente la fórmula que ha escrito. Giro épico de la trama, ¿eh?