¿Cómo debo hacer para crear un vector de características a partir de datos de texto?

Por lo general, un vector de texto abarca el tamaño de su vocabulario. Consideremos que tenemos dos documentos en el corpus:
D1: El gato se sentó en la colchoneta.
D2: El perro odia al gato.

Después de un filtrado preliminar, detenga la eliminación de palabras y la derivación, obtendrá.
D1: estera de gato
D2: perro odio gato

Echemos un vistazo al vocabulario total ahora: –
gato, perro, odio, estera, se sentó
Tienes 5 palabras. Los clasifiqué en orden lexicográfico. Esto es lo que quise decir con la primera línea de esta respuesta. El tamaño de tu vocabulario es 5. Entonces el vector tendrá 5 dimensiones …
————————————————-
El | – gato – | – perro – | – odio – | – esterilla – | – sat – |
————————————————-

Encajemos nuestros documentos en la transformación: –
D1: [1, 0, 0, 1, 1]
D2: [1, 1, 1, 0, 0]
Este es el modelo de bolsa de palabras. Completamos cada espacio del vector en función de si la palabra correspondiente en el vocabulario existe o no. Puede convertirlo fácilmente en Tf-Idf. Puede sondear bigrams o trigrams para usar las funciones de n-gram.

En Scikit-Learn, simplemente puede usar módulos de extracción de características y crear vectores de características en un par de líneas de código.
http://scikit-learn.org/stable/m…

Basado en el supuesto de que su sitio es un foro de control de calidad, puede usar la técnica Tf-idf para una implementación básica y luego improvisar sobre ella. Por ej. Si la pregunta es positiva, como cuál es la mejor manera de hacer algo, entonces puede aumentar relativamente el peso en términos positivos. Este es solo un ejemplo, puede usar varios algoritmos de clasificación para obtener la respuesta más relevante.