Por lo general, un vector de texto abarca el tamaño de su vocabulario. Consideremos que tenemos dos documentos en el corpus:
D1: El gato se sentó en la colchoneta.
D2: El perro odia al gato.
Después de un filtrado preliminar, detenga la eliminación de palabras y la derivación, obtendrá.
D1: estera de gato
D2: perro odio gato
Echemos un vistazo al vocabulario total ahora: –
gato, perro, odio, estera, se sentó
Tienes 5 palabras. Los clasifiqué en orden lexicográfico. Esto es lo que quise decir con la primera línea de esta respuesta. El tamaño de tu vocabulario es 5. Entonces el vector tendrá 5 dimensiones …
————————————————-
El | – gato – | – perro – | – odio – | – esterilla – | – sat – |
————————————————-
Encajemos nuestros documentos en la transformación: –
D1: [1, 0, 0, 1, 1]
D2: [1, 1, 1, 0, 0]
Este es el modelo de bolsa de palabras. Completamos cada espacio del vector en función de si la palabra correspondiente en el vocabulario existe o no. Puede convertirlo fácilmente en Tf-Idf. Puede sondear bigrams o trigrams para usar las funciones de n-gram.
- ¿Por qué todos los vectores en un espacio nulo son linealmente independientes?
- ¿Cuál es el significado físico de esta afirmación: ‘el rizo de un campo vectorial conservador es cero’?
- ¿Qué es un vector Eigen? ¿Qué relación tiene con los vectores de base?
- ¿Cuál es el significado intuitivo de una matriz de covarianza?
- ¿Por qué el potencial magnético es un vector?
En Scikit-Learn, simplemente puede usar módulos de extracción de características y crear vectores de características en un par de líneas de código.
http://scikit-learn.org/stable/m…