En el caso de la recuperación de información, la similitud del coseno de dos documentos variará de 0 a 1, ya que el término frecuencias (pesos tf-idf) no puede ser negativo. El ángulo entre dos vectores de frecuencia de término no puede ser mayor de 90 °.
Esta métrica de similitud de coseno puede extenderse de modo que produzca el coeficiente Jaccard en el caso de atributos binarios. Este es el coeficiente de Tanimoto , T ( A , B ), representado como
El índice Jaccard , también conocido como el coeficiente de similitud de Jaccard (originalmente coeficiente de comunicación acuñado por Paul Jaccard), es una estadística utilizada para comparar la similitud y diversidad de los conjuntos de muestras.
El coeficiente Jaccard mide la similitud entre los conjuntos de muestras y se define como el tamaño de la intersección dividido por el tamaño de la unión de los conjuntos de muestras:
El esquema de hash sensible a la localidad de permutaciones independientes mínimas de MinHash se puede utilizar para calcular de manera eficiente una estimación precisa de la
Coeficiente de similitud de Jaccard de pares de conjuntos, donde cada conjunto es
representado por una firma de tamaño constante derivada del mínimo
valores de una función hash.
La distancia Jaccard , que mide la similitud
entre conjuntos de muestras, es complementario al coeficiente de Jaccard y es
obtenido restando el coeficiente Jaccard de 1, o,
de manera equivalente, dividiendo la diferencia de los tamaños de la unión y
La intersección de dos conjuntos por el tamaño de la unión:
http://en.wikipedia.org/wiki/Cos…
¿Cómo calcularía la similitud de coseno usando vectores de esta estructura?
Related Content
¿Cuáles son algunas técnicas efectivas de factorización matricial y sus casos de uso?
Álgebra lineal: ¿cómo puedo encontrar una ecuación de verificación de paridad?
¿Cómo instalo la biblioteca Ruby linalg en Mac?
¿Cómo puedo abordar la selección de vectores efectivos usando la descomposición del valor singular?
No tengo idea de qué es esto. Para calcular el coseno necesita poder representar su estructura de datos como un vector en un espacio vectorial (o simplemente un espacio con un producto de puntos). ¿Cuál es su estructura de datos? si se configura, sí, solo usa Jaccard Similarity. Simplemente cambie el conjunto de una matriz de hash a un solo hash, como
v1 = {‘a1’: 4, ‘b1’: 9, ‘c1’: 12 … ‘a2’, 3, ‘g2’: 3, ‘b2’: 33 …}
¿V1 es solo n vectores tensoriales?
v1 = {‘a1’: 4, ‘b1’: 9, ‘c1’: 12}) (X) {‘a2’, 3, ‘g2’: 3, ‘b2’: 33 …} (X) …
Luego solo alinee los vectores (como un hash de nuevo)
y calcular el coseno como normal
¿También puede calcular algo así como una matriz de distancia cruzada KL generalizada?
More Interesting
¿Qué artículos han sido los más interesantes en la factorización matricial en 2011?
Álgebra abstracta: ¿Cómo se transforma una matriz en su forma escalonada?
¿Por qué una matriz tiene que ser cuadrada para obtener una matriz inversa?
¿Se utilizan Jordan Normal Form y Dual Spaces en las estadísticas?
¿Qué tipo de matemática se necesita saber para comprender mejor la neurociencia?
¿Cómo se usan exactamente los vectores en inteligencia artificial?
¿Cuáles son las aplicaciones más sorprendentes del álgebra lineal?