¿Cuál es la forma correcta de obtener el punto de coordenadas de mejor ajuste entre las coordenadas cartesianas dispersas en un plano 2D?

Se vincula a una pregunta de desbordamiento de pila que pregunta si SVM podría ayudar. No preguntaste esto, pero déjame abordar esto en breve de todos modos. Aquí hay un video que explica SVM:

Puede ver que este algoritmo está buscando una línea que separe dos montones dentro de los puntos recopilados, por lo que sería útil juzgar si los puntos dispersos que tiene se pueden dividir en dos grupos. No es útil, pero cuando la única línea encontrada tiene un espacio muy bajo, eso indica que tiene un grupo bien confinado de puntos dispersos que realmente no tienen montones separados.

Además, la pregunta original pregunta cómo manejar la situación, algunos puntos extraviados están colocando el punto medio en algún lugar fuera del montón principal. Esto está relacionado, ya que ese punto perdido seguramente sería su propio montón.

Quora User sugiere que tome medianas en lugar de medios. De esa manera, tomaría un punto real o tal vez la coordenada mediana xy mediana y, que podría provenir del mismo o de dos puntos separados. Pero estará dentro de la nube de puntos dispersos.

Finalmente, no existe una única forma adecuada de ajuste, y los problemas de ajuste típicos son ajustar una curva en lugar de un solo punto, y también poner una fórmula conocida para el gráfico que solo falta algún parámetro configurativo como alguna pendiente general u otra variable. El ajuste de puntos individuales dependerá mucho de la naturaleza de la coordenada esperada. Si hay alguna fórmula adjunta a eso, esto podría tenerse en cuenta. Puede comparar sus mediciones dispersas con una dispersión generada de puntos alrededor de un valor esperado generado con una distribución de error supuesta y cálculos de propagación de error.

El uso de medios es una forma muy simple de encontrar el punto con la menor suma de distancia a todos los demás puntos, pero dará un alto peso a los puntos perdidos. Debe emitir un juicio sobre los puntos extraviados, ya sean estadísticamente relevantes o señalar errores sistemáticos de medición o experimentación, como un terremoto en el momento en que se lanza un dardo, por lo que decide si excluir ese punto o no. En la solución mediana tiene un impacto, si está muy a la izquierda, por ejemplo, la mediana x cambia a la siguiente coordenada x izquierda en lugar de la coordenada que elegiría sin este punto perdido. Pero ese impacto es mucho menor que tomarlo para calcular la media.

En general, está eligiendo un punto que minimiza algunos criterios de error.

Un criterio de error común es la suma de los cuadrados de los errores, como lo sugiere Dean Rubine.

Esto se llama una “norma L2” en el negocio de aproximación. Otras medidas de error comúnmente utilizadas son “L1” o la suma de los valores absolutos de los errores, y “Linfinity” o el valor absoluto del peor error.

Una vez que decida cuál es su criterio de error, puede pensar en un algoritmo para minimizarlo.

Por lo general, las personas usan mínimos cuadrados para ajustar una línea. Veamos si podemos usarlo para ajustar un punto.

Definamos nuestro error como la suma de las distancias al cuadrado hasta el punto que buscamos [matemáticas] (a, b) [/ matemáticas].

[matemáticas] \ displaystyle E = \ sum_ {i = 1} ^ N ((x_i -a) ^ 2 + (y_i – b) ^ 2) [/ matemáticas]

Para los extremos, [matemática] \ dfrac {\ partial E} {\ partial a} = \ dfrac {\ partial E} {\ partial b} = 0 [/ math]

[matemáticas] \ displaystyle 0 = \ dfrac {\ partial E} {\ partial a} = \ sum_ {i = 1} ^ N 2 (x_i – a) (- 1) [/ math]

[matemáticas] \ displaystyle a = \ dfrac {1} {N} \ sum_ {i = 1} ^ N x_i [/ ​​matemáticas]

Del mismo modo obtenemos

[matemáticas] \ displaystyle b = \ dfrac {1} {N} \ sum_ {i = 1} ^ N y_i [/ ​​matemáticas]

Entonces obtenemos la conclusión bastante obvia de que para minimizar el error al cuadrado elegimos el punto con la coordenada promedio [matemática] x [/ matemática] y la coordenada promedio [matemática] y [/ matemática].

Un procedimiento más sólido sería sustituir las medianas por los medios.