Cómo sondear un feed web de manera eficiente

Esto suena como un problema realmente interesante en realidad. Obviamente, puede sondear cada 5 minutos o algo así, y para casi cualquier aplicación realista, esto funcionará perfectamente bien.

Pero elegir realmente cuándo es el mejor momento para votar, utilizando solo información sobre la cantidad de artículos nuevos, es un problema de control en línea.

Mi primera idea es hacer esto como un bandido multi armado, donde los brazos son intervalos de tiempo hasta el próximo instante de votación, y luego tendrías que encontrar una función apropiada para la recompensa. Sin embargo, debes tener cuidado con la formulación. Dices que quieres ver al menos un artículo más. Esto debería ser exactamente uno más, o al menos uno más con alguna penalización por la cantidad de tiempo que espera. De lo contrario, esperar una cantidad infinita de tiempo será una solución.

Deje que los brazos sean un conjunto de intervalos de sondeo P1 <P2 <… <Pn. Obtiene una recompensa e * k * exp (-k) cada vez que realiza una encuesta, donde k es el número de artículos nuevos en ese feed. Aplique un algoritmo de bandido y tendrá algo con lo que comenzar.

Otra posibilidad es observar una gran cantidad de publicaciones históricas y usarlas para ajustar un modelo de proceso de Poisson (con quizás una tasa variable en el tiempo), luego usar eso para cronometrar el sondeo.

Related Content

¿Puedo decir que [matemáticas] 4 ^ {2n} = O (4 ^ {2n}) [/ matemáticas]?

¿Puedes descifrar el código ’34llo2yna24is4ll7a7ndilov46uor7′?

¿Cuál será la complejidad de T (n) = 2T (n-1) – 1 usando el método de sustitución?

Cómo encontrar el número máximo de divisores de un número menor que N

¿Cuál es la factorización prima de 2500?

Cómo validar los resultados de CFD en ANSYS Fluido

Dado un conjunto, A, de n elementos, ¿de cuántas maneras se pueden elegir x elementos del conjunto A, siempre que pueda elegir el mismo elemento muchas veces?

Es una hermosa … sopa.
La hermosa pareja de Python es buena en esto. Simplemente sondee todo el tiempo y use diferenciales contra los más recientes para encontrar otros nuevos. Puede sellarlos con épocas usted mismo. Preferiría R [package tm] para el procesamiento de texto, pero si desea duplicar el dolor, las expresiones regulares y perl están ahí para usted.

Pyper sería mi preferencia por eso.

Gran pregunta!

Ken Hutchison

Webhose.io le brinda acceso a una fuente de datos web gratuita a través de noticias, blogs y sitios de discusión. Puede sondear la API para la fecha de publicación con la frecuencia que desee y crear un feed que se actualizará automáticamente cuando se agregue nuevo contenido.

Ohad Flinker

More Interesting

¿Cómo puede BDS resolver el problema de Israel y Palestina?

¿Cómo podemos resolver la sexta pregunta en esto?

¿Existe un algoritmo para calcular todas las posibles poliominós libres para un número n?

El promedio de los números [matemática] m [/ matemática] es [matemática] n ^ 4. [/ matemática] El promedio de los números [matemática] n [/ matemática] es [matemática] m ^ 4 [/ matemática]. ¿Cuál será el promedio de los números [matemática] (m + n) [/ matemática]?

¿Qué es fibonacci?

¿Cómo podría escribir un programa de computadora para enumerar todos los gráficos simples conectados en un número dado de vértices?

Cómo resolver un problema sobre el multiplicador de Lagrange

¿[Math] \ Theta (n ^ 2) [/ math] incluye [math] O (n ^ 3) [/ math]?

¿Hay un número que consta de 10 factores?

¿Existe alguna conexión entre la fórmula para el número de apretones de manos intercambiados entre n personas y la fórmula para una suma aritmética?

Web Analytics Made Easy -
StatCounter