More

    Lumos de Microsoft monitorizará automáticamente las métricas de apps web

    Lumos de Microsoft monitorizará automáticamente las métricas de apps web. Microsoft abrió recientemente Lumos. Se trata de una biblioteca de Python para detectar y diagnosticar automáticamente regresiones métricas en las aplicaciones de «escala web».

    Lumos de Microsoft monitorizará automáticamente las métricas de apps web

    En un documento técnico, los investigadores de la compañía afirman que Lumos se ha implementado en millones de sesiones en equipos de desarrolladores de Skype y Teams. Esto permite a los ingenieros detectar cientos de cambios en las métricas y rechazar miles de falsas alarmas surgidas por los detectores de anomalías.

    El estado de los servicios en línea generalmente se monitorizan mediante el seguimiento de las métricas del indicador clave de rendimiento (KPI). Esto se hace a lo largo de un espacio de tiempo determinado. Las regresiones en estos requieren un seguimiento ya que podrían indicar problemas importantes. Esto resultaría en costes y la potencial pérdida de usuarios. Pero se requiere mucho tiempo para rastrear la causa raíz de cada regresión de KPI. Esto es así porque una sola anomalía puede llevar días o semanas para investigar.

    ¿Qué es Lumos?

    Lumos es una metodología novedosa que abarca detectores de anomalías específicos de dominio existentes. Sin embargo, reduce la tasa de alerta de falsos positivos en más del 90%. Elimina el proceso de establecer si un cambio se debe a un cambio en la población o a una actualización del producto al proporcionar una lista priorizada de las variables más importantes para explicar los cambios en el valor de la métrica. La biblioteca también tiene el propósito más amplio de comprender la diferencia en una métrica entre dos corpus, incluso el sesgo. Esto lo hace al comparar un conjunto de datos de control y tratamiento sin dejar de ser independiente del componente de la serie temporal.

    «Lumos proporciona a los propietarios de productos la información clave sobre los cambios demográficos de su aplicación. También identifica oportunidades para que los propietarios de servicios mejoren su sistema de ingeniería». Esto lo escribían los coautores del artículo. «Lumos permite a los ingenieros dedicar menos tiempo a diagnosticar regresiones métricas… y más tiempo a crear funciones interesantes.»

    ¿Cómo funciona?

    Lumos aprovecha los principios de las pruebas A / B para comparar pares de conjuntos de datos. Cada conjunto de datos es un conjunto de datos tabulares donde las filas corresponden a muestras y los valores de las columnas incluyen métricas de interés como variables que representan el KPI. Describen la población y además proporcionan hipótesis para el diagnóstico de regresiones métricas. Un archivo de configuración adjunto especifica los hiperparámetros (variables) para ejecutar un flujo de trabajo y detalla qué columnas de los conjuntos de datos corresponden a las columnas de métrica, invariantes y de hipótesis.

    Lumos de Microsoft monitorizará automáticamente las métricas de apps web

    Lumos comienza verificando si la regresión en la métrica entre conjuntos de datos es estadísticamente significativa. Luego sigue con una verificación de sesgo de población y una normalización del sesgo para tener en cuenta cualquier cambio de población entre los dos conjuntos de datos. Si no hay una regresión estadísticamente significativa en la métrica después de que los datos se hayan normalizado, la regresión se puede explicar por el cambio en la población. Pero si el delta es estadísticamente significativo, las características se clasifican según su contribución al delta en la métrica objetivo.

    ¿Para qué sirve?

    Los investigadores de Microsoft dicen que Lumos sirve como la herramienta principal para el monitoreo de escenarios de cientos de métricas relacionadas con la confiabilidad de los servicios de llamadas, reuniones y redes telefónicas públicas conmutadas en Microsoft. Se ejecuta en Azure Databricks, el servicio de análisis de big data basado en Apache Spark de la empresa con varios trabajos configurados según la prioridad, complejidad y tipo de métrica. Los trabajos además se completan de forma asíncrona de modo que cada vez que se detecta una anomalía, se activa el flujo de trabajo de Lumos, generando una alerta de incidente si la biblioteca detecta que, efectivamente, hay un problema.

    Los investigadores de Microsoft advierten que no se garantiza que Lumos capte todas las regresiones en los servicios. También no garantizan que pueda proporcionar información sin una cantidad suficientemente grande de datos. En un esfuerzo por abordar esto, planean enfocarse en expandir el soporte para métricas continuas. Después, realizar la clasificación de características utilizando características multivariadas e introducir agrupaciones de características para abordar el problema de la multicolinealidad en la clasificación de características.

    Últimos artículos

    Artículos relacionados

    p