Dentro de la ciencia de los datos y el aprendizaje automático existen análisis incorrectos.
Se crean fallos en la planificación, en el código y en la comunicación. La ejecución para resolverlos puede durar varios días. Aunque un error en la planificación puede tardar semanas o meses en solucionarse. Aquí te traemos 5 consejos para que esto no ocurra en la ciencia de los datos:
1.Establecer el objetivo (función) correcto.
«Una respuesta aproximada a la pregunta correcta es mejor que una respuesta exacta a la pregunta incorrecta». Las soluciones de aprendizaje automático funcionan optimizando hacia una función objetivo. Una fórmula matemática que describe algún valor. Uno de los ejemplos más básicos es una función de beneficio:
Beneficio = Ingresos – Costes.
Si bien los algoritmos de aprendizaje automático dentro de la ciencia de los datos se destacan por encontrar la solución óptima. No pueden manifestarse si se está maximizando de manera correcta en el momento adecuado. Hay que asegurarse periódicamente de que la función objetivo refleje sus prioridades y valores actuales. Por ejemplo, una empresa en la etapa inicial puede no estar tan preocupada por la rentabilidad. En su lugar, es posible que deseen maximizar los ingresos para intentar aumentar la participación en el mercado. Una empresa que está buscando una OPI puede querer demostrar rentabilidad. Por lo que puede centrarse en minimizar los costes, mientras mantiene el mismo nivel de participación de mercado. Solo capturar la métrica (ingresos) actualmente es importante que esté en puntos específicos en el tiempo (trimestralmente). Obstaculizará su capacidad para predecir nuevas funciones de costos (rentabilidad) en diferentes momentos. En ese sentido, los científicos de datos también pueden caer en la trampa de optimizar las métricas del modelo y no las métricas comerciales.
2. Ponerse en la misma página
Para las partes interesadas de una empresa, hay una gran diferencia «Observamos un aumento de 100 puntos en la precisión en el conjunto de prueba de 100.000 ejemplos» y «Si tuviéramos estas mejoras implementadas, habríamos ahorrado 20.000€ en el último trimestre comercial». Los «100.000 ejemplos» y el «aumento de 100 puntos» son difíciles de visualizar. Mientras que 20.000€ y el «último trimestre comercial» tienden a ser mucho más fáciles de entender para las partes interesadas del negocio. Hay que homogeneizar las unidades de análisis para que el equipo y los líderes empresariales pasen menos tiempo traduciendo y más tiempo ideando.
Los momentos críticos también pueden diferir según las partes interesadas de la empresa. Un profesional de ventas o éxito del cliente puede necesitar medidas semanales, mensuales o basadas en eventos. Es decir, primer evento de suscripción, evento de renovación, eventos de solicitud de soporte. Mientras que un líder en ingresos puede necesitar modelos por segmento comercial, representante de ventas o línea de productos de forma trimestral o anual. Hay que recopilar datos a nivel de evento para respaldar estos diversos tiempos de cómputo a medida que surgen.
3. Dejar espacio para el descubrimiento
La ciencia de los datos es un esfuerzo intrínsecamente creativo. A menudo los avances en los modelos provienen de lugares inesperados. Los mayores avances provienen de explorar nuevas vías y nuevas oportunidades. Una de las maravillas de la ciencia de los datos es que puedes tomar ideas y métodos de una amplia gama de disciplinas científicas. Los algoritmos desarrollados para la genética se utilizan para analizar la literatura, los métodos para analizar la literatura se pueden adaptar para hacer parejas románticas en una aplicación de citas o proporcionar recomendaciones para unas vacaciones.
Los avances en las soluciones a menudo provienen de mirar el mismo problema desde un ángulo o marco de referencia diferente. Por ejemplo, algunos de los primeros modelos no tenían en cuenta la información demográfica. Desde hace mucho tiempo, los científicos de datos han entendido que incluir datos demográficos puede ayudar a que los anuncios lleguen a la persona adecuada o medir sesgos no intencionales. Después, cuando se introdujo el marco de la psicología, los científicos de datos comenzaron a analizar el problema desde un ángulo psicográfico. ¿Pueden la demografía y el interés demostrado mejorar los resultados?. Por ejemplo, agregar datos sobre lo que alguien compartió en las redes sociales podría proporcionar un enlace a lo que probablemente comprará. Recientemente, los datos de comportamiento basados en eventos, casi en tiempo real. Han entrado en el espacio aportando nueva información y tiempo a la imagen.
4. Hablar con el consumidor
Los líderes empresariales tienden a ver las cosas desde 50.000 pies, mientras que sus modelos a menudo se implementan a nivel del suelo con los representantes de ventas. Las condiciones en el terreno nunca coinciden completamente con lo que se ve desde arriba. Por lo tanto, si solo toma decisiones por lo que puede ver en ese nivel superior, se perderá información vital. Podemos pasar meses construyendo modelos para líderes empresariales. Solo para descubrir que el sistema que construimos para hacer la vida más fácil, hizo las cosas más difíciles para el representante de ventas. Hablar con los usuarios asegurará que los modelos resolverán necesidades.
5. Las soluciones óptimas tienden a ser subóptimas
Las soluciones altamente optimizadas cuestan más de implementar, más de mantener y tienden a ser menos flexibles. Hay que crear soluciones más sencillas siempre que sea posible. El hecho de que algo sea teóricamente mejor no significa que sea prácticamente mejor.