1. ¿Qué es Data Discovery (descubrimiento de datos)?
Los usuarios de negocio hoy en día se enfrentan a la necesidad de bucear entre enormes cantidades de datos, teniendo que esperar, días, semanas o incluso meses para que, desde el Departamento de TI, les lleguen los informes que precisan. En plena era de Big Data, cuando la velocidad ha pasado a ser un atributo crítico en cualquier asunto relacionado con los datos, las preguntas no pueden quedar sin respuesta.
Deben obtenerla con la mayor agilidad posible, de otra forma, puede ser demasiado tarde. Para resolver este tipo de situaciones tan frecuentes, ha llegado el Data Discovery, un término joven, acuñado hace muy pocos años y que hace referencia a la solución a este problema generalizado. El descubrimiento de datos se ocupa de la forma en que las empresas hoy día visualizan y acceden a sus datos, así lo confirma Luisa Mª Pérez, Marketing Manager de Analytics en Logicalis Spain.
Data Discovery es sinónimo de auto-servicio analítico en clave de software, y sus principales características son:
- Permite a un usuario de negocio profundizar rápidamente en grandes cantidades de datos sin relación para consultar la información de su interés.
- Se basa en el lanzamiento de preguntas ad-hoc, funcionando de forma muy parecida a la manera en la que trabajan los motores de búsqueda de Internet (como Google).
- Cada plataforma de software otorga un enfoque diferente al descubrimiento de datos, centrándose a veces en la creatividad que impulsa, otras en la visualización de datos y también en su capacidad para impulsar la precisión de la toma de decisiones.
En cualquier caso, no se puede hablar de Data Discovery sin tener en cuenta tres atributos esenciales de cualquier herramienta de descubrimiento de datos:
- La capacidad para integrar múltiples fuentes de datos.
- El potencial para hacer un análisis de la información de forma fácil y rápida.
- Las posibilidades intrínsecas de visualización interactiva.
«Las herramientas visuales de descubrimiento de datos crecerán 2,5 veces más rápido que el resto de las del mercado de Business Intelligence (BI). En 2018, la inversión en este tipo de soluciones de autoservicio del usuario final se convertirá en un requisito para todas las empresas». IDC FutureScape: Worldwide Big Data & Analytics 2015 Predictions
2. Cómo Data Discovery está transformando la inteligencia de negocio
Muchas veces, el descubrimiento de datos se engloba en la misma categoría que Big Data, ya que abarca las tres «Vs» típicamente usadas para describir este fenómeno: volumen, velocidad y variedad. Data Discovery hace realidad el deseo del usuario de trabajar con conjuntos de datos muy grandes y obtener respuestas rápidamente. Concretamente:
- Los usuarios pueden explorar datos, tanto estructurados como no estructurados, amplificando su alcance y optimizando la calidad de sus trabajos, informes, análisis y toma de decisiones.
- No existen los límites en cuanto a la variedad de fuentes.
- Su máxima es el autoservicio, que se potencia cuando se cuenta con la herramienta adecuada, que es la que, además de ser fácil de usar, dispone de funcionalidades gráficas atractivas, que permiten conseguir resultados muy rápidamente.
- No es preciso ya recurrir a TI. Históricamente este departamento siempre tenía potestad y veto a la hora de que la empresa adquiriese una nueva plataforma informática, pero eso ha cambiado. El peso de negocio ha aumentado mucho a la hora de tomar decisiones sobre la compra de una solución de software, hasta el punto de que, dependiendo de las empresas, muchas veces son autónomos y no necesitan la aprobación de TI.
En resumen, la inteligencia de negocio adquiere una nueva dimensión ya que, aunque las herramientas de descubrimiento de datos han existido por un tiempo, su nuevo enfoque más flexible y orientado al análisis de datos logra que el BI sea más accesible a las masas. Mucho más si se tienen en cuenta las posibilidades de personalización que:
- Permiten emplear enfoques menos convencionales para el almacenamiento de datos.
- Buscan agilizar los procesos de ETL.
- Consiguen, en muchos casos, incluso relajar los requisitos de integración de datos. El resultado es que el descubrimiento de datos ha dejado de ser coto privado de personal especializado o expertos en informática para pasar a ser materia compartida por cualquier usuario de negocio. Una realidad que conlleva muchas ventajas… pero también algunos inconvenientes que conviene conocer.
«El equilibrio entre agilidad y completitud en el análisis de negocio está desapareciendo al tiempo que las nuevas tecnologías traen la velocidad del descubrimiento de datos a un conjunto completo de herramientas de BI que los usuarios empresariales de a pie pueden aprovechar fácilmente en su vida cotidiana» Southard Jones, The battle of Business Intelligence: Data Discovery vs Traditional BI.
3. Los pros y contras de Data Discovery
El descubrimiento de datos se ha incorporado con entusiasmo en muchos negocios, como parte de su rutina. Es lógico si se tiene en cuenta que el Data Discovery cuenta con muchos pros:
- Flexibilidad: a la hora de crear informes y cuadros de mando.
- Rapidez: al explorar los datos y obtener conclusiones. Auto-servicio: responsable de que el usuario de negocio pueda utilizar estas herramientas y obtener sus propias conclusiones sin apenas formación ni cualificación y con una curva de aprendizaje muy ligera.
- Independencia de TI: el usuario no necesita pasar por TI para hacer su trabajo, como sucedía antaño. «El equilibrio entre agilidad y completitud en el análisis de negocio está desapareciendo al tiempo que las nuevas tecnologías traen la velocidad del descubrimiento de datos a un conjunto completo de herramientas de BI que los usuarios empresariales de a pie pueden aprovechar fácilmente en su vida cotidiana» Southard Jones, The battle of Business Intelligence: Data Discovery vs Traditional BI. Los pros y contras de Data Discovery 7
- User friendly: las herramientas presentan una interfaz fácil de utilizar y, generalmente, bastante intuitiva, con multitud de gráficos disponibles y que puede usarse sin necesidad de programar nada.
Pese a sus beneficios, esta nueva forma de trabajar no ha alcanzado aún la excelencia y continúa evolucionando. Se quiere llegar a más y en ese camino se hallan los proveedores, tratando de crear herramientas más innovadoras y soluciones que respondan mejor a las diversas formas en que el descubrimiento de datos se puede utilizar.
Así, los proveedores de herramientas no dejan de lanzar propuestas que atraen a organizaciones de sectores muy diferentes, que buscan experimentar los beneficios potenciales del descubrimiento de datos. Sin embargo, una vez implementadas, comienzan las quejas a la vez que los inconvenientes del Data Discovery se hacen patentes. Entre las decepciones más comunes se encuentran las relacionadas con:
- Requieren de mucho tiempo de configuración.
- Se encuentran bastante limitadas en sus aplicaciones.
- Resultan más difíciles de usar de lo esperado.
A estos contras habría que sumarle el más frustrante de todos, que es el que se produce cuando los usuarios de negocio se dan cuenta de que el descubrimiento de datos consiste en algo muy distinto a lo que podían imaginarse. De hecho, este inconveniente es más habitual de lo que pudiera parecer ya que, en realidad, Data Discovery significa distintas cosas para diferentes personas.
Partiendo de su definición genérica que pone de manifiesto su objetivo de averiguar lo que sus datos pueden decir, el término comienza a despuntar, ampliándose en direcciones varias. Cada usuario deberá buscar el aprovechamiento de oportunidades derivadas del descubrimiento de datos en función de un contexto específico y basándose en los casos de uso que les preocupan.
Así, Data Discovery hace posible:
- Encontrar metadatos clave sobre los activos de datos centrales.
- Alcanzar una visión más completa sobre la procedencia de los datos.
- Mejorar la calidad de datos y su coherencia.
- Identificar tendencias.
- Apoyar a la inteligencia de negocio.
- Liberar a TI de carga de trabajo para permitirle redirigir sus esfuerzos y centrarse en el modelado de datos y la gobernanza.
La búsqueda de datos es necesaria y relevante para profesionales de todas las áreas. Todos estos usuarios quieren llevarla a cabo en condiciones de agilidad y eficiencia óptimas, para mejorar sus resultados. En esta carrera, la necesidad de 8 mejores herramientas y métodos más precisos se ha vuelto más urgente por varias razones que, según Jaime Fitzgerald, son las siguientes:
- Big Data. En proyectos de Big Data el descubrimiento de datos es a la vez más importante y más difícil. No sólo por el volumen de datos que deben ser procesados de manera eficiente para el descubrimiento, sino por la diversidad de fuentes y formatos, y la velocidad, que presentan muchos desafíos que hacen que muchos métodos tradicionales de descubrimiento de datos sean el «estrangulador» del proceso.
- Análisis en tiempo real. El cambio continuo hacia casi el análisis en tiempo real ha creado una nueva clase de los usos de los casos para el descubrimiento de datos. Estos casos de uso son valiosos pero requieren herramientas de descubrimiento de datos que son más rápidas, más automatizadas y más adaptables.
- Análisis ágiles e inteligencia de negocios ágil. Los científicos de datos y equipos de inteligencia de negocios están adoptando métodos más ágiles, e iterativos para convertir los datos en valor de negocio. Llevan a cabo procesos de descubrimiento de datos con más frecuencia y de más diversas maneras; por ejemplo, al perfilar nuevos conjuntos de datos para la integración, la búsqueda de respuestas a nuevas preguntas emergentes o la búsqueda de alertas sobre las nuevas tendencias que pueden justificar nuevos flujos de trabajo de análisis.
Sin embargo, los inconvenientes nublan esta sucesión de bondades del descubrimiento de datos. Data Discovery también tiene un lado menos brillante, una dosis de realidad que tiene que ver con:
- La falta de unicidad del dato: al posibilitar que cada usuario importe sus propios ficheros Excel o de otro tipo a la herramienta, sin pasar por TI y sin un proceso de verificación del dato per se, se puede dar lugar a multitud de errores de falta de calidad o fiabilidad.
- El riesgo de fomentar la creación de silos departamentales: cada departamento crea su propio depósito de información, y cuando se ponen en común, es posible que los datos no coincidan.
- La fragilidad que implica el que no haya gobierno de la información: no hay proceso de validación del dato, por lo que no hay seguridad de que la información mostrada sea correcta.
De hecho, las plataformas más importantes dedicadas en exclusiva al Data Discovery, por su naturaleza, son herramientas pensadas a nivel departamental, no a nivel empresarial. Esta concepción hace que cada área pueda tener sus propios conjuntos de datos (ficheros Excel, Access, etc.) cuya información puede coincidir o no con la de otros departamentos.
Es el origen del caos y debe ser evitado a toda costa ya que, para cualquier proyecto la calidad del dato es fundamental y juega un papel crucial en sus resultados. Para alcanzar el éxito en cualquier iniciativa empresarial hay que intentar que el dato sea fiable. Si los usuarios no se creen los datos que ven en los informes, o no saben de dónde vienen, el proyecto habrá fracasado.
4. Mejores prácticas de Data Discovery
Existen cuatro mejores prácticas que se vuelven cruciales a medida que el descubrimiento de datos evoluciona como práctica y madura como área. Son las siguientes:
- Implementación de procesos de iteración de ciclo rápido, llevados a cabo con la suficiente agilidad, para aumentar la velocidad de generación de conocimiento con la información y de valor con el dato.
- Claridad del objetivo de la búsqueda. Tener en mente las preguntas que hay que hacerse es crucial para no perderse en el trabajo de exploración de los datos. Un propósito relacionado con los objetivos de negocio que se quieran alcanzar son dos elementos que no pueden faltar en ninguna acción de Data Discovery.
- No ponerse límites. Tener claras las preguntas es imprescindible, pero dejarse llevar por los datos es la clave del verdadero descubrimiento. Muchas veces, son los mismos datos los que proporcionan los indicios necesarios para hacerse nuevos planteamientos que, muchas veces, conducen a interesantes oportunidades.
- Introducir la gobernanza. Si se desea compartir informes y cuadros de mandos con otros usuarios de la empresa, existe un proceso de validación del dato que sustituye los datos que se han empleado de puertas para adentro del área, por otros corporativos, validados y comprobados. Así se obtiene lo mejor de los dos mundos, flexibilidad, rapidez e independencia para construir informes pero con la dosis necesaria de fiabilidad y calidad que se ha de aplicar cada vez que se quieran compartir internamente.
Aplicando estas reglas se consiguen superar las limitaciones del descubrimiento de datos que frenan la calidad, fiabilidad y profundidad de la exploración y uso de la información; para poder adentrarse en modelos analíticos más complejos con total garantía de solidez y beneficiándose de la agilidad y flexibilidad que las herramientas visuales basadas en el autoservicio proporcionan.
5. Data Discovery predictivo
La última vuelta de tuerca al mundo de Data Discovery es el Data Discovery predictivo. Se trata de unir, en una única herramienta, la flexibilidad, facilidad de uso y visualización del Data Discovery con la potencialidad y funcionalidad del análisis predictivo.
El análisis predictivo se define como el conjunto de datos, algoritmos estadísticos y técnicas de aprendizaje automático para identificar la probabilidad de resultados futuros basados en datos históricos. El análisis predictivo, unido con la filosofía de Data Discovery, permite disponer de complejos análisis estadísticos presentados de forma amigable, atractiva y entendible para el usuario final.
Técnicas como el forecasting, regresiones lineales, regresiones lógicas, etc.,basadas en complejos modelos estadísticos, están sin embargo accesibles para los usuarios a través de un solo clic (o deberíamos decir con un “toque”, ya que muchas de estas herramientas también tienen una versión para tabletas y smartphones).
Hoy en día el existen plataformas de Data Discovery predictivo que permiten, a través de una interfaz web, explorar datos masivos, pudiendo crear complejos y avanzados análisis estadísticos (forecasting, redes neuronales, correlaciones, regresiones, etc.) y, de forma interactiva, convertir estos análisis en informes y cuadros de mando para su compartición y/o presentación a otros usuarios.
Además si te interesan más temas sobre el Big Data, puedes encontrar más información gratuita en nuestro ebook sobre Optimización de entornos Analíticos con Big Data.
Autor:
Digital Marketing Manager de Logicalis Spain
https://www.linkedin.com/in/luisamariaperez/
2 Comentarios
Gracias por el informe … muy interesante. Podrias indicarme algunos de los programas o aplicaciones que se podrian pobar para Discovery Data ??
Hola Rubén,
Me alegra que te haya gustado. Logicalis tiene una aplicación de ese tipo.
Un saludo,
Juan Carlos