Más

    Dataflow Vs Dataset | ¿Cuál utilizar?

    Si trabajas en el mundo de los datos y utilizas la tecnología de Microsoft, en concreto Power BI como solución para la creación de los informes de tu organización, en alguna ocasión te habrá surgido la duda sobre que servicio utilizar.

    ¿Debería utilizar el servicio de Datasets compartidos con los usuarios para que generen sus propios informes? ó ¿Será mejor que utilice Dataflow en este caso?

    En este artículo veremos en detalle que nos ofrece cada uno de ellos y cual se adapta mejor a tus necesidades. ¡Comencemos!

    ¿Qué es Dataflow? (Flujo de datos)

    El servicio de Power BI nos ofrece esta funcionalidad que nos permite de forma fácil y sencilla realizar una ETL directamente en el servicio de Power BI, esto quiere decir que con ella podemos conectarnos al origen del dato.

    Por lo que podemos utilizar esta funcionalidad para tratar y preparar la información que después utilizarán los usuarios como origen en sus informes de Power BI Desktop. Podríamos definirlo como el sustituto online del editor de consultas Power Query.

    Si quieres conocer esta funcionalidad más de detalle…en este post encontrarás más información al respecto de Dataflow.

    La funcionalidad de Dataflow puede solucionar uno de los obstáculos de cualquier organización, tener múltiples versiones de una misma tabla (o de varias), ya que la preparación del dato la ofreces directamente a los usuarios, ya habiendo preparado tú la información en el Dataflow, y no son los usuarios los que finalmente tienen que personalizar cada tabla, generando así múltiples versiones de la misma tabla en diferentes informes.

    Por lo que esta solución, Dataflow, puede resultar muy interesante, ya que:

    • Evita que los usuarios tengan que personalizar ellos mismos la información de origen, generando así múltiples tablas de un mismo origen, y minimizando el ruido que todo esto pueda generar en la organización.
    • Para los usuarios que no tengan conocimiento en Power Query, les estás brindando la solución para que directamente hagan sus informes sin preocuparse de eliminar columnas, corregir errores o modificar tipos de datos (cosa que ya has hecho previamente con Dataflow de acuerdo a las necesidades analíticas de los usuarios).

    ¿Qué es Dataset? (Conjunto de datos)

    Esta otra funcionalidad que nos ofrece Power BI, permite disponer de un modelo de datos preparado y listo para utilizarse directamente en un informe, mediante un conector dinámico al servicio, de forma que el usuario no tenga que preocuparse de establecer las relaciones entre las diferentes tablas que formen el modelo e incluso, tampoco tenga la necesidad de crear medidas o columnas con DAX, que ya estén implementadas en el Dataset.

    Partiendo de Power BI Desktop, el procedimiento de generación de un Dataset suele comenzar con un desarrollador del dato, este prepara la información, estableciendo las relaciones entre las tablas y desarrollando las medidas o columnas calculadas DAX, necesarias para el análisis de la información posterior.

    Una vez generado el conjunto de datos, este se publica en el servicio, en el WorkSpace correspondiente, para que, una vez este disponible desde allí, cualquier usuario que tenga acceso al mismo conjunto de datos (Dataset) se pueda conectar de forma dinámica para generar sus propios informes, en función de su necesidad analítica.

    El conjunto de datos (Dataset) puede solucionar otro de los hándicaps de cualquier organización, disponer de múltiples versiones de una misma medida o columna, ya que la generación de esa columna la puedes ofrecer habiéndola calculado previamente en el Dataset.

    Facilitando el Dataset a los usuarios, ellos podrán utilizar dichas medidas y columnas, que serán 100% pertenecientes al modelo conectado, evitando que ellos mismos tengan que crear esas medidas y columnas.

    Por lo que esta solución, Dataset, puede resultar óptima, ya que:

    • Evita que los usuarios que no tienen mucho control con las relaciones y las tablas, tengan que implementar el modelo, ya que, al conectarse de forma dinámica al conjunto de datos, les vendrá importado el modelo y las relaciones, minimizando así los problemas que puedan verse derivados de los cross-filterings o relaciones erróneas entre tablas.
    • Para los usuarios que no tengan conocimiento en DAX, les estás brindando la solución para que dispongan de las medidas y columnas necesarias en el modelo, sin tener que preocuparse de tener que generarlas ellos mismos.

    ¿Dataflow o Dataset? ¿Cuál es mejor?

    Debemos comenzar diciendo que ninguna de las dos soluciones es sustituta de la otra, al contrario, pueden resultar incluso complementarias.

    Por ejemplo, puedes utilizar Dataflow para preparar el modelo (tratamiento de los datos, formatos, eliminación de columnas o datos innecesarios, tratamiento de errores, etc.) y utilizar este Dataflow como origen para construir el Dataset que compartirás con los usuarios finales.

    Pero entonces, ¿Qué debería utilizar? ¿Cuál sería mejor? Como todo en esta vida, no todo es blanco o negro, hay una gran paleta de grises.

    Por tanto, la respuesta a estas preguntas sería que dependiendo de qué quieras ofrecer a tus usuarios, del conocimiento que dispongan con respecto al modelado de relaciones y DAX y del control y autonomía que tengan con el tratamiento de datos de Power Query, deberías plantear una, otra, o incluso, como has podido comprobar, plantear ambas y complementarlas para exprimir todo su potencial.

    Rocío Romero López, Encamina

    Artículo escrito por Rocío Romero López, Cloud Solutions Specialist en ENCAMINA.

    Comentarios

    En breve activaremos los comentarios.

    Relacionados

    Más leídos

    Se habla de..

    Artículos relacionados

    p