Capturar datos, no gracias, no.

Capturar datos, no gracias, no.

Recientemente nos encontramos con un reto muy particular, un cliente quería indagar sobre sus costos de envíos (paquetería), ya tenía en sus datos el registro contable de lo que pagaba mensualmente a las diferentes compañías de paquetería pero, no tenía el detalle del costo por tipo de paquete, estado, ciudad o localidad, horario, etc.

Al fin de cada mes, recibía en una factura total por compañía y los detalles de cada envío estaban en miles de archivos en formato PDF. Y como una iniciativa de la dirección general, se buscaba la reducción de costos de paquetería, en ese momento resultaron las preguntas, ¿Dónde reducir?, ¿Qué localidades podían tener envíos en lotes? ¿Cuál era la mejor opción por estado, por localidad?, etc. Preguntas sencillas de responder, si se contara con los datos del gasto de paquetería a detalle, y de hecho si lo tenían, pero en archivos PDF.

Si bien, ya habían solicitado que, el desglose de los envíos actuales fuera reportado a detalle en un formato facil de analizar (excel), aún nos encontrábamos que, nuestro cliente tenía un pequeño ejército de capturistas realizando el vaciado de los datos que contenían sus miles de archivos de “Guías de envío”, para generar un histórico de los costos y proceder a la optimización de ese gasto.

De este modo, nos encontramos con el reto de extraer datos de un formato no amigable, y existen diferentes métodos para hacerlo, ya sea mediante herramientas de extracción o usando código de los lenguajes que están de moda “R” y “Phyton”; nosotros usaremos el más sencillo, contamos con el asombroso POWER BI y con tan solo unos clics, podemos hacer la extracción de cualquier dato de un PDF, permitiendonos enfocarnos en la optimización y quitando los recursos dedicados a ese proceso manual de captura.

Así es, Power Bi tiene un conector nativo para PDF que funciona muy bien. Haremos un ejemplo, usando la “Encuesta sobre las Expectativas de los Especialistas en Economía del Sector Privado” publicadas por el BANXICO. Buscaremos extraer el Cuadro 1 de la encuesta publicada del día 3 de diciembre de 2018.

Extracción de datos de un PDF fácil y rápido.

  • Solo necesitamos seleccionar el tipo de archivo “PDF” en el menú “Get Data” de nuestro Power BI.
  • Seleccionamos el archivo deseado.
  • Y al abrirlo el navegador ya habrá identificado las diferentes tablas a las cuales podemos accesar y para nuestra suerte los datos que buscamos están en la segunda tabla detectada por Power BI.
  • Cuando la seleccionamos nos llevará al editor de consultas (Power Query Editor), donde con un par de clics, transformaremos esta tabla y la haremos manejable.
  • Y así, tenemos nuestros datos disponibles, manejables y sin tener que capturar nada, sin depender de un software externo y sin escribir una sola línea de código, además, ya están cargados en nuestra herramienta analítica y de visualización.

¿Pero, acaso no habíamos dicho que eran miles de documentos los que se necesitaban capturar para poder tener los datos históricos?

Efectivamente, tenían cerca de nueve mil documentos, de envíos diarios de unos tres años, pero nuevamente Power BI sale a la defensa para librarnos de ese trabajo repetitivo y que aporta poco valor. Solamente debemos seleccionar, “Folder” en el menú “Get Data” de Power BI para poder hacer una extracción masiva de los archivos PDF.

En este ejemplo, podemos ver como estoy seleccionando las últimas tres encuestas de BANXICO.

Con unos cuantos clics para definir que deseamos extraer y listo, tendremos todos los datos disponibles para hacer análisis, reportes, tableros de control y seguimiento y podremos optimizar el área que deseemos.

Con el ejemplo anterior, podemos ver como la flexibilidad y poder de Power BI nos permite:

  • reducir tiempo de trabajo,
  • nos da acceso a datos que creíamos imposibles obtener,
  • y de manera casi automática (sin aplicaciones extras y sin programar) tenemos disponible todos los datos deseados

¿Y tú ya estás listo para dejar de hacer trabajo repetitivo y de poco valor?. SI no, es porque TE HACE FALTA MÁS DAX.

Ponte en contacto con nosotros y entra en la Nueva Era, vive la Era del verdadero BIG DATA.

Referencias.

https://alignedleft.com/resources/pdf-data-extraction-tools

https://medium.com/@CharlesBordet/how-to-extract-and-clean-data-from-pdf-files-in-r-da11964e252e

http://www.anterior.banxico.org.mx/informacion-para-la-prensa/comunicados/resultados-de-encuestas/expectativas-de-los-especialistas/index.html

www.blog.pythonlibrary.org/2018/05/03/exporting-data-from-pdfs-with-python/

Deja un comentario