Los datos, en su forma natural (lo que llamamos “Raw Data”), suelen tener errores de registro que imposibilitan un análisis. Al ser registrados por distintos sistemas y personas es normal que terminemos con un archivo en el que un mismo valor esté expresado de distintas maneras (por ejemplo, una fecha puede estar registrada como 28 de Junio, o como 28/06), como pueden haber registros en blanco y por supuesto, errores gramaticales.
"Data Wrangling" puede traducirse al Español como "manipulación de datos", "disputa de datos" o "gestión de datos". Es un término que se usa con frecuencia en distintos procesos del Data Science o Ciencia de Datos y se utiliza para definir el procedimiento que consiste en extraer, transformar y mapear la información.
Al momento de hacer un análisis de esos datos, todos esos registros tienen que preprocesarse. Es decir, se tienen que limpiar, unificar, consolidar y normalizar para que se puedan utilizar y lograr extraer información de valor. De esto se trata el Data Wrangling, de preparar los datos para poder ser aprovechados.
Comúnmente los datos de archivos y catálogos se guardan en archivos separados por comas (CSV), y en menor medida separados por un tabulador (TSV).
Para esta tarea utilizamos principalmente tres herramientas:
Data Wrangling | Open Refine |
Planilla de cálculo | Google Sheets, Libre Office, Microsoft Excel entre otros. |
Renombrado de archivos | Transnomio, A Better Finder Rename, KRename, Bulk Rename Utility entre otros. |
Para este manual creamos una 'hoja de cálculo' con un conjunto de tags 'VRA Core' y 'Dublin Core' y datos, provenientes de la 'Colección Bruzzone' que nos servirán de guía: Museum Metadata Embedder dataset, la cual no solo es utilizada para contener los datos, sino para aplicar varias formulas y hojas de soporte y traducción de cadenas de texto.
Los permisos de comentarios están habilitados; eres libre de descargarla o comentar en ella.
El catálogo de la Colección Bruzzone utiliza la siguiente convención:
Ejemplo: AR-MA-Bruzzone-Agesta-Antonella-Je-suis-la-2014-00-EN.jpg