Manipulación de datos

Los datos, en su forma natural (lo que llamamos “Raw Data”), suelen tener errores de registro que imposibilitan un análisis. Al ser registrados por distintos sistemas y personas es normal que terminemos con un archivo en el que un mismo valor esté expresado de distintas maneras (por ejemplo, una fecha puede estar registrada como 28 de Junio, o como 28/06), como pueden haber registros en blanco y por supuesto, errores gramaticales.

"Data Wrangling" puede traducirse al Español como "manipulación de datos", "disputa de datos" o "gestión de datos". Es un término que se usa con frecuencia en distintos procesos del Data Science o Ciencia de Datos y se utiliza para definir el procedimiento que consiste en extraer, transformar y mapear la información.

Al momento de hacer un análisis de esos datos, todos esos registros tienen que preprocesarse. Es decir, se tienen que limpiar, unificar, consolidar y normalizar para que se puedan utilizar y lograr extraer información de valor. De esto se trata el Data Wrangling, de preparar los datos para poder ser aprovechados.

Comúnmente los datos de archivos y catálogos se guardan en archivos separados por comas (CSV), y en menor medida separados por un tabulador (TSV).

Para esta tarea utilizamos principalmente tres herramientas:

Data Wrangling Open Refine
Planilla de cálculo Google Sheets, Libre Office, Microsoft Excel entre otros.
Renombrado de archivos Transnomio, A Better Finder Rename, KRename, Bulk Rename Utility entre otros.

OpenRefine

Recursos seleccionados

Google Sheets

Para este manual creamos una 'hoja de cálculo' con un conjunto de tags 'VRA Core' y 'Dublin Core' y datos, provenientes de la 'Colección Bruzzone' que nos servirán de guía: Museum Metadata Embedder dataset, la cual no solo es utilizada para contener los datos, sino para aplicar varias formulas y hojas de soporte y traducción de cadenas de texto.
Los permisos de comentarios están habilitados; eres libre de descargarla o comentar en ella.

Convención de nombres de archivos

El catálogo de la Colección Bruzzone utiliza la siguiente convención:

  1. Pais: AR
  2. Institución: MA (Museos Abiertos)
  3. Colección: Bruzzone
  4. Artista: Agerta Antonella (Apellido, Nombre)
  5. Nombre obra: Je suis la
  6. ID objeto: 2014
  7. Numeración objeto: 00
  8. Idioma: EN

Ejemplo: AR-MA-Bruzzone-Agesta-Antonella-Je-suis-la-2014-00-EN.jpg

  • Comienza con información general (a la izquierda) y sea más específico a medida que avanza por el nombre de su archivo, al igual que lo hace en su estructura de carpetas. Esto ayuda a que tus archivos se ordenen de forma lógica, de arriba hacia abajo.
  • Considera incluir un prefijo general (cliente, producto) y/o un sufijo específico (número de versión, color).
  • Mantén sus abreviaturas cortas pero significativas, 2-3 letras si es posible, siempre que tengan un significado de sentido común.
  • Usa guiones bajos, guiones o letras mayúsculas o minúsculas para ayudar con la legibilidad, y no use espacios.
  • Los puntos solo deben usarse para separar el nombre del archivo de la extensión de formato (por ejemplo, logo.jpg), nunca en el nombre del archivo en sí.
  • Las fechas deben ser en formato ISO 8601 'año-mes-día', para que los archivos se ordenen cronológicamente. Ejemplo: 2022-12-31
  • Al aplicar versiones de archivos, utilice el designador "v" o "V" y un número, por ejemplo, "v01".
  • Evita los caracteres especiales (< > | [ ] & $ + \ / : * ? “) para que sus nombres de archivo sean utilizables en la web y compatibles entre plataformas.
  • Evita los nombres de archivo demasiado largos. Por ejemplo, la API de Windows impone una longitud máxima de nombre de archivo tal que un nombre de archivo, incluida la ruta de acceso al archivo, no puede exceder entre 255 y 260 caracteres.

Recursos