Los datos se pueden clasificar según su origen, su rango, el tipo de lenguaje con el que queremos trabajar sobre ellos etc. La clasificación más práctica y global que permite trabajar de forma efectiva en el mundo digital es la basada en su estructura. Según esta, hay 3 tipos de datos: estructurados, semiestructurados y no estructurados.
Datos semi-estructurados no tienen un esquema definido. No encajan en un formato de tablas/filas/columnas, sino que se organizan mediante etiquetas o “tags” que permiten agruparlos y crear jerarquías. También se les conoce como no relacionales o NoSQL.
Este tipo de datos representa alrededor del 5-10% del volumen de datos global. Sin embargo, tiene casos de uso muy relevantes desde el punto de vista comercial, en grandes infraestructuras de datos y aplicaciones web en tiempo real. Algunos servicios muy conocidos basados en este tipo de datos son el sistema de recomendación de Amazon, o los servicios de Linkedin.
Muchos de los casos de uso tienen que ver con el transporte de datos, compartir datos de sensores, intercambio electrónico de datos, plataformas de medios sociales, y bases de datos NoSQL.
Los ejemplos de datos semi-estructurados más conocidos son: