DataMesh Bolivia: Hacia un Ecosistema de Datos Colaborativo y Abierto

Autor/a

Andres Humberto Chirinos Lizondo

Resumen
Tejido de Datos Bolivia es una iniciativa estratégica y colaborativa que busca sentar las bases de un ecosistema nacional de datos abierto, distribuido y útil para la investigación, la toma de decisiones y la innovación social. Inspirado en principios de gobernanza distribuida como el Data Mesh, y modelos exitosos como OpenAlex y los datos FAIR, el proyecto propone una red donde distintas comunidades científicas, académicas, técnicas y civiles puedan publicar, describir, consumir y analizar datos de manera descentralizada pero interconectada. Este documento presenta la visión, motivación, arquitectura conceptual y hoja de ruta para su desarrollo inicial.

Motivación

Actualmente, Bolivia carece de una infraestructura moderna y abierta para la gestión de datos públicos y científicos. Existen esfuerzos dispersos, sin estándares comunes, escasa interoperabilidad y poco acceso ciudadano. Esta propuesta surge como respuesta desde la sociedad civil organizada y el sector académico.

Inspiraciones internacionales: - OpenAlex (metadatos científicos) «OpenAlex: The open catalog to the global research system OpenAlex» (s. f.) - Open Data Kit / Frictionless Data «Frictionless Data» (s. f.) - Estándares como DataPackages (Frictionless) «Data Package» (2025) - Plataformas federadas como Wikidata y OpenStreetMap «Wikidata» (s. f.) «OpenStreetMap» (s. f.)

El contexto actual en Bolivia

  • Fragmentación de los datos públicos y académicos

  • Dificultades de acceso a datos confiables, reutilizables y vivos

  • Iniciativas individuales valiosas, pero aisladas y no interoperables

  • Brecha entre los datos que existen y los que realmente se usan

Oportunidad histórica

  • La disponibilidad creciente de herramientas de código abierto

  • Maduración de principios como FAIR (Findable, Accessible, Interoperable, Reusable)

  • Interés renovado por la ciencia abierta y la colaboración interdisciplinaria

  • Necesidad urgente de fortalecer la soberanía y gobernanza de los datos locales

Visión y Principios

Visión

Crear una red pública y descentralizada de datos útiles, abiertos y gobernados por sus propios productores y usuarios, promoviendo la interoperabilidad, la transparencia y la colaboración interdisciplinaria.

Objetivos:

  • Promover la interoperabilidad y publicación de datos estandarizados.
  • Facilitar herramientas estadísticas, dashboards e inteligencia artificial sobre esos datos.
  • Construir una arquitectura basada en dominios autónomos.
  • Promover una infraestructura común (exploradores, catálogos, APIs, documentación, etc.)

Principios Rectores

  • Descentralización: Cada dominio científico o entidad es responsable de sus propios datos.

  • Interoperabilidad: Uso de estándares comunes como DataPackage, CSV, JSON, RDF.

  • Reutilización: Datos acompañados de metadatos claros, licencias abiertas, documentación.

  • Simplicidad: Interfaces mínimas y APIs amigables para fomentar adopción.

  • Ciencia abierta: El sistema como infraestructura para publicar, validar y extender investigación reproducible. «FAIR Principles» (s. f.)

Arquitectura

4.1 Interacción de Actores con el Data Hub Público

graph TD
  A[Sociedad civil / Organizaciones / Instituciones] -->|Publican| B(Data Hub Público)
  
  subgraph B[Data Hub Público]
    B1[Repositorio de Datos]
    B2[Repositorio de Metadatos]
    B3[Buscador Semántico]
    B4[APIs Abiertas]
  end

  B4 --> E[Dashboards ciudadanos]
  B4 --> F[Herramientas estadísticas]
  B4 --> G[IA / Modelos analíticos]
  B2 --> I[DataPackages, Esquemas, Documentación]

Fuente: Article Notebook

«Data Package» (2025)

4.2 Funcionamiento interno de un Dominio

Cada dominio (por ejemplo: salud, transporte, educación, economía informal, etc.) es autónomo y publica sus propios productos de datos.

graph TD
  subgraph Dominio_A[Dominio: Transporte Urbano]
    A1[Dataset: Rutas Micros] --> A2[Dataset: Horarios] --> A3[Producto: App Horarios]
  end

Los productos pueden depender de otros datasets, generando una especie de DAG (grafo acíclico dirigido) donde cada dataset sigue un estándar común (p.ej., DataPackage).

4.3 Interconexión entre Dominios y Productos Finales

graph TD
  subgraph Dominio A
    A1[Producto A1] --> A2[Producto A2]
  end

  subgraph Dominio B
    B1[Producto B1]
  end

  subgraph Dominio C
    C1[Producto C1] --> C2[Producto C2]
  end

  A2 --> B1
  B1 --> C2

  B1 -->|APIs Abiertas| D1[IA / Dashboards / Herramientas]
  C2 -->|Interfaz pública| D1
  A1 -->|Metadatos FAIR| D2[Buscador semántico]

Este grafo permite visualizar que los datos no están aislados, sino que construyen valor unos sobre otros. De aquí surgen: - Data Marts temáticos - Modelos analíticos reutilizables - APIs comunes - Infraestructura compartida «Data Mesh» (s. f.)

5. Infraestructura

La siguiente tabla resume los componentes comunes que se ofrecerán a cada dominio:

Componente Descripción
Catálogo semántico Indexación y búsqueda de datasets y productos
Repositorio GitHub Versionado y publicación de código, ETL y documentación
Documentación Publicación reproducible de papers, notebooks y resultados
APIs RESTful Acceso programático estándar a los datos
Estándares FAIR Guías para documentación, licencias, interoperabilidad
Validadores y linting Validadores automáticos de metadatos y estructuras
Observabilidad Dashboards para monitorear calidad de datos y actividad

6. Estrategia de Implementación

  • Fase 1: Diseño de los primeros dominios (Economia, Transporte, Educación)
  • Fase 2: Construcción de la infraestructura base (repositorios, buscador, APIs)
  • Fase 3: Convocatoria a contribuyentes y documentación abierta
  • Fase 4: Incentivar creación de productos reutilizables (IA, visualizaciones, análisis)
  • Fase 5: Interoperabilidad con redes externas (e.g., UMSA, INE, ONGs, Observatorios)

7. Casos de Uso Iniciales

  • Publicación de datasets de microdatos anonimizados
  • Herramientas ciudadanas como observatorios de precios, transporte, salud o empleo informal
  • API pública para generar análisis automatizados sobre calidad educativa o climática

8. Conclusión y Llamado a la Acción

Este whitepaper busca iniciar una conversación técnica y estratégica sobre cómo compartir mejor nuestros datos, y cómo hacerlo de forma ética, sostenible y colaborativa. La idea es simple: descentralizar sin desordenar, abrir sin improvisar, innovar sin excluir.

Convocamos a estudiantes, investigadores, funcionarios, activistas, ONGs y empresas a sumarse a este ecosistema en construcción.

“Donde hay datos abiertos, puede haber inteligencia abierta. Y donde hay colaboración, puede haber transformación.”

Más en el yellow paper xd

Referencias

«Data Mesh». s. f. O’Reilly Online Learning. Accedido 1 de agosto de 2025. https://www.oreilly.com/library/view/data-mesh/9781492092384/.
«Data Package». 2025. Data Package Standard. https://datapackage.org/.
«FAIR Principles». s. f. GO FAIR. Accedido 1 de agosto de 2025. https://www.go-fair.org/fair-principles/.
«Frictionless Data». s. f. Frictionless Data. Accedido 1 de agosto de 2025. https://frictionlessdata.io/.
«OpenAlex: The open catalog to the global research system OpenAlex». s. f. Accedido 1 de agosto de 2025. https://openalex.org/.
«OpenStreetMap». s. f. OpenStreetMap. Accedido 1 de agosto de 2025. https://www.openstreetmap.org/.
«Wikidata». s. f. Accedido 1 de agosto de 2025. https://www.wikidata.org/wiki/Wikidata:Main_Page.