Dilemas con los repositorios de datos en la era de la IA

Share

Por Ricardo Ortega, Gerente general, Libresoft

La Inteligencia Artificial (IA) está transformando el trabajo empresarial, generando un volumen masivo de datos que requiere gestión especializada. Todos queremos aprovechar la “promesa de una mejor productividad” … sin mayor esfuerzo. Los datos son la nueva joya de la economía. Pero nada es ni será gratis o fácil. La gran cantidad de datos, la complejidad de las infraestructuras tecnológicas, la necesidad de consistencia, disponibilidad y trazabilidad, así como el cumplimiento de la ley de protección de datos personales (LOPDP Ecuador) presenta nuevos desafíos. Un gestor de datos que tome decisiones instintivas, apresuradas, sin mirar todo el contexto, corre el riesgo de enfrentar consecuencias no solo frente a sus usuarios sino frente a organismos reguladores y de control.

Contexto actual

Las organizaciones avanzan hacia modelos de IA generativa, y con ello crece la cantidad y diversidad de datos que deben gestionar. Este volumen trae una decisión inevitable: optar por un repositorio centralizado o por una arquitectura distribuida. No es una elección técnica únicamente; es estratégica, con efectos directos en disponibilidad, seguridad, confidencialidad, ética y valor del dato.

También aparece otra pregunta clave: ¿qué datos deben subir a la nube y cuáles deben mantenerse en infraestructura local? ¿Conviene concentrarlo todo en un datacenter propio, distribuirlo en una red mesh o combinar ambos modelos? La LOPDP obliga a revisar estas decisiones con criterios de licitud, minimización y protección. En muchos casos, la respuesta no es un modelo único, sino una arquitectura híbrida que combine control, eficiencia y cumplimiento

El moderno administrador de gobernanza de datos es el líder de un equipo que incluye científicos de datos, arquitectos de datos, arquitectos de IA, responsables de protección de datos personales.

Gobernanza de datos: decisiones y criterios que importan

La figura moderna del administrador de gobernanza de datos implica liderazgo y comprensión multidisciplinaria. El equipo mínimo incluye científicos de datos, arquitectos de datos, arquitectos de IA y responsables de protección de datos personales.

Las decisiones clave involucran:

  • Tiempo de vida del dato: ¿permanencia de 3 años o más?
  • Modelo operativo: autogestionado o con soporte experto.
  • Arquitectura: monolítica, distribuida o híbrida.
  • Ubicación del dato: privado sin acceso a Internet, nube pública, nube híbrida o selección granular por dominio.
  • Tecnologías disponibles: chat, multimodal, audio, speech; agentes IA, Agentic IA, RAG, CAG, MCP, A2A, API.
  • Aceleradores: GPU, TPU, NPU.
  • Repositorios: HADOOP, Snowflake, Nutanix, vectores, tensores, SQL, NoSQL.
  • Calidad del dato: reglas, validaciones, QA continuo.
  • Definición de system prompts organizacionales: cómo debe comportarse la IA.

Además, la necesidad de definir criterios para cumplir políticas anticorrupción o de las auditorías de la Superintendencia de Protección de Datos Personales. Por experiencia muchas bases de datos serán observadas y deberán ser corregidas para definir, discriminar y proteger los datos personales tanto de clientes como de empleados.

No hay gobernanza sin control o sin alfabetización digital

Una organización madura incorpora QA y auditorías en cada etapa del ciclo de vida del dato. Las empresas grandes o de larga trayectoria suelen enfrentar motores de bases de datos distintos, producto de sistemas heredados. Esto exige orquestar múltiples fuentes,

estandarizar metadatos, asegurar control de accesos, y entrenar a las personas porque el usuario sigue siendo el eslabón más débil en ciberseguridad.

Y debido al avance acelerado de la IA, un modelo que hoy funciona puede requerir ajustes a mitad de su vida útil. La gobernanza no es estática: se adapta o se queda atrás.

¿Entonces, por dónde empezar?

Comenzar hoy mismo a construir una plataforma de datos que genere “confianza” y “confiabilidad”, otras palabras para integridad, precisión y credibilidad. La gobernanza de datos no es una simple tarea técnica, sino un factor organizacional crítico del éxito. En la era de la IA generativa, los líderes de datos deben asumir una mentalidad de adaptación y mesura; el diseño de una infraestructura de datos que sea inteligente y flexible que puede funcionar para algunos, para otros no servirá.

Sus datos deben estar optimizados no solo para facilitar la gobernanza y responder preguntas, sino para que los agentes de IA actúen, para que la IA agentiva utilice dinámicamente sus datos desde caché, desde datos actuales y desde datos históricos. Analice una plataforma hibrida entre repositorio único o distribuido, local o nube.