Arquitecturas soberanas por diseño: incorporar transparencia y trazabilidad en sus datos

Por: Michael Cade, Field CTO, Veeam Software.

Hasta ahora, la adopción de la IA ha superado a los marcos regulatorios, dejando a las organizaciones en gran medida a su propio criterio. Pero esta falta de claridad no las ha frenado en su adopción. De hecho, la última encuesta de McKinsey reveló que el 88% de las organizaciones ya reportan el uso de IA en al menos una función empresarial. A pesar de ello, la innovación se ha ralentizado y ha quedado claro que las organizaciones han pasado por alto un factor clave para una IA segura: la soberanía de los datos.

Al mismo tiempo, la regulación ha comenzado a ponerse al día, y gran parte de ella apunta a los mismos principios de soberanía de datos y visibilidad de la IA en varios países. Tomemos como ejemplo la Ley de IA de la UE, que establece normas estrictas basadas en el riesgo tanto para el desarrollo como para el despliegue de la IA dentro de la UE con el fin de mejorar la visibilidad de la IA.

En lugar de avanzar a ciegas, las organizaciones deben detenerse para desarrollar arquitecturas de datos transparentes, trazables y soberanas por diseño. De lo contrario, no solo serán incapaces de desbloquear el verdadero potencial de la IA para sus negocios, sino que también se quedarán atrás en el cumplimiento normativo.

No todos los datos son buenos

Como era de esperar, tanto la soberanía digital como la innovación en IA se reducen a los datos. Ya es bien sabido que la IA necesita grandes volúmenes de datos, y disponemos de muchos: IDC estima que la esfera global de datos alcanzó aproximadamente 181 zettabytes anuales en 2025. Pero, a pesar de contar con abundantes datos, los proyectos piloto de IA Generativa (genIA) siguen fracasando de forma generalizada. Algunas investigaciones sugieren que hasta el 95% de los proyectos piloto de genIA empresarial no llegan a producción ni demuestran un retorno de la inversión medible. ¿El motivo? Problemas estructurales de higiene de datos.

En gran medida gracias a la IA, el crecimiento de los datos se ha vuelto exponencial, pero las organizaciones no han logrado seguir el ritmo. Esta afluencia ha superado con creces los procesos de almacenamiento, y las organizaciones han perdido el hilo en cierta medida: los datos ‘basura’ se almacenan junto con los datos “útiles” necesarios para el uso de la IA. Y en última instancia, los sistemas de IA heredan no solo los sesgos, sino también la calidad y la estructura de los datos con los que fueron entrenados. Por lo tanto, si los conjuntos de entrenamiento están mal estructurados e incluyen datos ‘basura’, los resultados y la usabilidad se resienten.

Además, existe un efecto secundario significativo en materia de cumplimiento y regulación. Si bien los organismos reguladores aún no han acordado un enfoque unificado para la regulación de la IA, ya está quedando claro que la visibilidad será central en los requisitos futuros. Solo en Europa, la Ley de IA de la UE y la Directiva NIS2 ya están señalando un impulso más amplio hacia una gobernanza, transparencia y control más sólidos sobre los datos operativos y de entrenamiento. Y sin una soberanía sólida, las organizaciones seguirán siendo incapaces de mapear y comprender su panorama de datos para cumplir con los requisitos actuales y futuros.

Separar el grano de la paja

Tras los últimos años de crecimiento de datos, la magnitud de las cargas de trabajo que la mayoría de las empresas gestionan hoy puede parecer abrumadora. Antes de que las organizaciones puedan mejorar su higiene de datos, primero necesitan entender y clasificar sus datos. No solo por lo que contienen, sino también según su nivel de sensibilidad. Un dato puede ser útil para un proyecto piloto de genIA, pero si es demasiado sensible, no puede utilizarse. Este nivel de comprensión no solo evita que se proporcionen datos sensibles a los programas de genIA por error, sino que también podría ser clave para crear una genIA que cumpla su potencial. En lugar de entrenarla con un montón de datos ‘útiles’ salpicados de datos ‘basura’, las organizaciones podrán suministrar a la IA únicamente la información que realmente necesita.

Una vez que todo esto esté en su lugar y se sepa con qué se trabaja, las organizaciones pueden comenzar a definir los requisitos de soberanía para cada bloque de datos, incluyendo tanto las normas regulatorias como las de localidad. Para algunos, la reacción inmediata es restringir el uso para cumplir con los requisitos más estrictos de las leyes de localización de datos. Sin embargo, el RGPD de la UE, por ejemplo, no exige la localización dentro de un país específico de la UE, sino únicamente dentro del Espacio Económico Europeo (EEE), aunque sí impone restricciones estrictas a la transferencia de datos personales fuera del EEE, lo que crea en la práctica un efecto de ‘localización suave’. Hay muchos matices en esto, razón por la cual muchas organizaciones están adoptando arquitecturas híbridas o multinube para mantener la flexibilidad sobre dónde se procesan y almacenan las cargas de trabajo. Con estas, las organizaciones pueden restringir los datos donde sea necesario para cumplir con los requisitos de localización, manteniendo al mismo tiempo la portabilidad de los datos, lo que será esencial a medida que las regulaciones sigan cambiando. Esta flexibilidad y transparencia permiten a las organizaciones no solo monitorizar dónde residen sus datos, sino también quién puede acceder a ellos, un conocimiento esencial no solo para el cumplimiento normativo, sino también para la seguridad.

No es solo una casilla que marcar

Hasta ahora, la soberanía de los datos ha quedado relegada al final de la lista de prioridades, considerada principalmente como un ejercicio de cumplimiento normativo. Las organizaciones la han marcado, pero solo como parte de una larga lista de requisitos regulatorios, en lugar de considerarla como una parte vital de su estrategia de datos. Pero si se comprende y se utiliza correctamente, alineada con la estrategia empresarial más amplia, se puede hacer mucho más.

No solo puede alimentar los marcos de gobernanza de datos que sustentan las operaciones, sino que también puede ayudar a informar y establecer la gobernanza de la IA. Con datos limpios, estructurados y clasificados, las organizaciones podrán por fin desbloquear el verdadero potencial de sus proyectos piloto de genIA.

Hasta ahora, la soberanía de los datos ha sido subestimada, pero con la innovación en genIA estancada y la regulación poniéndose al día, las organizaciones ya no pueden permitirse seguir haciéndolo.

Veeam Data Platform v13.1: resiliencia y recuperación rápida ante interrupciones cibernéticas

Más de la mitad de las empresas detectó intentos de ataques informáticos durante el último año

Certificados Cruzados: la pieza clave para renovar la seguridad web sin romper nada en el intento

El monitoreo tradicional se está convirtiendo en un riesgo para las empresas

La Inteligencia Artificial solo será tan confiable como los datos que la alimentan

Ciberataques: más allá de la pérdida económica

La ola llegó antes de lo previsto (y no la trajo un humano)

Quiero Suscribirme y recibir información

Al completar este formulario, aceptas que los datos proporcionados podrán ser utilizados por Prensario TILA para enviarte noticias, novedades editoriales y comunicaciones comerciales propias, así como información de nuestros clientes y socios. Tus datos serán tratados de forma confidencial y podrás solicitar en cualquier momento la modificación o baja de nuestras listas de contacto.