Cómo la IA mejora la accesibilidad y elimina barreras lingüísticas

29 de enero de 2025

Imagina la frustración de encontrar contenido digital que no puedes consumir. Millones de personas siguen excluidas del contenido digital debido a discapacidades, diferencias de aprendizaje o barreras lingüísticas que limitan sus oportunidades educativas, profesionales y sociales.

La IA y el aprendizaje automático están abriendo un mundo de posibilidades para lograr que el contenido y el conocimiento sean accesibles para todos. Estas tecnologías tienen la capacidad de personalizar y adaptar la experiencia del usuario, reduciendo las brechas que enfrentan aquellos con discapacidades y diferencias de aprendizaje o capacidades.

El papel transformador de la IA en la accesibilidad

Gracias a la IA cada vez hay más herramientas y recursos que permiten acceder a la información en diferentes formatos e idiomas. La traducción de texto, imágenes, audio y vídeo facilita el acceso a información técnica, cursos, series, libros… También abre la posibilidad a disfrutar más contenidos de internet y en redes sociales, en nuevos lugares y en espacios físicos.

Las tecnologías de accesibilidad benefician a todos: amplían el acceso a contenidos, potencian la interacción social, la inclusión y enriquecen las experiencias.

Algunas de las tecnologías que facilitan esta superación de barreras incluyen:

  • Procesamiento del lenguaje natural (NLP), que permite a las máquinas comprender y generar lenguaje humano, incluyendo análisis de sentimiento, extracción de información y comprensión contextual.
  • Modelos de lenguaje, desde modelos estadísticos básicos hasta grandes modelos de lenguaje (LLM), que permiten comprender contextos complejos y generar respuestas coherentes.
  • Visión artificial, que interpreta y analiza imágenes para reconocimiento de objetos, análisis de escenas, lectura de texto en imágenes y navegación asistida.
  • Conversión de texto a voz (TTS) con síntesis neural, que transforma texto escrito en audio con voces naturales y expresivas.
  • Sistemas de traducción neural, que facilitan la interpretación y adaptación de contenido entre idiomas en tiempo real.
  • Reconocimiento automático del habla (ASR), que convierte con precisión el audio en texto, incluyendo diferentes acentos y contextos.

Además, otras tecnologías recientes que mejoran la accesibilidad incluyen interfaces hápticas, seguimiento del movimiento ocular (eye-tracking) y sistemas de control por gestos, e incluso neuronales.

Estas tecnologías, especialmente en combinación, permiten:

Doblaje de vídeo en múltiples idiomas

El doblaje automático de vídeo en múltiples idiomas es un área donde la IA está abriendo nuevas posibilidades. Tecnologías avanzadas ahora permiten recrear la misma voz del hablante original en diferentes lenguas, manteniendo su tonalidad y características únicas.

Además, la sincronización de los labios utilizando algoritmos de IA genera una experiencia de visualización más precisa, similar a verla en su versión original sin la barrera del idioma.

Esto no solo mejora la accesibilidad del contenido para audiencias internacionales, sino que también preservan la autenticidad de la actuación original, permitiendo a los espectadores conectar de una manera más directa con los personajes.

Caso de éxito: Museo del Prado

El Prado de Babel es una iniciativa del Museo Nacional del Prado para traducir y doblar el vídeo de presentación de sus colecciones. En el vídeo, Miguel Falomir, director del museo, conserva su voz e imagen mientras habla en una docena de idiomas diferentes.

Así, con ayuda de Telefónica, su socio tecnológico, el museo ofrece a los visitantes la oportunidad de escuchar en su propio idioma las explicaciones de Falomir sobre la identidad y colección del Prado, creando una relación más personal y una experiencia más inclusiva y accesible.

Para este proyecto en Telefónica Tech evaluamos diversas herramientas que nos permitieran realizar el doblaje y la sincronización labial con la calidad requerida. La herramienta de ElevenLabs nos permitió mantener la expresividad y emoción de la versión original, mientras que con HeyGen pudimos preservar la naturalidad y coincidencia del movimiento de los labios con el audio generado por IA.

Subtítulos automáticos y transcripción de voz a texto

La subtitulación automática de vídeos, común en plataformas como YouTube y en redes sociales, mejora la accesibilidad al contextualizar las traducciones e incrementar el número de idiomas soportados. Tecnologías como los subtítulos automáticos generan subtítulos en tiempo real que ayudan a personas con discapacidad auditiva.

Estas tecnologías analizan el audio del vídeo y transcriben la voz (y según el caso, lo sincronizan con la imagen) de forma escrita Esta función es muy valiosa para las personas con problemas de audición y también para quienes consumen contenidos en otro idioma o en entornos silenciosos.

—Subtítulos generados automáticamente en Youtube

La transcripción automática de voz a texto permite capturar rápidamente cualquier conversación o discurso y convertirlo en texto escrito, lo cual es de ayuda para personas con discapacidades auditivas y también es útil en cursos y conferencias o reuniones. Es una función habitual en asistentes virtuales, apps de notas de voz, modelos de lenguaje, traductores o en procesadores de texto para mejorar la accesibilidad y productividad.

Traducción ‘universal’ de páginas web

La traducción en tiempo real de sitios y páginas web es cada vez más común. Herramientas como Google Translate y Microsoft Translator, integradas en navegadores, permiten traducir contenido entre múltiples idiomas. Además, esta tecnología se incorpora nativamente en desarrollos web y navegadores, que pueden interpretar y traducir el texto en imágenes.

— Los navegadores web actuales identifican, interpretan y traducen el texto de las imágenes de una página web (página original, en inglés.)

Esto tiene el potencial de romper barreras lingüísticas y ‘universalizar’ el acceso a la información y el conocimiento al generar una traducción transparente y cada vez más precisa para el usuario, facilitando la navegación y comprensión del contenido.

Convertir texto a voz

La tecnología TTS (text-to-speech) permite convertir texto a voz de forma automática. Es una tecnología también se ha visto potenciada por la IA, y los sistemas TTS modernos aprovechan el procesamiento del lenguaje natural (NLP) para analizar el texto y generar voz con la entonación, ritmo y emoción apropiados, y un manejo correcto de las pausas, acentuación y pronunciación específica de cada idioma.

Esta tecnología se utiliza en la interacción con asistentes virtuales, sistemas de navegación GPS, aplicaciones educativas y de aprendizaje de idiomas o para la lectura en voz alta de documentos, libros y páginas web, entre otros usos, incluyendo el doblaje automático de vídeo.

Para muchas personas, esta tecnología puede marcar la diferencia en su manera de interactuar con el mundo: permite a personas con diferentes discapacidades utilizar móviles y ordenadores, comunicarse o acceder a contenido antes inaccesible, como también mejorar la productividad.

—El control del aspecto, colores y tamaño del texto y la opción para escuchar la lectura del contenido de una web mejoran la accesibilidad.

Visión artificial para comprender el entorno

La visión artificial ha abierto nuevas posibilidades para la accesibilidad gracias reconocimiento avanzado de contenido visual mediante algoritmos que analizan y comprenden el contenido de imágenes capturadas o vistas a través de dispositivos como cámaras móviles.

Estos sistemas analizan y describen el contenido de una imagen o vídeo en tiempo real, proporcionando descripciones en forma de texto o de voz a personas con discapacidades visuales. Esto permite conocer el contexto y significado de medios visuales que anteriormente eran inaccesibles, como qué está sucediendo en la escena de una película.

Además, esta tecnología también identifica y describe texto dentro de las imágenes, lo que beneficia a personas con dislexia u otras dificultades de lectura, incluyendo diferencias de idioma.

Con aplicaciones como Google Lens es posible apuntar o capturar con la cámara hacia señalética, cartas de restaurante, documentos u otros textos y la app superpone la traducción directamente sobre la imagen original, permitiendo que cualquier persona (viajeros, estudiantes y personas que viven en entornos multilingües) tenga una comprensión instantánea y accesible de su entorno.

La visión artificial mejora la accesibilidad para personas con discapacidades visuales o dificultades de lectura, y también posibilita herramientas de interacción útiles para cualquier persona.

Retos y oportunidades

A pesar de los avances es necesario reconocer, identificar y abordar las limitaciones y desafíos de la IA para la accesibilidad, incluyendo:

  • Brecha digital: Muchas personas no tienen acceso a la tecnología o al conocimiento necesarios para beneficiarse de estas herramientas.

    Una persona con discapacidad auditiva podría beneficiarse de esta tecnología y no poder aprovecharla por carecer de un móvil adecuado o de la capacitación tecnológica que necesita.
  • Sesgos en los modelos de IA: un corpus linguistico con insuficiente variedad de pronunciaciones y acentos, expresiones idiomáticas, jergas o matices culturales de diferentes idiomas y regiones puede dificultar la comprensión.

    Si un sistema de traducción no se ha entrenado con suficientes expresiones idiomáticas traducirá del inglés ‘You’re pulling my leg’ como ‘Me tiras de la pierna’ y no como ‘Me tomas el pelo’, perdiendo el sentido de la traducción.
  • Coste y dependencia tecnológica: Aunque muchas herramientas basadas en IA son accesibles desde el punto de vista técnico, su implementación puede requerir inversiones significativas en infraestructura, dispositivos, formación y mantenimiento.

    Para acceder a traducciones con IA puede ser necesario tener y saber manejar un ordenador o un smartphone, lo que no siempre está al alcance de todos.

Para superar estos desafíos es necesario promover una colaboración multidisciplinar entre desarrolladores, educadores, usuarios finales y organismos públicos. Además, los sistemas de IA deben ser evaluados continuamente. No solo en términos de rendimiento técnico, sino también en cuanto a su impacto social y ético.

Conclusión

La IA ofrece una oportunidad única para construir un mundo digital más accesible e inclusivo. Sin embargo, su implementación no está exenta de retos. Abordar de manera proactiva los desafíos éticos, técnicos y sociales es fundamental para asegurar que estas herramientas beneficien a todos, independientemente de sus capacidades o circunstancias.

Por tanto, el camino hacia la accesibilidad digital es una labor continua y colectiva que exige compromiso, innovación y sensibilidad. Estas herramientas tecnológicas también ayudan a cerrar brechas, mejorar vidas y abren la puerta a un futuro accesible para todos.