Los investigadores de Apple han desarrollado una IA llamada ReALM (Reference Resolution As Language Modeling), que puede comprender el habla y el contexto de fondo, así como referencias ambiguas a elementos en la pantalla. ReALM también se describe como un nuevo sistema de inteligencia artificial que permite interacciones más naturales con asistentes de voz como Siri. Además, se destaca que la herramienta es más pequeña y más rápida que GPT-4 desarrollada por OpenAI.
Inteligencia artificial ReALM de Apple
Según el artículo de investigación, el sistema, llamado Apple ReALM, utiliza grandes modelos de lenguaje para transformar referencias complejas, incluida la comprensión de referencias a elementos visuales en la pantalla (como «esto» o «aquello»), en un problema de modelado de lenguaje puro. Esto permite a ReALM lograr importantes mejoras de rendimiento en comparación con los métodos existentes.
Al hablar con asistentes inteligentes como Siri, los usuarios pueden proporcionar referencias contextuales a tareas en segundo plano o datos que se encuentran actualmente en la pantalla. Mientras que los métodos de análisis tradicionales se basan en modelos y materiales de referencia increíblemente grandes, como imágenes, Apple adopta un enfoque más simple al convertir todo en texto.
Por lo tanto, ReALM puede exhibir rendimientos similares a GPT-4 con menos parámetros. Esto allana el camino para la herramienta en dispositivos con hardware limitado, como el iPhone. La investigación también muestra que al aumentar los parámetros utilizados en ReALM, proporciona un rendimiento significativamente mejor que GPT-4. Como dijimos anteriormente, esta diferencia de rendimiento surge de la diferencia fundamental entre los dos modelos. Mientras que GPT-4 se basa en el análisis de imágenes para comprender la información en la pantalla, ReALM prefiere un enfoque orientado al texto.
El hecho de que ReALM sea un modelo pequeño también lo hace menos propenso a sufrir alucinaciones. Por ahora, no está claro en qué forma se utilizará ReALM, pero el escenario de uso más básico es su inclusión en Siri. Un escenario de uso de ejemplo es cuando le dices «llamar a una empresa» a Siri mientras navegas por un sitio web y luego, gracias a ReALM, Siri detecta el número de la empresa en la página e inicia la llamada.
Aún así, los investigadores advierten que confiar en el análisis automático de pantallas tiene sus limitaciones. Abordar referencias visuales más complejas, como distinguir entre múltiples imágenes, probablemente requerirá la inclusión de visión por computadora y técnicas multimodales.