En la revolución tecnológica de la IA hay cada vez más actores ya que ningún gigante quiere perderse sus beneficios. En los últimos años, hemos visto llegar con fuerza a ChatGPT, Gemini o Copilot, todos de la mano de grandes empresas norteamericanas.

Recientemente hemos atestiguado la respuesta oriental de la mano de DeepSeek, la nueva IA llegada de China. La siguiente en llegar será UI-TARS, la IA de los dueños de ByteDance, que no es otra sino la creadora de TikTok.

¿Qué es UI-TARS?

UI-TARS es una inteligencia artificial desarrollada por ByteDance, la empresa detrás de TikTok, en colaboración con la Universidad de Tsinghua. Este modelo, cuyo nombre parece inspirado en el robot TARS de la películas Interstellar, supone otro avance importante en la interacción automatizada con interfaces gráficas de usuario (GUI, por sus siglas en inglés).

UI TARS

También te puede interesar: Herramientas de inteligencia artificial gratis y alucinantes

A diferencia de otros sistemas de IA que se limitan a procesar texto o responder preguntas, UI-TARS está diseñado para entender y manipular entornos visuales de manera autónoma, como si fuera humano. Es decir, podrá navegar por aplicaciones de escritorio y móviles hasta realizar tareas complejas en sitios web, como realizar una compra online, por ejemplo.

Otra diferencia con los modelos más conocidos como ChatGPT o Grok3 es que en lugar de depender de módulos separados para percepción, razonamiento y acción, UI-TARS integra todas estas capacidades en un solo sistema basado en un modelo de visión-lenguaje (VLM, por sus siglas en inglés).

A nivel técnico, UI-TARS ha sido construido sobre la base de Qwen2-VL, un modelo previo de ByteDance, con un conjunto masivo de aproximadamente 50 mil millones de tokens, lo que le permite procesar entradas multimodales, como texto, imágenes e interacciones, para comprender interfaces dinámicas en tiempo real.

Esto se traduce en que la IA podrá adaptarse a diferentes plataformas como Windows, macOS, Android y navegadores web, con acciones específicas como clics, pulsaciones largas o uso de teclas rápidas.

IA

Aprende de sus errores

UI-TARS utiliza una técnica conocida como reflection tuning, mediante la cual el modelo aprende de sus propios errores. Por ejemplo, si falla al intentar instalar una extensión en Visual Studio Code, analiza el problema y ajusta su estrategia en consecuencia. Este aprendizaje continuo le permite mejorar su desempeño con el tiempo y enfrentarse a situaciones imprevistas con mínima supervisión humana. Según Bytedance, UI-TARS cuenta con memoria a corto y largo plazo, lo que le ayuda a recordar interacciones pasadas y mantener el contexto durante tareas complejas.

La intención de la empresa es lanzarla de manera global durante este año, lo que supone un nuevo actor en la batalla entre OpenAI, Microsoft o Google. La compañía quiere que se pueda usar esta IA de forma gratuita, de hecho ha abierto el código de este modelo y lo ha publicado en plataformas como GitHub y Hugging Face, lo que sin duda va a fomentar su uso y desarrollo.

En MASMOVIL esperamos que te haya resultado interesante conocer UI-TARS, una IA que pretende revolucionarlo todo. Queda por ver cómo evoluciona su desarrollo y lo preparados que están para hacerle frente otros gigantes como OpenAI o Google.

Y tú, ¿habías oído hablar de UI-TARS?