Inspirados por el modelado de lenguaje a gran escala, se aplica un enfoque similar para construir un único agente generalista más allá del procesamiento de texto. El agente, al que nos referimos como Gato, funciona como una entidad multimodal, multitarea y multientorno. La misma red con los mismos pesos puede reproducir Atari, subtitular imágenes, chatear, apilar bloques con un brazo robótico real y mucho más, decidiendo en función de su contexto si generar texto, torsión conjunta, pulsaciones de botones u otros tokens.
|
etiquetas: inteligencia artificial , general , transformer , deepmind , gato