Hace unos días OpenAI liberó información sobre su nuevo modelo de machine learning (NLP) denominado GPT-3. En concreto, nos vendieron en el paper la idea de que su modelo era revolucionario, y muchos medios se hicieron eco de éste hecho. Por ejemplo, el famoso canal en YouTube sobre ML, Dot CSV:
Sin embargo, parece que los chicos de OpenAI nos han vendido un poco de Hype a base de crear un modelo tan enorme, que es capaz (parece) simplemente de almacenar una cantidad de información enorme (indexada) entre sus nodos; pero que es muy poco probable que el modelo entienda (ni en lo más mínimo) el mundo o sea capaz de razonar sobre él, siendo en realidad posible que se trate simplemente del overfitting más gigantesco (y caro) de la historia del ML.
Aquí tenéis otro vídeo; uno del canal de Yannic Kilcher, donde viene mucho mejor explicado ésto que os digo:
En resumen este buen (y completo) vídeo viene a desmontar un poco que GPT-3 sea tan revolucionario como parecía a primera vista. Es cierto que cumple unas funciones hasta ahora nunca vistas en cuanto a capacidades few-shot, one-shot y zero-shot a la hora de resolver problemas para los que no fue entrenado en absoluto (no usa para nada fine-tuning), pero según el autor del vídeo enlazado, se trata de que el modelo es simplemente tan ENORME que tiene parámetros de sobra (175 mil millones) como para que las capas transformers puedan generar una especie de índice donde buscar información almacenada (overfitting) entre los propios nodos de la red. En concreto, parece que el modelo es capaz de "memorizar" de algún modo el billón de pares de texto que se le pasa a la red neuronal durante el entrenamiento.
Es decir, que parece que no es que el modelo comprenda, razone y deduzca a la hora de completar (autoregresivamente) a partir del texto de entrada (input) que se le pasa; sino que simplemente parece que usa ese texto de entrada como puntero con el que buscar entre sus miles de millones de parámetros la información almacenada (en ese supuesto overfitting) que mejor cuadra como salida (output).
El debate está de todas formas abierto y habrá que esperar a nuevas pruebas por parte del equipo de GPT-3 respecto a su defensa de que hay algo más que un gigantesco overfitting en su trabajo. Es sencillo de probar y el autor de este vídeo propone varios tests sencillos que decantarían la balanza de uno u otro lado.