Pontos fortes e fracos de grandes modelos de linguagem

Ou por que a Super IA exigirá um tipo diferente de tecnologia.

Vamos pular as longas introduções e ir direto ao ponto: a principal vantagem dos grandes modelos de linguagem (LLMs) é que quase tudo no mundo pode, de alguma forma, ser descrito por meio de texto. E, ao mesmo tempo, essa é a sua maior limitação.

O texto é um código universal — uma invenção brilhante da mente humana que nos permite descrever praticamente qualquer coisa e preservar essa descrição para que outros possam compreendê-la. E não são apenas os humanos que conseguem entendê-lo — as máquinas também. Usando apenas texto, grandes modelos de linguagem podem interagir com pessoas e com o mundo ao seu redor. Descreva fatos, objetos, eventos ou fenômenos em palavras e frases, e o modelo poderá "captá-los". Em certo sentido, é possível construir uma "máquina inteligente" sem sentidos, uma que experimenta o mundo inteiramente como texto.

Por outro lado, qualquer descrição textual é inerentemente aproximada. Não importa o quão detalhistas tentemos ser, o texto sozinho nunca conseguirá capturar tudo perfeitamente. Considere uma maçã, por exemplo. Imagine tentar descrever sua superfície sob uma lupa — a forma e o tamanho de cada partícula e cada veia. Agora imagine fazer a mesma coisa sob um microscópio. Isso exigiria milhares de palavras — e isso considerando apenas a superfície, uma pequena parte da maçã. Em resumo, o texto só pode fornecer uma imagem parcial de um objeto ou fenômeno, buscando um equilíbrio entre precisão e concisão.

Para os humanos, isso não é um grande problema. O texto geralmente serve como uma pista, e preenchemos o resto com experiência e imaginação. As máquinas, no entanto, não têm "fundamento" na realidade — nenhuma experiência direta do mundo. Elas não têm sentidos para percebê-lo em primeira mão. Como resultado, o conhecimento que os modelos baseados em LLM têm sobre o mundo é limitado. Eles simplesmente carecem de detalhes minuciosos.

Além disso, a maior parte do treinamento e reciclagem deles é baseada em dados da internet. Isso significa que muitas das informações que aprendem não podem ser consideradas realmente "qualificadas, precisas ou detalhadas". E vale ressaltar que uma parcela crescente do conteúdo online é gerada por IA.

Se tentássemos treinar uma IA baseada em Modelos de Aprendizagem Baseados em Aprendizagem (LLMs) para que sua compreensão do mundo e percepção da realidade fossem minimamente comparáveis ​​às de um ser humano, precisaríamos de uma quantidade enorme de texto — descrições meticulosamente detalhadas de tudo o que uma pessoa consegue aprender com um simples olhar ou alguns segundos manuseando um objeto. Claramente — e o exemplo da maçã acima ilustra isso perfeitamente — essa abordagem seria extremamente trabalhosa e, no fim, um beco sem saída. Consumiria vastos recursos e eventualmente atingiria um limite, mas o nível de detalhamento ainda estaria muito aquém do necessário para dar à máquina uma compreensão da realidade semelhante à humana.

A conclusão é simples. Os LLMs podem ser usados ​​para construir diversos modelos de IA especializados. Mas eles não são adequados para criar uma IA geral completa, capaz de executar todas as tarefas humanas, mesmo em um nível mediano. E, claro, não são adequados para criar uma IA geral robusta que possa superar especialistas humanos em todos os domínios.

Resumindo, os Modelos de Aprendizagem Baseados em Lógica (LLMs) são uma ferramenta incrível e versátil, construída sobre outra ferramenta versátil: o texto. Ainda há muito espaço para aprimorá-los e expandir as formas como podemos usá-los. Mas, mesmo agora, é evidente que eles têm sérias limitações que os tornam uma base inadequada para a criação de IA geral, muito menos de uma IA poderosa e sobre-humana.

Parece provável que a solução desse desafio exija um tipo diferente de modelo — um que possa aprender por meio da interação direta com o mundo real, usando algo semelhante aos sentidos humanos. Dito isso, é razoável esperar que os Modelos de Aprendizagem Baseados em Aprendizagem (LLMs) ainda desempenhem um papel importante nesses sistemas futuros.

O tema dos modelos avançados de IA é tão fascinante que merece uma discussão à parte.