Você está interessado neles OFERTAS? Economize com nossos cupons em WhatsApp o TELEGRAMA!

O que é Mamba, a arquitetura que visa superar completamente o GPT. Nova era da IA?

Janeiro 18 2024

uma cobra digital representa simbolicamente a arquitetura Mamba em inteligência artificial

Hoje quero ser um pouco mais técnico. Falamos todos os dias sobre inteligência artificial, mas é certo saber em que se baseia e como funciona. Neste sentido quero apresentar-lhe Mamba, uma nova arquitetura que promete mudar modelos linguísticos como os conhecemos hoje. As funcionalidades do Mamba, comparadas às do GPT, são extremamente superiores, assim como o que ele permite fazer.

Mamba é um novo horizonte para a inteligência artificial

A arquitetura Transformer, introduzida em 2016 através do artigo “Atenção é tudo que você precisa” do Google, representou um avanço para os modelos de linguagem, permitindo-lhes manter o contexto nas interações. Resumindo: arquitetura Transformer é um modelo de IA usado para criar modelos como GPT (Transformador Pré-treinado Gerativo).

COMO FUNCIONA A ARQUITETURA DE TRANSFORMADORES

O coração da arquitetura do Transformer é o mecanismo de “atenção“, que permite ao modelo focar em partes específicas de um texto enquanto gera ou processa outro. Este mecanismo torna os Transformers particularmente eficazes na compreensão do contexto e das relações complexas dentro de um texto. Na prática modelos baseados na arquitetura Transformer como GPT eles aprendem a gerar e compreender a linguagem através de dois estágios principais: treinamento (treinamento) e inferência (geração de texto).
Durante o treinamento, o modelo é treinado em grandes conjuntos de dados de texto para compreender estruturas linguísticas, relações entre palavras, contexto, etc. Em fase de inferência, o modelo usa o que aprendeu para gerar novos textos, responder perguntas, traduzir idiomas e outras tarefas de processamento de idiomas.

No entanto, o surgimento do Mamba poderá marcar o início de uma nova era. Esta arquitetura promete ser mais eficiente, capaz de superar alguns desafios importantes enfrentados pelos modelos atuais, como o GPT. Especificamente, três aspectos principais fazem do Mamba uma arquitetura promissora:

custos de inferência reduzidos: Um aspecto fundamental do Mamba é a redução significativa nos custos de inferência. Como disse antes, inferência é o processo pelo qual um modelo de IA, depois de treinado, aplica o que aprendeu a novos dados, gerando textos ou imagens. Em modelos complexos como GPT-3 ou GPT-4, este processo pode ser caro em termos de recursos computacionais. Mamba promete reduzir esses custos em até cinco vezes em comparação com modelos baseados em Transformer, que podem ter um impacto significativo, especialmente para aplicações que requerem geração de respostas rápidas ou que trabalham com grandes conjuntos de dados;
custo de cálculo de atenção linear: A segunda vantagem do Mamba diz respeito à eficiência no cálculo da atenção. Nos modelos de transformadores, o custo aumenta virtualmente (justamente ao nível do poder, não é uma figura de linguagem) à medida que aumenta a extensão do texto. Isso significa que quanto maior o texto, mais recursos serão necessários para processá-lo, limitando a praticidade dos modelos em algumas aplicações. Mamba propõe uma solução onde o custo cresce linearmente comparado ao tamanho da janela de atenção, tornando o processamento de textos longos mais gerenciável e menos oneroso em termos computacionais;
entrada extremamente maior: Mamba poderia lidar com uma janela de entrada máxima até 1 milhão de tokensn, muito mais do que é possível com a arquitetura Transformer. Isto significa que o Mamba poderia, teoricamente, analisar e compreender textos extremamente longos, como livros inteiros, mantendo a coerência e os detalhes no contexto. Por exemplo, ele pode analisar um romance inteiro, mantendo uma compreensão clara dos personagens, enredo e temas do início ao fim.

Apesar das promessas de Mamba, o papel Solleva dúvidas sobre sua escalabilidade, principalmente quando comparado a modelos massivos como o GPT-4, que possui 175 bilhões de parâmetros. Escalabilidade, em termos muito simples, refere-se a a capacidade de um sistema de lidar com um aumento no trabalho ou crescer em tamanho sem perder eficácia. Imagine um pequeno restaurante que vai bem com poucos clientes. Se o restaurante se popularizar e começar a ter muito mais clientes, deverá conseguir lidar com esse aumento sem comprometer a qualidade do serviço ou da comida. Se tiver sucesso, então é “escalável”.

Mamba, em seu estado atual, foi testado apenas com 3 bilhões de parâmetros. Assim, permanece incerto se o seu desempenho e eficiência podem ser mantidos ou melhorados quando dimensionados para tamanhos maiores.