Alternativas de código aberto para GPT: elas podem realmente competir?
IA aberta Ele é amplamente conhecido na área de Inteligência Artificial Gerativa, mas não é o único jogador no jogo. Existem alternativas de código aberto ao GPT que oferecem desempenho semelhante, maior transparência e menor necessidade de poder computacional. Essas alternativas são atrativas para aqueles usuários que valorizam a privacidade de seus dados e desejam ter mais controle sobre o processo de treinamento. Mas eles podem realmente competir com os modelos OpenAI?
Desafios e medos na adoção de IA generativa
A IA generativa é a tendência tecnológica do ano, atraindo enorme atenção, investimento e financiamento. Contudo, a sua adoção não está isenta de preocupações e incertezas. Embora ofereça benefícios significativos, como eficiência e economia de custos, você também ouve notícias sobre violações de dados, ações judiciais contra empresas de IA generativa e proibições de ferramentas como o ChatGPT devido a questões de segurança de dados.
O código aberto pode ser a solução?
O código aberto pode ser a solução para esses desafios e medos. Neste artigo, exploraremos as alternativas disponíveis para ChatGPT e os modelos básicos GPT. Um relatório recente da Digital Ocean mostra que mais de 30% de startups e PMEs e 28% de corporações escolhem soluções de código aberto para metade do seu software. Além disso, 80% das empresas pesquisadas esperam aumentar esses valores para tecnologias emergentes. Para aqueles que já adotaram o código aberto, é uma parte fundamental de sua estratégia de segurança.
Flexibilidade e personalização
A segunda razão, declarada por 79% daqueles que usam soluções de código aberto em suas empresas, é que o código aberto oferece flexibilidade para personalizar soluções para atender às necessidades específicas e padrão da empresa. No caso da IA generativa, é particularmente importante monitorizar o processo de formação e compreender potenciais preconceitos.
Alternativas populares para GPT
Chamadas
LLaMA, desenvolvido no Meta AI Research Lab, é um dos modelos de código aberto mais importantes. Embora os seus parâmetros possam parecer menos impressionantes em comparação com os do GPT-4 ou GPT-3, não devem ser subestimados. Apesar de terem menos parâmetros, os modelos LLaMA foram treinados com um número maior de tokens, o que significa que são mais fáceis de treinar e ajustar para casos de uso específicos. Como resultado, o LLaMA-13B supera o GPT-3 em tarefas de raciocínio de bom senso. No entanto, o acesso ao LLaMA é limitado a pesquisadores acadêmicos, organizações afiliadas ao governo, sociedade civil e laboratórios de pesquisa, caso a caso.
OPTAR
O modelo de linguagem Open Pretrained Transformer (OPT), lançado pela Meta em maio de 2022, contém parâmetros 175B (iguais ao GPT-3) e foi treinado em vários conjuntos de dados públicos. Infelizmente, assim como o LLaMA, o OPT está atualmente disponível para fins de pesquisa apenas sob uma licença não comercial.
MPT-7B
MPT-7B faz parte dos modelos MosaicPretrainedTransformer (MPT) desenvolvidos pela MosaicML. Ele foi treinado em texto e tokens de código em inglês 1T; diz-se que está otimizado para treinamento e inferência eficientes e, devemos admitir, parece muito promissor como uma alternativa de código aberto ao GPT.
GPT-J e GPT-NeoX
GPT-J e GPT-NeoX são modelos de geração de texto desenvolvidos pela EleutherAI. Apesar de serem menores em tamanho, esses modelos oferecem desempenho quase idêntico aos modelos OpenAI Babbage e Curie (família GPT-3) em tarefas de modelagem de linguagem padrão. O melhor de tudo é que esses modelos são totalmente gratuitos e permitem uso comercial.
Boneca
Dolly é outro modelo de linguagem de código aberto que pode ser usado em chatbots, resumos de texto e em mecanismos de pesquisa básicos. Importante observar que ele está licenciado para pesquisa e uso comercial.
Chatbots do tipo ChatGPT construídos com modelos generativos de IA
Alpaca
Alpaca, desenvolvido como um projeto de pesquisa na Universidade de Stanford, aborda o problema crescente de alucinações e preconceitos em modelos generativos de IA. Contudo, seu uso é limitado à pesquisa acadêmica e o uso comercial é proibido.
vicunha
Vicuna, desenvolvido pela equipe da UC Berkeley, CMU, Stanford e UC San Diego, foi treinado ajustando o LLaMA em 70 mil conversas compartilhadas por usuários coletadas do ShareGPT com APIs públicas. Embora use menos parâmetros do que ChatGPT (13B vs. 175B), Vicuna foi classificado como um “chatbot de código aberto que impressiona GPT-4 a 90% com qualidade ChatGPT” e teve um bom desempenho nos testes.
GPT4Todos
GPT4All, desenvolvido pela Nomic AI, foi ajustado a partir do modelo LLaMA e treinado em um corpus selecionado de interações de assistentes, incluindo código, histórias, descrições e diálogos multivoltas. GPT4All é um ecossistema de software de código aberto que permite a qualquer pessoa treinar e implantar modelos de linguagem grandes e poderosos em hardware do dia a dia.
OpenAssistant
OpenAssistant é um projeto lançado há apenas um mês pela Rede Aberta de Inteligência Artificial em Grande Escala (LAION) e mais de 13.000 voluntários em todo o mundo. O seu objetivo é democratizar a IA generativa e evitar que grandes corporações monopolizem o mercado de modelos de linguagem. Eles planejam abrir o código-fonte de todos os seus modelos, conjuntos de dados e o processo de coleta de dados de forma totalmente transparente.
considerações finais
O principal problema com alternativas de código aberto aos modelos básicos ChatGPT e GPT é que elas são desenvolvidas principalmente como projetos de pesquisa. Eles são destinados a pesquisadores, acadêmicos e amadores em processamento de linguagem natural, aprendizado de máquina e inteligência artificial, e não a usuários comerciais. Embora estes modelos contribuam para o desenvolvimento do campo da IA generativa, o número de alternativas de código aberto que podem ser utilizadas comercialmente é limitado e não inclui os modelos mais poderosos.
No entanto, os benefícios da utilização de modelos de código aberto podem compensar o seu menor desempenho em alguns casos. Esses modelos podem ser desenvolvidos e ajustados dentro das organizações para alcançar bons resultados em casos de uso específicos. LLaMA, desenvolvido pela Meta, é um dos modelos de código aberto mais proeminentes. Embora os seus parâmetros possam não parecer tão impressionantes como os do GPT-4 ou GPT-3, não devem ser subestimados. Apesar de terem menos parâmetros, os modelos LLaMA foram treinados com um número maior de tokens, o que significa que são mais fáceis de treinar e ajustar para casos de uso específicos. Como resultado, o LLaMA-13B supera o GPT-3 em tarefas de raciocínio de bom senso.
Conclusão
Concluindo, embora as alternativas de código aberto à GPT possam não ser tão poderosas quanto os modelos OpenAI, elas oferecem uma série de vantagens que podem torná-las atraentes para determinados usuários e empresas. No entanto, é importante ter em mente que a adoção da IA generativa não está isenta de desafios e receios, e que a escolha do modelo correto dependerá das necessidades e prioridades específicas de cada utilizador ou empresa.