Alternativas de código abierto a GPT: ¿Pueden competir realmente?

OpenAI es ampliamente conocido en el campo de la Inteligencia Artificial generativa, pero no es el único jugador en el juego. Existen alternativas de código abierto a GPT que ofrecen un rendimiento similar, mayor transparencia y un menor requerimiento de potencia computacional. Estas alternativas son atractivas para aquellos usuarios que valoran la privacidad de sus datos y desean tener un mayor control sobre el proceso de entrenamiento. Pero, ¿pueden realmente competir con los modelos de OpenAI?

Desafíos y temores en la adopción de IA generativa

La IA generativa es la tendencia tecnológica del año, atrayendo una gran atención, inversión y financiación. Sin embargo, su adopción no está exenta de preocupaciones e incertidumbres. Aunque ofrece beneficios significativos, como la eficiencia y el ahorro de costos, también se escuchan noticias sobre filtraciones de datos, demandas contra empresas de IA generativa y prohibiciones de herramientas como ChatGPT debido a preocupaciones de seguridad de datos.

¿Puede el código abierto ser la solución?

El código abierto puede ser la solución a estos desafíos y temores. En este artículo, exploraremos las alternativas disponibles a ChatGPT y los modelos base de GPT. Un informe reciente de Digital Ocean muestra que más del 30% de las startups y las PYMES y el 28% de las corporaciones eligen soluciones de código abierto para la mitad de su software. Además, el 80% de las empresas encuestadas esperan aumentar estos valores para las tecnologías emergentes. Para aquellos que ya han optado por el código abierto, es una parte clave de su estrategia de seguridad.

Flexibilidad y personalización

La segunda razón, declarada por el 79% de aquellos que utilizan soluciones de código abierto en sus empresas, es que el código abierto proporciona flexibilidad para personalizar soluciones para satisfacer necesidades específicas y estándares de la empresa. En el caso de la IA generativa, es particularmente importante supervisar el proceso de entrenamiento y entender los posibles sesgos.

Alternativas populares a GPT

LLaMA

LLaMA, desarrollado en el laboratorio de investigación de IA de Meta, es uno de los modelos de código abierto más importantes. Aunque sus parámetros pueden parecer menos impresionantes en comparación con los de GPT-4 o GPT-3, no hay que subestimarlo. A pesar de tener menos parámetros, los modelos LLaMA fueron entrenados con un mayor número de tokens, lo que significa que son más fáciles de reentrenar y ajustar para casos de uso específicos. Como resultado, LLaMA-13B supera a GPT-3 en las tareas de razonamiento de sentido común. Sin embargo, el acceso a LLaMA está limitado a investigadores académicos, organizaciones afiliadas al gobierno, la sociedad civil y laboratorios de investigación, caso por caso.

OPT

El modelo de lenguaje Transformer Preentrenado Abierto (OPT), lanzado por Meta en mayo de 2022, contiene 175B parámetros (igual que GPT-3) y fue entrenado en múltiples conjuntos de datos públicos. Desafortunadamente, al igual que LLaMA, OPT está actualmente disponible solo para fines de investigación bajo una licencia no comercial.

MPT-7B

MPT-7B es parte de los modelos MosaicPretrainedTransformer (MPT) desarrollados por MosaicML. Fue entrenado en 1T de tokens de texto y código en inglés; se dice que está optimizado para un entrenamiento e inferencia eficientes y, debemos admitirlo, parece muy prometedor como alternativa de código abierto a GPT.

GPT-J y GPT-NeoX

GPT-J y GPT-NeoX son modelos de generación de texto desarrollados por EleutherAI. A pesar de ser más pequeños en tamaño, estos modelos ofrecen un rendimiento casi idéntico a los modelos Babbage y Curie de OpenAI (familia GPT-3) en tareas estándar de modelado de lenguaje. Lo mejor de todo es que estos modelos son completamente gratuitos para usar y permiten el uso comercial.

Dolly

Dolly es otro modelo de lenguaje de código abierto que se puede utilizar en chatbots, resúmenes de texto y potenciar motores de búsqueda básicos. Importante destacar que está licenciado para uso de investigación y comercial.

Chatbots tipo ChatGPT construidos con modelos de IA generativa

Alpaca

Alpaca, desarrollado como un proyecto de investigación en la Universidad de Stanford, aborda el problema creciente de alucinaciones y sesgos en los modelos de IA generativa. Sin embargo, su uso está limitado a la investigación académica y está prohibido su uso comercial.

Vicuna

Vicuna, desarrollado por el equipo de UC Berkeley, CMU, Stanford y UC San Diego, fue entrenado ajustando LLaMA en 70K conversaciones compartidas por usuarios recopiladas de ShareGPT con APIs públicas. Aunque utiliza menos parámetros que ChatGPT (13B en comparación con 175B), Vicuna fue presentado como un «chatbot de código abierto que impresiona a GPT-4 con calidad de ChatGPT al 90%» y obtuvo buenos resultados en las pruebas realizadas.

GPT4All

GPT4All, desarrollado por Nomic AI, fue ajustado a partir del modelo LLaMA y entrenado en un corpus curado de interacciones de asistentes, incluyendo código, historias, descripciones y diálogo de múltiples turnos. GPT4All es un ecosistema de software de código abierto que permite a cualquiera entrenar y desplegar modelos de lenguaje grandes y potentes en hardware cotidiano.

OpenAssistant

OpenAssistant es un proyecto lanzado hace solo un mes por Large-scale Artificial Intelligence Open Network (LAION) y más de 13,000 voluntarios en todo el mundo. Su objetivo es democratizar la IA generativa y prevenir que las grandes corporaciones monopolicen el mercado de modelos de lenguaje. Planean hacer de código abierto todos sus modelos, conjuntos de datos y el proceso de recopilación de datos completamente transparente.

Consideraciones finales

El principal problema con las alternativas de código abierto a ChatGPT y los modelos base de GPT es que se desarrollan principalmente como proyectos de investigación. Están destinados a investigadores, académicos y aficionados en procesamiento de lenguaje natural, aprendizaje automático e inteligencia artificial, y no a usuarios comerciales. Aunque estos modelos contribuyen al desarrollo del campo de la IA generativa, el número de alternativas de código abierto que se pueden utilizar comercialmente es limitado y no incluye los modelos más potentes.

Sin embargo, los beneficios de utilizar modelos de código abierto pueden superar su menor rendimiento en algunos casos. Estos modelos pueden ser desarrollados y ajustados dentro de las organizaciones para lograr buenos resultados en casos de uso específicos. LLaMA, desarrollado por Meta, es uno de los modelos de código abierto más destacados. Aunque sus parámetros pueden no parecer tan impresionantes como los de GPT-4 o GPT-3, no hay que subestimarlo. A pesar de tener menos parámetros, los modelos LLaMA fueron entrenados con un mayor número de tokens, lo que significa que son más fáciles de reentrenar y ajustar para casos de uso específicos. Como resultado, LLaMA-13B supera a GPT-3 en las tareas de razonamiento de sentido común.

Conclusión

En conclusión, aunque las alternativas de código abierto a GPT pueden no ser tan potentes como los modelos de OpenAI, ofrecen una serie de ventajas que pueden hacerlas atractivas para ciertos usuarios y empresas. Sin embargo, es importante tener en cuenta que la adopción de la IA generativa no está exenta de desafíos y miedos, y que la elección del modelo correcto dependerá de las necesidades y prioridades específicas de cada usuario o empresa.