OpenAI lanza GPT-4o: la inteligencia artificial que combina texto, audio e imagen con rapidez casi humana!
La nueva versión del modelo de lenguaje ofrece mejoras significativas y accesibilidad gratuita.
OpenAI ha presentado su innovador modelo de Inteligencia Artificial, GPT-4o, que se destaca por aceptar y procesar de manera nativa cualquier combinación de texto, audio e imagen. Este avance permite al modelo responder a una entrada de voz en apenas 232 milisegundos, con un promedio de 320 milisegundos, acercándose así a la velocidad de respuesta humana.
Un modelo omnicanal
GPT-4o, donde la «o» significa «omni«, es un modelo de lenguaje que maneja diferentes modalidades de forma nativa. Esto significa que puede comprender y generar combinaciones de texto, audio e imagen con gran rapidez. Según la CTO de OpenAI, Mira Muratyi, esta capacidad representa un avance significativo en la interacción persona-computadora.
El modelo no solo procesa audio con gran velocidad, sino que también ofrece una mejora notable en la traducción y procesamiento de texto en varios idiomas. Comparado con versiones anteriores, GPT-4o es más rápido y un 50% más económico en la API, especialmente en traducción en tiempo real.
![](https://www.cincodias.com.ar/wp-content/uploads/2024/05/chatgpt4o-300x194.png)
Evolución hacia una interacción más natural
OpenAI ha trabajado en la evolución de sus modelos anteriores para crear GPT-4o. Mientras que las versiones anteriores utilizaban una canalización de tres modelos separados para transcribir y generar audio, GPT-4o unifica este proceso en un único modelo de principio a fin. Esto permite que todas las entradas y salidas de texto, audio y voz sean procesadas por la misma red neuronal, proporcionando respuestas más realistas y naturales.
Seguridad y pruebas exhaustivas
El desarrollo de GPT-4o ha seguido el principio de seguridad por diseño, utilizando técnicas como el filtrado de datos y pruebas rigurosas de las distintas versiones del modelo. OpenAI ha contado con la supervisión de más de 70 especialistas en campos como la psicología y la desinformación para identificar y mitigar los riesgos asociados con las nuevas modalidades del modelo.
Disponibilidad y acceso gratuito
Debido a los riesgos asociados con la entrada y salida de audio, por el momento GPT-4o solo admite texto e imagen. Sin embargo, OpenAI está trabajando en la infraestructura y seguridad necesarias para habilitar la modalidad de voz en el futuro cercano.
GPT-4o se lanzará de manera iterativa y gratuita para los suscriptores de ChatGPT Plus, con una versión alfa de la modalidad de voz prevista para las próximas semanas. Los desarrolladores ya pueden acceder a la API del modelo para probar las modalidades de texto e imagen.
Aunque no se ha especificado una fecha exacta de lanzamiento, OpenAI ha asegurado que el nuevo modelo estará disponible en pocas semanas. Los usuarios podrán acceder a GPT-4o a través de la página oficial de OpenAI, registrándose y seleccionando la opción «ChatGPT-4o» cuando esté habilitada.
Este lanzamiento marca un paso importante hacia una interacción más fluida y natural entre humanos y sistemas de inteligencia artificial, con un modelo que promete revolucionar el uso de IA en diversas aplicaciones.