OpenAI lanza GPT-4o: la inteligencia artificial que combina texto, audio e imagen con rapidez casi humana!

La nueva versión del modelo de lenguaje ofrece mejoras significativas y accesibilidad gratuita.

OpenAI ha presentado su innovador modelo de Inteligencia Artificial, GPT-4o, que se destaca por aceptar y procesar de manera nativa cualquier combinación de texto, audio e imagen. Este avance permite al modelo responder a una entrada de voz en apenas 232 milisegundos, con un promedio de 320 milisegundos, acercándose así a la velocidad de respuesta humana.

Un modelo omnicanal

GPT-4o, donde la «o» significa «omni«, es un modelo de lenguaje que maneja diferentes modalidades de forma nativa. Esto significa que puede comprender y generar combinaciones de texto, audio e imagen con gran rapidez. Según la CTO de OpenAI, Mira Muratyi, esta capacidad representa un avance significativo en la interacción persona-computadora.

El modelo no solo procesa audio con gran velocidad, sino que también ofrece una mejora notable en la traducción y procesamiento de texto en varios idiomas. Comparado con versiones anteriores, GPT-4o es más rápido y un 50% más económico en la API, especialmente en traducción en tiempo real.

Captura de pantalla del video de presentación.

Evolución hacia una interacción más natural

OpenAI ha trabajado en la evolución de sus modelos anteriores para crear GPT-4o. Mientras que las versiones anteriores utilizaban una canalización de tres modelos separados para transcribir y generar audio, GPT-4o unifica este proceso en un único modelo de principio a fin. Esto permite que todas las entradas y salidas de texto, audio y voz sean procesadas por la misma red neuronal, proporcionando respuestas más realistas y naturales.

Seguridad y pruebas exhaustivas

El desarrollo de GPT-4o ha seguido el principio de seguridad por diseño, utilizando técnicas como el filtrado de datos y pruebas rigurosas de las distintas versiones del modelo. OpenAI ha contado con la supervisión de más de 70 especialistas en campos como la psicología y la desinformación para identificar y mitigar los riesgos asociados con las nuevas modalidades del modelo.

Disponibilidad y acceso gratuito

Debido a los riesgos asociados con la entrada y salida de audio, por el momento GPT-4o solo admite texto e imagen. Sin embargo, OpenAI está trabajando en la infraestructura y seguridad necesarias para habilitar la modalidad de voz en el futuro cercano.

GPT-4o se lanzará de manera iterativa y gratuita para los suscriptores de ChatGPT Plus, con una versión alfa de la modalidad de voz prevista para las próximas semanas. Los desarrolladores ya pueden acceder a la API del modelo para probar las modalidades de texto e imagen.

Aunque no se ha especificado una fecha exacta de lanzamiento, OpenAI ha asegurado que el nuevo modelo estará disponible en pocas semanas. Los usuarios podrán acceder a GPT-4o a través de la página oficial de OpenAI, registrándose y seleccionando la opción «ChatGPT-4o» cuando esté habilitada.

Este lanzamiento marca un paso importante hacia una interacción más fluida y natural entre humanos y sistemas de inteligencia artificial, con un modelo que promete revolucionar el uso de IA en diversas aplicaciones.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *