OpenAI reveló un nuevo modelo de inteligencia artificial que modificará la manera en la que los usuarios interactuarán con ChatGPT. El chatbot ahora tendrá la capacidad de hablar para responder a las peticiones de los usuarios, además de ser capaz de entender contenido en video y texto.
“Esta actualización es mucho más rápida y mejora las capacidades en texto, visión y audio”, aseguró la CTO de OpenAI, Mira Murati, durante el evento en el que la compañía reveló y mostró como funcionará esta actualización que llegará de forma gratuita para todos los usuarios.
ChatGPT ahora tiene voz
Una de las características más interesantes de GPT-4o es su capacidad “nativamente multimodal”. Esto significa que el modelo puede generar contenido o comprender comandos en voz, texto o imágenes, lo que abre un abanico de posibilidades en la interacción entre humanos y la IA.
Antes del lanzamiento de GPT-4o, surgieron especulaciones sobre los planes de OpenAI, desde la creación de un motor de búsqueda de IA para competir con Google, hasta la introducción de un asistente de voz integrado en GPT-4, o incluso un modelo completamente nuevo, GPT-5.
Sin embargo, con el anuncio de GPT-4o, OpenAI quiso enfocarse completamente en la experiencia de usuario, ya que básicamente son las mismas posibilidades de generar contenido que la versión tradicional, pero con el añadido de hacerlo mediante voz.
Anteriormente, la interacción con ChatGPT se limitaba principalmente al texto, pero con la introducción de la voz, los usuarios ahora pueden comunicarse con el sistema de manera más intuitiva y natural. Esto se logra gracias a la capacidad de GPT-4o para procesar y generar respuestas en tiempo real, incluso captando la emoción en la voz del usuario y reproduciéndola en diferentes estilos emotivos.
En términos de disponibilidad, OpenAI ha confirmado que GPT-4o estará disponible de forma gratuita para todos los usuarios de ChatGPT. Además, los usuarios pagos disfrutarán de límites de capacidad hasta cinco veces mayores que los usuarios gratuitos.
La implementación de la voz en ChatGPT no solo mejora la experiencia del usuario, sino que también amplía significativamente las capacidades de la plataforma. Ahora, ChatGPT no solo puede responder a consultas de texto, sino que también puede comprender y generar respuestas en función de comandos de voz, lo que lo convierte en una herramienta aún más versátil y poderosa.
Además de la voz, GPT-4o también mejora las capacidades de ChatGPT en el ámbito de la visión. Ahora, el sistema puede analizar imágenes o capturas de pantalla y proporcionar información relevante o respuestas a consultas específicas.
Esta funcionalidad no solo facilita la interacción con ChatGPT, sino que también lo convierte en una herramienta más completa y útil para una variedad de aplicaciones y escenarios.
Los desarrolladores también se beneficiarán enormemente de la disponibilidad de GPT-4o a través de la API de OpenAI. Esta API, que ofrece acceso al modelo a mitad de precio y el doble de rapidez que GPT-4 Turbo, permitirá a los desarrolladores integrar la capacidad de voz en sus propias aplicaciones y sistemas, abriendo nuevas posibilidades en el desarrollo de aplicaciones de IA.
En desarrollo…