Presentación de la nueva versión de ChatGPT, GPT-4o (Foto: OpenAI)

La nueva versión de ChatGPT revoluciona, más si cabe, la inteligencia artificial: todo lo que es capaz de hacer

Por Diariocrítico

redacciondiariocriticocom/9/9/23

https://www.linkedin.com/company/diariocritico/

martes 14 de mayo de 2024, 09:04h

La compañía OpenAI ha presentado su nueva versión de su modelo de inteligencia artificial ChatGPT, llamada GPT-4o.

La letra "o" que acompaña al 4 significa para ellos "omni", que en latín significa "todo".

En estos momentos GPT compite en el campo de la inteligencia artificial (IA) con el modelo de Google, Gemini, y el de Microsoft, Copilot. El lanzamiento se contextualiza en una carrera por presentar el mejor sistema cuanto antes y más completo.

Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN

Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx
— OpenAI (@OpenAI) May 13, 2024

Los principales cambios

Para sus responsables, supone "un paso hacia una interacción persona-computadora mucho más natural" y el gran cambio respecto a la versión 3.5 es que "acepta como entrada cualquier combinación de texto, audio e imagen y genera cualquier combinación de salidas de texto, audio e imagen".

Además, GPT-4o puede responder a entradas de audio en tan solo 232 milisegundos, con un promedio de 320 milisegundos, que es similar al tiempo de respuesta humano en una conversación.

Live demo of GPT-4o voice variation pic.twitter.com/b7lLJkhBt1
— OpenAI (@OpenAI) May 13, 2024

También iguala el rendimiento de GPT-4 Turbo en texto en inglés y código, que hasta ahora era la versión de pago para usuarios, sin embargo, está pensada para ser totalmente gratuita, como hace la competencia.

Otra novedad es que ChatGPT-4o supone "una mejora significativa en texto en idiomas distintos del inglés, a la vez que es mucho más rápido y un 50% más económico en la API".

Por otra parte, también se ofrece una opción de traducción simultánea en 50 idiomas disponibles, con una traslación inmediata de nuestras palabras, sin tardanza, en la otra lengua.

Sistema de voz

Live audience request for GPT-4o vision capabilities pic.twitter.com/FPRXpZ2I9N
— OpenAI (@OpenAI) May 13, 2024

Su sistema de voz mejora las versiones anteriores, que también tenían modo de voz, pero ahora se reducen las latencias de 2,8 segundos (GPT-3.5) y 5,4 segundos (GPT-4) en promedio.

Para lograrlo, Voice Mode es una canalización de 3 modelos separados: un modelo simple transcribe audio a texto, GPT-3.5 o GPT-4 toma texto y genera texto, y un tercer modelo simple convierte ese texto nuevamente en audio. La anterior inteligencia, GPT-4, perdía información y no podía observar directamente el tono, varios parlantes o ruidos de fondo, ni emitir risas, cantar ni expresar emociones.

Esta demostración es una locura.

Un estudiante comparte la pantalla de su iPad con el nuevo ChatGPT + GPT-4o, y la IA habla con él y le ayuda a aprender ¡en tiempo real!

pic.twitter.com/cXrd0iYtmz
— Somos Cosmos (@InformaCosmos) May 13, 2024

Ahora este modelo es capaz de detectar en el usuario nerviosismo o una actitud negativa de salud a la hora de comunicarse con el sistema.

Con GPT-4o se llega a un único modelo nuevo de extremo a extremo en texto, visión y audio, lo que significa que todas las entradas y salidas son procesadas por la misma red neuronal.

Seguridad y limitaciones

Dog meets GPT-4o pic.twitter.com/5C0hlYq5ws
— OpenAI (@OpenAI) May 13, 2024

GPT-4o tiene seguridad incorporada por diseño en todas las modalidades, a través de técnicas como filtrar datos de entrenamiento y refinar el comportamiento del modelo mediante el entrenamiento posterior. También se han creado nuevos sistemas de seguridad para proporcionar barreras de seguridad en las salidas de voz.

Se ha sometido a un extenso equipo externo con más de 70 expertos en psicología social, prejuicios y equidad, e información errónea para identificar los riesgos que introducen o amplifican las modalidades recién agregadas.

OpenAI dice reconocer que las modalidades de audio de GPT-4o presentan una variedad de riesgos novedosos: "Las salidas de audio se limitarán a una selección de voces preestablecidas y cumplirán con nuestras políticas de seguridad existentes".