OpenAI vs Google: Gemini lanza Live Rolls para rivalizar con el modo de voz de ChatGPT: surge un nuevo desafío

OpenAI Vs Google: el gigante tecnológico está presentando Gemini Live, una función de chat de voz para su asistente de inteligencia artificial Gemini, para competir con el nuevo modo de voz avanzado de OpenAI para ChatGPT. Revelada en el evento Made by Google 2024, esta característica innovadora estará disponible para los usuarios del paquete avanzado, prometiendo una experiencia de interacción de voz perfecta con tecnología de inteligencia artificial. Estén atentos para obtener más actualizaciones sobre este emocionante desarrollo en la carrera de IA entre Google y OpenAI.
- OpenAI vs Google: ¿Puede Gemini Live desafiar el modo de voz de ChatGPT?
- ¿Cómo podemos mejorar la interacción con la IA?
- ¿Cómo aborda OpenAI los desafíos con su modo de voz avanzado?
OpenAI vs Google: ¿Puede Gemini Live desafiar el modo de voz de ChatGPT?
En un hilo en X, la compañía anunció el lanzamiento de Gemini Live, con el objetivo de rivalizar con el modo de voz avanzado recientemente presentado por OpenAI para ChatGPT. Esta nueva característica, presentada en el evento de 2024, ahora es accesible para los usuarios de Gemini Advanced, mejorando las interacciones de IA con un enfoque más natural y flexible. Los usuarios pueden interrumpir, cambiar de tema o continuar la conversación libremente, reflejando la espontaneidad de una llamada telefónica. Gemini Live se destaca por su novedoso motor de voz, promocionado por Google por ofrecer diálogos de múltiples turnos coherentes, cargados de emociones y que fluyen naturalmente. Al ofrecer 10 voces que suenan naturales, incluso tiene la capacidad de imitar el habla del usuario en tiempo real, elevando la experiencia de IA a un nuevo nivel. Es más, este modo manos libres funciona sin problemas en segundo plano o cuando el teléfono está bloqueado, lo que garantiza conversaciones ininterrumpidas mientras los usuarios realizan múltiples tareas. Con Gemini Live, la compañía da un importante paso adelante en la carrera de la IA, desafiando a empresas como OpenAI y dando forma al futuro de las interacciones de IA basadas en voz. .
¿Cómo podemos mejorar la interacción con la IA?
En consecuencia, los modelos Gemini 1.5 Pro y Gemini 1.5 Flash del asistente de IA facilitan conversaciones extensas e intrincadas, gracias a su ventana de contexto más larga en comparación con otros modelos de IA generativa. Este avance permite a Gemini Live participar en debates más prolongados mientras almacena datos de manera más eficiente. Además, la compañía ha anunciado que la entrada multimodal, presentada por primera vez en Google I/O 2024, se incorporará a Gemini Live a finales de año, expandiéndose más allá de los simples comandos de voz. Esta integración mejorará la comprensión y la capacidad de respuesta de la IA a señales visuales como imágenes y videos, haciéndola aún más adaptable. Actualmente, esta actualización es exclusiva para usuarios de Android de habla inglesa, pero próximamente se admitirán idiomas adicionales y dispositivos iOS.
A medida que la compañía presenta su última característica, se está preparando para futuras integraciones y avances. En las próximas semanas, Gemini recibirá nuevas extensiones compatibles con las aplicaciones de Google, incluidas Calendar, Keep, Tasks y YouTube Music. Estas integraciones prometen optimizar las rutinas diarias de los usuarios, permitiéndoles administrar de manera eficiente listas de reproducción, recordatorios y horarios a través de simples comandos de voz. Además, los usuarios de Android pronto podrán activar Gemini sobre cualquier aplicación mediante el botón de encendido o indicaciones de voz. Esta innovadora funcionalidad permitirá a los usuarios interactuar con Gemini a través de varias aplicaciones, planteando consultas o creando contenido como imágenes que se integran perfectamente en sus flujos de trabajo.
¿Cómo aborda OpenAI los desafíos con su modo de voz avanzado?
En la actual rivalidad entre OpenAI y Google, la introducción por parte de Google del modo de voz avanzado para ChatGPT ha encontrado varios desafíos durante su fase de prueba alfa inicial. Si bien este modo tiene como objetivo mejorar la experiencia del usuario al ofrecer interacciones conversacionales más realistas, ha generado críticas por fomentar potencialmente una dependencia excesiva de la IA debido a sus intercambios de voz altamente realistas. Recientemente, OpenAI planteó preocupaciones de seguridad con respecto al surgimiento de vínculos sociales entre los usuarios y la IA, que podrían dañar las relaciones entre humanos. Para abordar estos problemas y perfeccionar aún más sus capacidades de IA, la empresa ha estado explorando activamente formas de reforzar la competencia en ingeniería de software de sus modelos de IA. Como parte de estos esfuerzos, OpenAI ha lanzado un subconjunto evaluado por humanos del banco de pruebas SWE, diseñado para proporcionar una evaluación más precisa de qué tan bien los modelos de IA pueden manejar los desafíos de software del mundo real. Este último desarrollo marca un compromiso continuo para garantizar que los avances en IA sigan siendo seguros y prácticos para el uso diario.
Regístrese ahora para comenzar su viaje cripto
Descargue la aplicación BTCC de la App Store o Google Play
Síganos
Escanear para descargar