Qwen 3.5 Omni: El modelo de IA de Alibaba ahora puede escuchar, ver y clonar tu voz

En resumen

Qwen 3.5 Omni de Alibaba trae verdadera IA omnimodal en tiempo real a la carrera de vanguardia.
El procesamiento nativo audiovisual supera a los pipelines multimodales ensamblados en velocidad y coherencia.
La clonación de voz, la interrupción semántica y la codificación de ambiente señalan un cambio hacia agentes de IA completamente interactivos.

Alibaba acaba de lanzar su actualización de IA más ambiciosa hasta el momento.

El equipo Qwen de la compañía lanzó Qwen 3.5 Omni el domingo, una nueva versión de su IA "omnimodal" que procesa simultáneamente texto, imágenes, audio y video, y responde en tiempo real en 36 idiomas, colocando su modelo en el mismo campo de batalla que los últimos modelos fundamentales de IA de última generación actualmente disponibles.

"Omni" no es solo una palabra de moda de marketing aquí. La mayoría de los modelos de IA con los que interactúas son principalmente sistemas de texto de entrada y salida. Algunos manejan imágenes, algunos manejan voz. Qwen 3.5 Omni los maneja todos de forma nativa, al mismo tiempo, sin necesidad de convertir todo a texto mediante herramientas de terceros.

El nuevo modelo viene en tres tamaños: Plus, Flash y Light, todos soportando una pequeña (según los estándares actuales) ventana de contexto de 256,000 tokens. Fue entrenado con más de 100 millones de horas de datos audiovisuales, una escala que lo coloca en una categoría diferente de la mayoría de los competidores.

Qwen 3.5 Omni es una evolución de Qwen 3 Omni Flash, el modelo omnimodal anterior de Alibaba lanzado en diciembre de 2025. Esa versión ya impresionó con su capacidad para procesar video y audio simultáneamente; podía manejar instrucciones de edición de imágenes combinando múltiples entradas visuales de maneras que los competidores no podían, y transmitía respuestas de voz con una latencia tan baja como 234 milisegundos.

También fue el primer modelo en intentar una alternativa a NotebookLM de Google. Logró algo, pero la calidad no estaba a la par con la oferta de Google.

Qwen 3.5 Omni toma todo eso y añade una ventana de contexto más larga, mejor razonamiento, una biblioteca de idiomas mucho más amplia y un conjunto de características de interacción en tiempo real que la generación anterior no tenía.

La actualización destacada es lo que sucede cuando realmente hablas con él. Qwen3.5-Omni ahora soporta interrupción semántica: puede distinguir entre que digas "ajá" a mitad de oración y que realmente quieras interrumpir, por lo que no se detendrá a mitad de pensamiento cada vez que alguien tosa en el fondo, haciendo la interacción hablada más fluida.

Una nueva técnica llamada ARIA, abreviatura de Adaptive Rate Interleave Alignment, también soluciona una molestia sutil pero persistente: sistemas de IA que distorsionan números o palabras inusuales al leer en voz alta. ARIA sincroniza dinámicamente texto y habla para mantener la salida natural y precisa.

Luego está la clonación de voz. Los usuarios pueden cargar una muestra de voz y hacer que el modelo adopte esa voz en sus respuestas, una característica que pone a Qwen directamente en competencia con ElevenLabs y otras herramientas de voz dedicadas. Sin embargo, no pudimos acceder a esta característica, porque es una función que, al menos por ahora, solo está disponible a través de API.

En pruebas de estabilidad de voz multilingüe, Qwen3.5 Omni-Plus superó a ElevenLabs, GPT-Audio y Minimax en 20 idiomas. El modelo ahora también soporta búsqueda web en tiempo real, lo que significa que puede responder preguntas sobre noticias de última hora o datos de mercado en vivo sin pretender que ya lo sabe.

El equipo también está destacando lo que llaman "Audio-Visual Vibe Coding", el modelo puede ver una grabación de pantalla o video de una tarea de codificación y escribir código funcional basándose puramente en lo que ve y escucha, sin necesidad de indicación de texto. Es una pequeña vista previa de cómo los asistentes de IA eventualmente podrían operar dentro de tu flujo de trabajo en lugar de junto a él.

Para entender lo que "omnimodal" realmente significa en la práctica, realizamos una prueba rápida: alimentamos tanto a Qwen3.5-Omni como a ChatGPT 5.4 en modo "thinking" con el mismo YouTube Short, un clip del Presidente de Dastan (Dastan es la empresa matriz de Decrypt) y el comentarista Farokh discutiendo noticias de última hora. Qwen 3.5 Omni procesó el video de forma nativa y devolvió un análisis completo en aproximadamente un minuto: quién estaba hablando, qué estaban discutiendo y un comentario sustancial sobre el tema basado en su propio conocimiento del área temática.

ChatGPT 5.4, que no es omnimodal, tuvo que arreglárselas con lo que tenía. Extrajo fotogramas del video, los pasó por un modelo de visión, usó Whisper para transcribir el audio y aplicó una herramienta OCR para leer los subtítulos incrustados: tres procesos separados ensamblados para aproximar lo que Qwen3.5-Omni hace en una sola pasada. El resultado tomó nueve minutos, y eso en condiciones ideales: un video bien iluminado con audio limpio y subtítulos integrados. El contenido del mundo real rara vez ofrece los tres.

En nuestras pruebas rápidas a través de múltiples entradas, el modelo también manejó indicaciones en español, portugués e inglés sin problemas, cambiando de idioma a mitad de conversación sin perder contexto.

En pruebas estándar, Qwen 3.5 Omni Plus superó a Gemini 3.1 Pro en comprensión de audio general, razonamiento y tareas de traducción, e igualó en comprensión audiovisual. El reconocimiento de voz ahora cubre 113 idiomas y dialectos, frente a 19 en la generación anterior.

Este es el segundo lanzamiento importante de IA de Alibaba en seis semanas. En febrero, lanzó Qwen 3.5, un modelo de texto y visión que igualó o superó a los modelos de vanguardia en pruebas de razonamiento y codificación, parte de una racha que también ha incluido Qwen Deep Research y una línea de herramientas que rivalizan con OpenAI y Google. Qwen 3.5 Omni extiende ese impulso al territorio multimodal completo, en un momento en que cada laboratorio importante de IA está compitiendo para construir sistemas que manejen todo el espectro de la comunicación humana, no solo palabras en una pantalla.

El modelo está disponible ahora a través de la API de Alibaba Cloud y se puede probar directamente en Qwen Chat o a través de la demostración en línea de Hugging Face.

Newsletter Daily Debrief

Comienza cada día con las principales noticias del momento, además de características originales, un podcast, videos y más.

Fuente: https://decrypt.co/362742/alibaba-qwen-omni-major-upgrade-review

Qwen 3.5 Omni: El modelo de IA de Alibaba ahora puede escuchar, ver y clonar tu voz

En resumen

Newsletter Daily Debrief

También te puede interesar

PhilWeb obtiene acreditación para servicios de juegos

Cómo comprar cripto con potencial de 150x mientras Pepeto se llena más rápido en cada etapa

De boom a declive demográfico: La tasa de fertilidad de Filipinas cae a un mínimo histórico en 2025

Noticias en tendencia

Parada por conducir bajo los efectos del alcohol de republicano toma un giro cuando encuentran un arma en pasajero ebrio — también legislador del GOP: policía

Cambio de ciclo resiliente – HSBC

USD/JPY cae por debajo de 160.00 mientras el BoJ señala urgencia en las subidas de tasas

Senadores de EE.UU. lanzan nuevo proyecto de ley que impulsa la expansión del minado de Bitcoin y consolida la Reserva estratégica de Bitcoin – Regulación Noticias Bitcoin

Ran Neuner Cuestiona la Identidad de Bitcoin, Cambian las Narrativas Cripto

Precios de criptos