Trending Misterio
iVoox
Descargar app Subir
iVoox Podcast & radio
Descargar app gratis
La TERTULia de la Inteligencia Artificial
Modelos de Difusión de Lenguaje: Gemini Diffusion

Modelos de Difusión de Lenguaje: Gemini Diffusion 1a1k54

30/5/2025 · 33:57
1
408
1
408
La TERTULia de la Inteligencia Artificial

Descripción de Modelos de Difusión de Lenguaje: Gemini Diffusion 32342q

La semana pasada Google presentó su nuevo modelo de lenguaje Gemini Difusión. La novedad de este modelo es que no genera tokens uno a uno, sino que es capaz de generar párrafos enteros de golpe y esto desbloquea algunas habilidades nuevas. Hoy en la tertulia te contamos las diferencias entre los modelos autorregresivos como ChatGPT y los nuevos modelos de difusión como Gemini. Participan en la tertulia: Josu Gorostegui, Carlos Larriú, Íñigo Olcoz y Guillermo Barbadillo. Recuerda que puedes enviarnos dudas, comentarios y sugerencias en: https://twitter.com/TERTUL_ia Más info en: https://ironbar.github.io/tertulia_inteligencia_artificial/ 3l4h1y

Lee el podcast de Modelos de Difusión de Lenguaje: Gemini Diffusion

Este contenido se genera a partir de la locución del audio por lo que puede contener errores.

La semana pasada Google presentó su nuevo modelo de lenguaje Gemini Diffusion.

La novedad de este modelo es que no genera los tokens uno a uno sino que es capaz de generar párrafos enteros de golpe y esto desbloquea algunas habilidades nuevas.

Hoy en la tertulia te contamos las diferencias entre los modelos autoregresivos como ChatGPT y los nuevos modelos de difusión como Gemini.

La tertulia de la Inteligencia Artificial Ya falta menos para la singularidad.

Bienvenidas, bienvenidos a la tertulia de la Inteligencia Artificial.

Hoy estamos en la tertulia con Josu Gorostegui.

Buenas tardes Iñigo, ¿qué tal? Guillermo Barbadillo.

Hola Iñigo.

Y Carlos Larriu.

Qué energía, macho, una pasada.

Por supuesto, en un servidor quien nos habla, Iñigo Golkoz, y sin más dilación damos paso ya a Guille que nos trae una de las últimas novedades que ha presentado Google.

Sí, bueno, más que las novedades de Google vamos a hablar de los modelos de difusión de lenguaje.

Sí que es cierto que traemos este tema porque recientemente en el evento de Google, en el I.O., pues Google presentó un modelo que es Gemini Diffusion y desde mi punto de vista pues era el tema más interesante que podía mostrar la tertulia porque como ya sabéis pues nos gusta tratar temas en profundidad y aunque es cierto que Google ha presentado cosas muy impresionantes como Veo 3, pues ese modelo que genera vídeo y también audio y están saliendo un montón de vídeos en Internet, pues es que no hay mucho detalle.

Entonces, más allá de deciros que es un modelo muy bonito, pues poco más podemos comentar.

En cambio, sobre los modelos de difusión, pues sí que hay algo más de literatura, no de Google, pero sí de otros investigadores y creo que es un tema interesante para comentar, para tenerlo un poco en el radar y estudiar las diferencias que hay entre los modelos de difusión de texto como este que está presentando Google y los modelos clásicos autoregresivos que hasta el momento habíamos estado viendo.

Entonces, como la mayoría de nuestros oyentes ya sabrán, pues los modelos de lenguaje autoregresivos que son los que podemos encontrar en ChatGPT, Gemini o todos, lo que van haciendo es generar el texto palabra por palabra, más precisamente token a token y lo hacen de una manera secuencial.

No pueden predecir más que el siguiente token, luego se introduce ese token en el modelo, predicen otro token más y de esa manera, pues eso, es un proceso secuencial y esto, pues puede ser lento, porque al final si quieres hacer, generar un texto largo, pues tienes que generar cada token uno a uno y puede, tiene algunas limitaciones según el tipo de texto que queremos generar, ¿vale? En cambio, pues los modelos de difusión son completamente diferentes, ¿vale? En lugar de generar token a token, lo que hacen es generar muchos tokens de golpe, ¿vale? Y esto, pues es parametrizable, pues pueden ser 512, 1024, al final lo que hayan definido los investigadores en ese entrenamiento, ¿vale? Entonces, esto se hace, digamos, poco a poco, porque se empieza, vamos a poner entre comillas ruido, luego entraremos más a fondo, empezamos de ruido y ese ruido se va limpiando y generando el texto, ¿vale? Entonces, requiere varios pasos la generación, pero como generas muchos tokens de golpe, esto puede llegar a ser más rápido que los modelos tradicionales autoregresivos, ¿vale? Entonces, bueno, esto por poner un poco en contexto los modelos de difusión de texto y por qué traemos este tema hoy a la lectura.

Para que los oyentes lo tengan, se pueden hacer una idea, el ejemplo más claro sería como cuando generas una imagen con stable difusión, que primero tienes una imagen muy borrosa y según van pasando las pasadas, esa imagen va adquiriendo nitidez, pues de esa misma forma, tal y como lo presentaron en el Google I.O. o tal y como lo podrías ver en otros ejemplos, tú tienes una generación de tokens y vas añadiendo pasadas y añadiendo coherencia a ese output.

Es decir, la primera pasada no tiene sentido o, bueno, es una especie de esbozo de la primera solución.

Sí, como un alto nivel.

Eso es, y luego vas refinando.

Comentarios de Modelos de Difusión de Lenguaje: Gemini Diffusion k436t

Este programa no acepta comentarios anónimos. ¡Regístrate para comentar!