The Gemini Era: Google anuncia grandes cambios a sus modelos de IA ¿son realmente buenos?

¡Google está con todo integrando más IA en TODOS sus productos! O al menos eso intentan.

Ayer comenzó el Google I/O, el evento más importante de Google en el año, y en este vídeo te resumimos los anuncios más interesantes para ti.

VIDEO

Gemini en Google Workspace

Google integrará Gemini con Google Workspace, un claro ejemplo de cómo la IA está transformando las herramientas que usamos cada día.

En Gmail, por ejemplo, un nuevo botón con el icono de Gemini nos permite generar resúmenes instantáneos de nuestros correos y los archivos adjuntos (al menos lo que vimos en una demo), extendiendo la IA generativa a toda la bandeja de entrada para una visión holística y eficiente.
En hojas de cálculo, Gemini facilita el análisis y segmentación de datos usando lenguaje natural. Estas funciones estarán disponibles en modo experimental a partir de septiembre.

Novedades en la Colaboración y Conectividad

En el ámbito de la colaboración, presentaron AI Teammate dentro de Google Workspace. Este asistente posee una cuenta propia, y puede integrarse en chats, permitiendo que todos los participantes interactúen con él y accedan a la información compartida. También, han introducido una función en Google Meet que graba y analiza conversaciones, donde luego puedes preguntarle a Gemini los puntos clave.

Innovaciones en Multimodalidad y Eficiencia

Gemini 1.5 Pro, el modelo que puso sobre la mesa la multimodalidad en la industria, ahora tiene un impresionante aumento en sus capacidades y la posibilidad de manejar hasta 2 millones de tokens, algo así como 28 libros de la saga de Harry Potter. ChatGPT puede manejar casi 2 libros solamente. También lo hicieron más accesible a nivel global y lo ampliaron a 35 idiomas. Este salto representa un hito importante, permitiendo que desarrolladores de todo el mundo puedan experimentar y construir sobre este modelo.

Google ha estado trabajando arduamente en combinar entradas de audio, texto y visión para crear sistemas más integrados y útiles. Este ha sido el foco de Gemini desde un principio, y ahora estamos viendo las habilidades que puede tener esta herramienta bajo esta filosofía.

En este sentido Gemini Pro y el nuevo Gemini 1.5 Flash ofrecen análisis de texto, audio y video, con ventanas de contexto bastante amplias para agregar la información necesaria para trabajar.

Y ya que mencionamos a Gemini 1.5 flash, les cuento que este es una versión más liviana diseñada para maximizar la eficiencia en el tiempo de cálculo, sin sacrificar el rendimiento.

Project Astra

Por último, mostraron el Project Astra, que nos acerca a la creación de agentes de IA universales, capaces de entender y responder a información multimodal de manera instantánea y precisa, algo así como lo que nos mostró OpenAI el día anterior con su GPT-4o.

💡

Y si te perdiste la reciente presentación de OpenAI, aquí te dejamos el link a nuestro video al respecto.

Google hizo algo parecido a OpenAI y nos mostró una demo de una persona interactuando con su alrededor, asistida por Gemini a través de su celular y luego utilizando unos lentes ¿Google Glass, son ustedes? La parte llamativa de la demo fue cuando Gemini le dijo al usuario dónde dejó los lentes, mostrando sus capacidades de memoria de lo que ve y escucha ¡Por fin no perderé media hora buscando la billetera!

Avances en Generación de Contenidos y Seguridad

Hablemos de creatividad: IMAGEN 3 y VEO son los últimos modelos en generación de imágenes y vídeos, respectivamente. IMAGEN 3 puede crear imágenes realistas con una calidad de luz impresionante, mientras que VEO puede generar vídeos de alta calidad a partir de descripciones textuales, de más de 1 minuto y con físicas realistas. También, hablaron de SynthID, una herramienta que aplica marcas de agua a creaciones con IA, que identifica contenidos generados artificialmente, asegurando autenticidad y seguridad en trabajos de alto realismo.

Gemini en la Búsqueda y en el Mundo Móvil

El buscador de Google ahora incorpora la IA generativa de Gemini, mejorando la capacidad de rastrear información en tiempo real y ofreciendo una experiencia de búsqueda más intuitiva y efectiva.

Además, Gemini aterriza en los teléfonos Android con funcionalidades como las búsquedas contextuales según los contenidos en pantalla, por ejemplo.

Nuevos modelos OpenSource

PaliGemma

PaliGemma es un modelo versátil y liviano de visión-lenguaje (VLM), inspirado en PaLI-3 y basado en componentes abiertos como el modelo de visión SigLIP y el modelo de lenguaje Gemma.

Está diseñado para ofrecer un rendimiento de primer nivel en una amplia gama de tareas de visión-lenguaje, incluyendo la creación de subtítulos para imágenes y videos cortos, la respuesta a preguntas visuales, la comprensión de texto en imágenes, la detección de objetos y la segmentación de objetos.

PaliGemma está disponible en varias plataformas como GitHub, Hugging Face models, Kaggle, Vertex AI Model Garden y ai.nvidia.com, y se puede integrar fácilmente a través de JAX y Hugging Face Transformers (con integración con Keras próximamente).

Gemma 2

En este video puedes ver como modelos OpenSource pueden impactar comunidades

Gemma 2 es la próxima generación de modelos Gemma, diseñada para ofrecer un rendimiento y eficiencia innovadores. Con 27 mil millones de parámetros, Gemma 2 proporciona un rendimiento comparable al de Llama 3 70B con menos de la mitad del tamaño, lo que establece un nuevo estándar en el ámbito de los modelos abiertos.

Gemma 2 estará disponible en junio y se ofrecerá en nuevos tamaños adecuados para una variedad de casos de uso de desarrolladores de IA.

Cierre y Visión Futura

Además de todo esto, se presentaron herramientas como Ask Photos, MusicAI Sandbox, Circle-to-Search, Ask (search) with Video, GEMS, AlphaFold3 como también mejoras en infraestructura como Trillium, Axion Processor y la disponibilidad del nuevo Nvidia Blackwell en Google Cloud.

¿Y ustedes qué opinan? ¿Qué herramienta les interesa más? ¿Cómo lo usarán en el día a día?