Google anuncia Gemini: su IA que viene a competir con ChatGPT
Google anuncia Gemini, su modelo de IA que viene a competir con ChatGPT de OpenAI. Conoce sus detalles en este artículo
Realmente está pasando, Google acaba de lanzar Gemini, su tan rumoreado y esperado modelo de inteligencia artificial multimodal que aseguran supera a ChatGPT en muchas tareas.
Revisa nuestro video al respecto aquí:
De verdad lo que mostraron hoy me está volando la cabeza, así que te resumiré todo lo que sabemos acerca de este nuevo modelo multimodal, y cómo se compara con ChatGPT en algunas tareas.
Gemini es el nuevo modelo de IA lanzado por Google Deepmind, su laboratorio de inteligencia artificial, que viene a rivalizar con los modelos más relevantes del mercado como GPT de OpenAI o Llama de Meta.
En el anuncio destacan que se trata del modelo más capaz y general que Google ha creado hasta la fecha, con un rendimiento que supera en muchas mediciones a ChatGPT.
En particular, se trata de un modelo multimodal, lo que significa que puede entender y operar con distintos tipos de información, como texto, código, audio, imagen y vídeo, tanto por separado como juntos, y generar respuestas en cualquiera de esos modos.
Los modelos de Gemini
Gemini en realidad viene en “tres sabores distintos” o versiones del modelo, según lo que busques hacer:
Gemini Ultra es el modelo más grande y capaz, que diseñaron para realizar tareas de alta complejidad. No lo han dicho, pero está claro que este modelo es el más caro y que más recursos utiliza.
Luego tenemos a Gemini Pro, que destacan es el mejor modelo para un amplio rango de tareas, y que es el modelo que a partir de hoy se encuentra en Google Bard, su asistente tipo ChatGPT.
Finalmente, tenemos a Gemini Nano, que es el modelo más pequeño y eficiente, y diseñado para realizar tareas generativas directamente en tus dispositivos. Probablemente, este sea el que incorporen en celulares Android, y otros aparatos inteligentes del Internet de las Cosas.
Una de las gracias de la aproximación de Google con Gemini es que el modelo está creado desde la multimodalidad, es decir, tiene la capacidad de cubrir un gran rango de tareas con un alto grado de éxito a través de texto, imágenes, audio, código y vídeo, y, por tanto, permite elegir la mejor forma de responder a una tarea, de forma muy precisa.
En particular, destacan su alta capacidad para razonar, con base en información escrita y visual compleja, generando conocimiento con base en extensas cantidades de datos.
Tiene la capacidad de ver imágenes y hablar en tiempo real, una capacidad avanzada para realizar y explicar tareas complejas de matemática y física, y tiene el poder de llevar todo esto a código.
Gemini sabe entender, generar y explicar código en lenguajes como Python, Java, C++ y Go, donde prometen que será uno de los modelos fundacionales líderes en código y programación. En particular, dicen que Gemini Ultra logró notas excelentes en benchmarks como HumanEval y Natural2Code.
IA responsable
Un aspecto clave a la hora de tener modelos poderosos es la seguridad y confiabilidad que estos nos puedan entregar al usarlos día a día y acá es donde Google dedicó gran parte de su presentación, ya que destacaron que han tomado medidas exhaustivas para garantizar la seguridad y confiabilidad de los modelos Gemini, incluidos conjuntos de datos de entrenamiento cuidadosos y procedimientos de prueba rigurosos guiándose en los Principios de Google para la IA.
Para ello lo que hicieron es que desde la concepción del modelo fueron incorporando los riesgos inherentes del modelo y trabajando en salvaguardas para evitarlos, especialmente en relación con lo que puede pasar cuando, por ejemplo, una imagen inocente y un texto inocente, juntos crean algo que puede ser dañino.
Creando distintas técnicas para identificar y mitigar estos posibles peligros.
Usando Gemini
La única forma para empezar a jugar con Gemini hoy es a través de Google Bard, su asistente de chat tipo ChatGPT. Actualmente, solo está disponible con el modo texto en inglés y puedes acceder a él desde más de 170 países. Pero prometen que en el futuro próximo estarán disponibles las otras modalidades como imagen o vídeo, y en más idiomas y localidades.
También Gemini llegará al Google Pixel, su celular rival del iPhone, en particular será el Pixel 8 Pro, el primer elegido para incorporar esta tecnología a través del modelo Gemini Nano, y que permitirá resumir grabaciones de audio, realizar respuestas inteligentes a través de GBoard (su app de teclado) partiendo por WhatsApp y luego otras apps de mensajería.
Y en los próximos meses debiésemos esperar poder encontrarnos con Gemini detrás de cosas como el Buscador, los Avisos Publicitarios en las apps de Google, Google Chrome (me imagino de forma muy similar al Copiloto de Microsoft Edge) y a través de Duet AI, que cubre todas las funcionalidades de Inteligencia Artificial a lo largo de Google Workspace como Drive, Docs, Slides y más.
PERO, si sabes un poco de código, a partir del 13 de diciembre, Gemini Pro estará disponible para desarrolladores a través de la API de Gemini en Google AI Studio o a través de Google Cloud Vertex AI. Por lo que vas a poder usarlo en tu propio código y aplicaciones.
Gemini vs ChatGPT
En el anuncio no tuvieron miedo y compararon abiertamente a Gemini contra GPT-4, el modelo más poderoso de OpenAI, superándolo en casi todas las marcas y llevando el estado del arte al siguiente nivel en 30 de 32 de los tests más utilizados.
Es realmente poderoso pero habrá que ver cómo se desenvuelve en la práctica a medida que tengamos acceso a los distintos modelos y modos.
Hoy ya podemos acceder a Gemini Pro a través de Bard, y como dije antes, pronto a partir de las herramientas para desarrolladores, el próximo año llegará Gemini Ultra, y con el Pixel 8 Pro ya podremos ver como se desenvuelve Gemini Nano.
Conclusión
Debo confesar que pensaba que terminaría el 2024 y no tendríamos a Gemini entre nosotros, rumoreado por meses, pasó a ser el chiste cruel cada vez que OpenAI presentaba algo nuevo.
Por fin está aquí con nosotros y podremos meter las manos y testear los límites de lo posible. ¿Pero realmente estará a la altura de rivalizar con ChatGPT que ya cumplió un año entre nosotros? ¿Podrá recuperar el tiempo perdido?
Espero que sí, porque siempre más competencia es buena para nosotros.