La última versión de Grok de xAI puede procesar imágenes

La última versión de Grok de xAI puede procesar imágenes

xAI presenta Grok-1.5V, su primer modelo de inteligencia artificial multimodal

xAI, la competencia de OpenAI fundada por Elon Musk, ha presentado la primera versión de Grok capaz de procesar información visual. Grok-1.5V es el primer modelo de inteligencia artificial multimodal de la compañía, que no solo puede procesar texto, sino también “documentos, diagramas, gráficos, capturas de pantalla y fotografías”. En el anuncio de xAI, se dieron algunos ejemplos de cómo se pueden utilizar sus capacidades en el mundo real. Por ejemplo, se puede mostrar una foto de un diagrama de flujo y pedirle a Grok que lo traduzca a código Python, que escriba una historia basada en un dibujo e incluso que explique un meme que no se puede entender. Hey, no todo el mundo puede seguir el ritmo de todo lo que Internet lanza.

La nueva versión de Grok llega después de Grok-1.5

La nueva versión llega solo un par de semanas después de que la compañía presentara Grok-1.5. Ese modelo fue diseñado para ser mejor en codificación y matemáticas que su predecesor, así como para poder procesar contextos más largos para poder revisar datos de más fuentes y comprender mejor ciertas consultas. xAI dijo que sus primeros probadores y usuarios existentes pronto podrán disfrutar de las capacidades de Grok-1.5V, aunque no dio una línea de tiempo exacta para su implementación.

xAI también lanza un conjunto de datos de referencia llamado RealWorldQA

Además de presentar Grok-1.5V, la compañía también ha lanzado un conjunto de datos de referencia que ha llamado RealWorldQA. Puede utilizar cualquiera de las 700 imágenes de RealWorldQA para evaluar modelos de inteligencia artificial: cada elemento viene con preguntas y respuestas que se pueden verificar fácilmente, pero que pueden confundir a los modelos multimodales como Grok. xAI afirmó que su tecnología obtuvo la puntuación más alta cuando la compañía la probó con RealWorldQA frente a competidores como GPT-4V de OpenAI y Google Gemini Pro 1.5.

En resumen, Grok-1.5V es una actualización emocionante para xAI, ya que ahora puede procesar información visual además de texto. Esto abre un mundo de posibilidades para su uso en una variedad de situaciones del mundo real, desde la traducción de diagramas a código hasta la explicación de memes. Además, el lanzamiento del conjunto de datos RealWorldQA demuestra la capacidad de Grok-1.5V para superar a sus competidores en la evaluación de modelos de inteligencia artificial. Estamos emocionados de ver cómo xAI seguirá desarrollando y mejorando su tecnología en el futuro.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Scroll al inicio