Google ogłosiło premierę Gemini, ich najbardziej rozbudowanego i zróżnicowanego systemu AI do tej pory. Model Gemini jest multimodalny, czyli może generalizować i z łatwością rozumieć, wykorzystywać i łączyć różne rodzaje informacji, w tym tekst, obrazy, dźwięki, filmy i kod. Jest również najbardziej elastycznym z modeli Google, ponieważ działa sprawnie na dowolnych urządzeniach – od centrów danych po urządzenia mobilne.

„Gemini to kamień milowy w rozwoju AI” – powiedział Sundar Pichai, dyrektor generalny Google i Alphabet. „Ten model ma potencjał, aby radykalnie zmienić sposób, w jaki korzystamy z technologii. Może być wykorzystany do tworzenia nowych aplikacji, które są bardziej intuicyjne i pomocne, a także do poprawy naszych codziennych czynności.”

Model Gemini został zbudowany w oparciu o szeroką gamę danych, w tym tekst, obrazy, dźwięki i kod. Został on przeszkolony na superkomputerach Google, co pozwoliło mu na naukę wykonywania złożonych zadań.

Testy przeprowadzone przez Google wykazały, że model Gemini przewyższa obecne osiągnięcia w 30 z 32 powszechnie stosowanych testów i standardów akademickich stosowanych w badaniach i rozwoju dużych modeli językowych (LLM).

W szczególności model Gemini:

Osiągnął wynik 90,00% w testach MMLU (masowe wielozadaniowe rozumienie języka), pokonując tym samym w działaniu ekspertów w tej dziedzinie.

Osiągnął wynik 59,4% w testach MMMU (multimodalne zadania wielodomenowe), które obejmują realizację wielomodalnych zadań z wykorzystaniem wielu domen, wymagających jednocześnie zastosowania przemyślanej argumentacji.

Pokonał dotychczasowe nowoczesne modele w testach analizy obrazów, bez wsparcia systemów rozpoznawania znaków (OCR).

„Gemini to przełomowy model, który ma potencjał, aby zmienić sposób, w jaki korzystamy z technologii” – powiedział Jeff Dean, dyrektor ds. badań w Google AI. „Jesteśmy podekscytowani, że będziemy mogli zobaczyć, jak ludzie na całym świecie będą wykorzystywać ten model do tworzenia nowych i innowacyjnych aplikacji.”

Model Gemini jest obecnie dostępny dla deweloperów i klientów biznesowych. Google planuje udostępnić go szerszej publiczności w przyszłym roku.