Google ogłosiło premierę Gemini, ich najbardziej rozbudowanego i zróżnicowanego systemu AI do tej pory. Model Gemini jest multimodalny, czyli może generalizować i z łatwością rozumieć, wykorzystywać i łączyć różne rodzaje informacji, w tym tekst, obrazy, dźwięki, filmy i kod. Jest również najbardziej elastycznym z modeli Google, ponieważ działa sprawnie na dowolnych urządzeniach – od centrów danych po urządzenia mobilne.
„Gemini to kamień milowy w rozwoju AI” – powiedział Sundar Pichai, dyrektor generalny Google i Alphabet. „Ten model ma potencjał, aby radykalnie zmienić sposób, w jaki korzystamy z technologii. Może być wykorzystany do tworzenia nowych aplikacji, które są bardziej intuicyjne i pomocne, a także do poprawy naszych codziennych czynności.”
Model Gemini został zbudowany w oparciu o szeroką gamę danych, w tym tekst, obrazy, dźwięki i kod. Został on przeszkolony na superkomputerach Google, co pozwoliło mu na naukę wykonywania złożonych zadań.
Testy przeprowadzone przez Google wykazały, że model Gemini przewyższa obecne osiągnięcia w 30 z 32 powszechnie stosowanych testów i standardów akademickich stosowanych w badaniach i rozwoju dużych modeli językowych (LLM).
W szczególności model Gemini:
- Osiągnął wynik 90,00% w testach MMLU (masowe wielozadaniowe rozumienie języka), pokonując tym samym w działaniu ekspertów w tej dziedzinie.
- Osiągnął wynik 59,4% w testach MMMU (multimodalne zadania wielodomenowe), które obejmują realizację wielomodalnych zadań z wykorzystaniem wielu domen, wymagających jednocześnie zastosowania przemyślanej argumentacji.
- Pokonał dotychczasowe nowoczesne modele w testach analizy obrazów, bez wsparcia systemów rozpoznawania znaków (OCR).
„Gemini to przełomowy model, który ma potencjał, aby zmienić sposób, w jaki korzystamy z technologii” – powiedział Jeff Dean, dyrektor ds. badań w Google AI. „Jesteśmy podekscytowani, że będziemy mogli zobaczyć, jak ludzie na całym świecie będą wykorzystywać ten model do tworzenia nowych i innowacyjnych aplikacji.”
Model Gemini jest obecnie dostępny dla deweloperów i klientów biznesowych. Google planuje udostępnić go szerszej publiczności w przyszłym roku.
- Od dzisiaj Bard będzie używał Gemini Pro. Będzie on dostępny w języku angielskim w ponad 170 krajach i regionach, a w najbliższej przyszłości planujemy rozszerzenie dostępnych opcji oraz udostępnienie usługi w kolejnych miejscach i językach.
- Od 13 grudnia deweloperzy i klienci biznesowi będą mieli dostęp do modelu Gemini Pro poprzez Gemini API w Google AI Studio lub Google Cloud Vertex AI