Google przedstawia Gemini – największy i najbardziej zaawansowany model AI

Google ogłosiło premierę Gemini, ich najbardziej rozbudowanego i zróżnicowanego systemu AI do tej pory. Model Gemini jest multimodalny, czyli może generalizować i z łatwością rozumieć, wykorzystywać i łączyć różne rodzaje informacji, w tym tekst, obrazy, dźwięki, filmy i kod. Jest również najbardziej elastycznym z modeli Google, ponieważ działa sprawnie na dowolnych urządzeniach – od centrów danych po urządzenia mobilne.

„Gemini to kamień milowy w rozwoju AI” – powiedział Sundar Pichai, dyrektor generalny Google i Alphabet. „Ten model ma potencjał, aby radykalnie zmienić sposób, w jaki korzystamy z technologii. Może być wykorzystany do tworzenia nowych aplikacji, które są bardziej intuicyjne i pomocne, a także do poprawy naszych codziennych czynności.”

Model Gemini został zbudowany w oparciu o szeroką gamę danych, w tym tekst, obrazy, dźwięki i kod. Został on przeszkolony na superkomputerach Google, co pozwoliło mu na naukę wykonywania złożonych zadań.

Testy przeprowadzone przez Google wykazały, że model Gemini przewyższa obecne osiągnięcia w 30 z 32 powszechnie stosowanych testów i standardów akademickich stosowanych w badaniach i rozwoju dużych modeli językowych (LLM).

gemini google

W szczególności model Gemini:

  • Osiągnął wynik 90,00% w testach MMLU (masowe wielozadaniowe rozumienie języka), pokonując tym samym w działaniu ekspertów w tej dziedzinie.
  • Osiągnął wynik 59,4% w testach MMMU (multimodalne zadania wielodomenowe), które obejmują realizację wielomodalnych zadań z wykorzystaniem wielu domen, wymagających jednocześnie zastosowania przemyślanej argumentacji.
  • Pokonał dotychczasowe nowoczesne modele w testach analizy obrazów, bez wsparcia systemów rozpoznawania znaków (OCR).

„Gemini to przełomowy model, który ma potencjał, aby zmienić sposób, w jaki korzystamy z technologii” – powiedział Jeff Dean, dyrektor ds. badań w Google AI. „Jesteśmy podekscytowani, że będziemy mogli zobaczyć, jak ludzie na całym świecie będą wykorzystywać ten model do tworzenia nowych i innowacyjnych aplikacji.”

Model Gemini jest obecnie dostępny dla deweloperów i klientów biznesowych. Google planuje udostępnić go szerszej publiczności w przyszłym roku.

  • Od dzisiaj Bard będzie używał Gemini Pro. Będzie on dostępny w języku angielskim w ponad 170 krajach i regionach, a w najbliższej przyszłości planujemy rozszerzenie dostępnych opcji oraz udostępnienie usługi w kolejnych miejscach i językach.
  • Od 13 grudnia deweloperzy i klienci biznesowi będą mieli dostęp do modelu Gemini Pro poprzez Gemini API w Google AI Studio lub Google Cloud Vertex AI