Met de lancering van Gemini, het grootste en meest ingenieuze artificiële intelligentie (ai)-taalmodel van Google, wil het techbedrijf een aanval doen op de leidende positie van OpenAI’s GPT-4. Google claimt een (geringe) voorsprong te hebben op OpenAI’s GPT 4. Zijn Gemini en GPT-4 werkelijk aan elkaar gewaagd?
Google Alphabet lanceert Gemini
Google-moeder Alphabet presenteerde recentelijk haar Large Multimodal Model Gemini 1.0. Uit een groot aantal benchmarks moest daarbij blijken dat Gemini een (geringe) voorsprong heeft op GPT-4. Een presentatie van enkele prestaties en mogelijkheden van het model werd echter niet live uitgevoerd. Aangezien er nog geen versie van Gemini 1.0 is vrijgegeven kunnen de claims niet worden geverifieerd.
Op basis van de presentatie (en de inschatting dat Google zich niet leugens kan permiteren) lijkt OpenAI in 2024 serieuze concurrentie te krijgen.
Bedrijven lijken binnenkort niet meer alleen te zijn aangewezen op de technologie van OpenAI. De strijd tussen Google en Microsoft komt hiermee in een stroomversnelling.
Het was er Alphabet veel aangelegen om weer langszij te komen. Volgens topman Sundar Pichai is het nieuwe AI-model qua wetenschap en techniek een van de grootste projecten die zijn bedrijf ooit heeft gedaan. Gemini 1.0 is een nieuw hoofdstuk in een ontwikkeling die acht jaar geleden begon. Van de eerste versie van dit taalmodel komen drie versies beschikbaar:
- Gemini Ultra, het meest uitgebreide multimodal model voor complexe taken
- Gemini Pro, vergelijkbaar met het language model ChatGPT 3.5
- Gemini Nano, voor toepassingen op mobiele apparaten
Gemini werkelijk op voorsprong?
Gemini is multimodaal opgezet. Ofwel het AI model kan zelf tekstuele en audio/visuele data verwerken en produceren. De GPT modellen van OpenAI zijn tot nu toe taalmodellen. Voor andere modaliteiten wordt gebruik gemaakt van OpenAI’s Deep Learning modellen voor audio (Whisper) en visueel (Dall-E 2).
Hierdoor lijkt Gemini in het voordeel te zijn. Het zou krachtiger moeten zijn en veelzijdiger, ofwel intelligenter. Volgens Google is Ultra het eerste grote multimodal model dat beter dan menselijke experts presteert als het gaat om het uitvoeren van meerdere taken waarbij begrip van taal om de hoek komt kijken. Het model kon kennisvragen beter beantwoorden en problemen in 90 procent van de gevallen beter dan mensen. Zoals het oplossen als het gaat om een combinatie van 57 vakgebieden zoals wiskunde, natuurkunde, geschiedenis, rechten, medicijnen en ethiek. Gemini kan scherpzinniger redeneren en ook veel sneller zaken doorgronden dan Google’s vorige technologie.
Echter! Gemini Ultra is niet live gepresenteerd maar op basis van een presentatie van beeldschermafdrukken en stills. Het wel reeds vrijgegeven Gemini Pro werkt niet multimodaal, maar als een taalmodel. Uit diverse testen blijkt dat de prestaties van Gemini Pro wedijveren met GPT 3.5 maar achterblijven bij die van GPT-4.
Gemini Pro levert al wel zijn nieuwe technologie via de ai-assistent Bard. De chatbot kan naast het beantwoorden van vragen ook bijvoorbeeld puzzels oplossen en samenvattingen van teksten maken. De aangepaste versie van Gemini Pro in Bard werkt voorlopig alleen in het Engels.
De verwachting is dat Gemini Ultra het eerste kwartaal van 2024 beschikbaar komt. Het meest logisch lijkt dat dit gebeurt binnen de Google Workspace omgeving. In tegenstelling tot OpenAI heeft Google nog geen dienst beschikbaar waarbij het Gemini model gebruikt kan worden binnen een corporate data omgeving.
De claims van Google zijn dus nog niet onafhankelijk bevestigd. In tegenstelling tussen het inmiddels uitgebreid door gebruikers geteste GPT-4, dient Google’s Gemini nog een uitgebreide testfase te ondergaan.
2024: het jaar waarin AGI wordt gerealiseerd?
Wat kunnen we in 2024 als gebruiker verwachten?
Dat Google in 2024 een Large Multimodal Model uitrolt is een belangrijke stap op weg naar Artificial Generative Intelligence. Een multimodaal model kan voordeel behalen uit het trainen op een combinatie van meerdere modaliteiten (tekst, audio, video). Zowel vanwege het trainen op verbanden tussen modaliteiten, de grote beschikbaarheid van trainingsdata als vanwege het trainen op real time te verkrijgen data.
Daarnaast is OpenAI druk doende met de ontwikkeling van GPT-5. Op basis van recente uitlatingen blijft GPT voorlopig een Large Language Model. AGI is echter ook te bereiken via samenwerking tussen taal-, audio- en visuele modellen. Wat de praktische voor- en nadelen zijn van een geïntegreerde of samengestelde oplossing zal in de toekomst moeten blijken. Ook of en hoe OpenAI zich in 2024 gaat richten op het realiseren van een AGI model.
OpenAI en Google lijken elkaar in elk geval te inspireren om de maatschappij en het bedrijfsleven in 2024 te voorzien van steeds intelligentere oplossingen.
Wil je meer weten over Gemini, dan lees je dit in de blog van Google.
Wil je leren wat taalmodellen als Gemini en ChatGPT kunnen betekenen voor de inkoopfunctie, kijk dan naar de informatie bij de Workshop ChatGPT Booster voor Inkoop