Lenyomták a ChatGPT-t, új királya van a mesterséges intelligenciának

1 hónap ezelőtt 30

Mások mellett az Amazon és a Google dollármilliárdokban mérhető befektetése áll az Anthropic nevű amerikai saját nagy nyelvi modellje, a Claude fejlesztése mögött. Azért tették bele a pénzt, mert úgy gondolták, ez a platform lenyomhatja a ChatGPT-t. És ez most meg is történt.

Tavaly nyáron debütált az az egyedülálló platform, amit a Kaliforniai Egyetem oktatói és hallgatói dobtak össze. A hely neve Chatbot Arena, a lényege pedig az, hogy különböző mesterséges intelligenciák (MI) egymásnak ereszthetők, hogy kiderüljön, melyik a jobb. Most olyan dolog történt, amire még nem volt példa: lekerült a ranglista első helyéről az OpenAI által fejlesztett, a ChatGPT szolgáltatás mögött is dolgozó GPT-4 nagy nyelvi modell (LLM) – számolt be róla az ArsTechnica.

A trónfosztó az OpenAI egykori alkalmazottai által alapított Anthropic Claude 3 Opus LLM-je. Az X-re az eredménnyel kapcsolatban egy szoftverfejlesztő csak annyit írt ki: meghalt a király.

A GPT-4 még a kezdetekkor került be az arénába, a különböző változatai pedig 2023. május 10-e óta folyamatosan ott vannak az élmezőnyben és a dobogós helyeken. Ennek fényében izgalmas, hogy a Claude 3 Opus ilyen eredményt ért most el.

Simon Willison független MI-kutató szerint most először fordult elő az, hogy a legjobbnak mondott mesterséges intelligencia nem az OpenAI-tól, hanem egy konkurensétől származik. Ugyanakkor szerinte a győzelemre érdemes abban a kontextusban is tekinteni, hogy a GPT-4 több mint egyéves, és ez az egy év kellett ahhoz, hogy más fejlesztés egyáltalán felnőjön hozzá.

A Chatbot Arena egy olyan benchmarkplatform az LLM-ek számára, ahol a felhasználó két véletlenszerűen választott modellt tesztelhet egy feladattal (pl. írjon egy meghatározott e-mailt), majd kiválaszthatja a legjobb választ anélkül, hogy tudná, melyik LLM áll az egyes válaszok mögött. Ezután már láthatóvá válik, hogy melyik válasz mögött melyik modell áll.

A felhasználói értékelések eredményeit az LLM-ek rangsorolására használják fel egy Elo minősítési rendszeren alapuló ranglistán, amely a sakkban széles körben használt értékelési rendszer.

A Claude 3 Opus csúcsra jutása jelenleg zárójelbe teheti az OpenAI sikereit, de persze az utóbbi cég már gőzerővel dolgozik a GPT-5-ön, amelyről Sam Altman vezérigazgató nemrég igencsak magabiztosan nyilatkozott.