Grok 3 od xAI je lepší, než se očekávalo. Jak si ji zdarma vyzkoušet (před přihlášením k odběru)
Nový model xAI se dostává na vrchol žebříčků Chatbot Arena a srovnávacích výsledků.
Elon Musk byl investorem do OpenAI, když byla v roce 2015 založena. Od té doby zcela přerušil své vazby se startupem a tvrdí, že se společnost odchýlila od svého původního neziskového poslání. Vytvořil vlastní společnost zabývající se umělou inteligencí, xAI, a s ní velký jazykový model (LLM) s názvem Grok. Nyní společnost uvedla na trh nový model Grok 3, který se šplhá na vrchol žebříčků chatbotů.
Grok 3
V pondělí Elon Musk prostřednictvím živého přenosu představil nejnovější rodinu modelů umělé inteligence xAI, Grok 3. Grok 3 se může pochlubit 10krát větším množstvím školení než Grok 2, což bylo možné díky tomu, že xAI vytvořila vlastní datové centrum se sídlem v Memphisu v Tennessee, které je domovem 200 000 GPU.
https://t.co/hEfQ31gANQ
"Jsme nadšeni, že můžeme představit Grok 3, který je podle nás řádově schopnější než Grok 2," řekl Musk během živého přenosu.
Rodina modelů zahrnuje také model uvažování, který navazuje na Grok 3. Stejně jako ostatní modely uvažování na trhu, včetně modelů o1 a o3 od OpenAI, beta verze uvažování Grok 3 přemýšlí o něco déle, aby poskytovala kvalitnější výsledky.
Všechny modely Grok 3 mají konkurovat předním modelům. Grok 3 konkuruje GPT-4o od OpenAI a Gemini od Googlu a Grok 3 Reasoning konkuruje 03-mini (vysoký), o1 a Deepseek-R1. S méně než 24 hodinami na trhu dominují nabídky xAI benchmarkům a žebříčkům.
Představení
Předškolení modelu skončilo na začátku ledna, a přestože stále prochází školením, Grok 3 překonal přední modely v benchmarcích umělé inteligence, včetně AIME '24, který testuje matematické uvažování; GPQA, která testuje znalosti přírodních věd, konkrétně biologie, fyziky a chemie; a LCB říjen-únor, který testuje schopnosti kódování.
Model uvažování Grok 3 a model uvažování Grok 3 mini se stále vyvíjejí, ale podle výsledků, které xAI sdílela během živého přenosu, si beta verze obou modelů vedly konkurenceschopně proti o3-mini (high), o1, DeepSeek-R1 a Gemini-2 Flash Thinking napříč AIME, GPQA a LCB.
Kromě technických benchmarků se Grok 3 vyšplhal na žebříčky na Chatbot Arena, crowdsourcingové platformě, kde mohou uživatelé hodnotit LLM chatováním se dvěma LLM vedle sebe a porovnáváním jejich odpovědí mezi sebou, aniž by znali názvy modelů.
BREAKING: @xAI raná verze Grok-3 (kódové označení "čokoláda") je nyní #1 v Aréně! 🏆
Grok-3 je:
- První model, který překonal skóre 1400!
- #1 napříč všemi kategoriemi, milník, jehož dosažení je stále těžší
Obrovská gratulace @xAI k tomuto milníku! Zobrazit vlákno 🧵 ... https://t.co/p8z8lccNd5 pic.twitter.com/hShGy8ZN1o
Před oficiálním uvedením Grok 3 běžela v aréně raná verze modelu pod názvem "čokoláda" a umístila se na prvním místě nad Gemini, GPT-4o, DeepSeek r1 a dalšími ve všech kategoriích. Stal se také prvním modelem, který v aréně překonal skóre 1400.
DeepSearch
Aby společnost xAI uspokojila poptávku po agentských schopnostech, spustila také DeepSearch, který je podobný funkcím hlubokého výzkumu OpenAI a Google. S DeepSearch mohou uživatelé položit otázku a Grok ji promyslí, prohledá web, vypíše svůj myšlenkový proces za pochodu a poté vygeneruje konečnou, robustní odpověď s daty a tabulkami podle potřeby. To znamená, že jej můžete požádat, aby prozkoumal téma, vrátit se o 10 minut později a úkol bude dokončen .
Jednou z největších předností je schopnost procházet Grokovy myšlenky - "číst v Grokově mysli" - a pochopit, jak dospěly ke své konečné reakci. Díky tomu je prostředí lépe ovladatelné a pomůže vám lépe porozumět vašim výsledkům.
Jak získat přístup
Ode dneška máte přístup k některým modelům Grok v beta verzi. Grok 3 je k dispozici na X Premium+, který uživatelům také poskytuje přístup k nejnovějším funkcím, zvýšený limit použití, přístup k DeepSearch a pokročilé režimy uvažování kliknutím na možnosti "Think" nebo "Big Brain".
Předplatné X Premium+ stojí 40 $měsíčně, což je nárůst z 22 $před oznámením, jak si všiml TechCrunch, a předplatitelé by měli aktualizovat aplikaci, aby viděli aktualizace.
xAI také představila novou úroveň předplatného, SuperGrok, podobnou ChatGPT Pro, určenou pro super fanoušky, kteří chtějí co nejdříve přístup k nejpokročilejším funkcím. Cena tohoto plánu ještě nebyla sdílena, ale můžete očekávat, že to bude pořádný cent, protože předplatné Pro od OpenAI stojí 200 $měsíčně.
U nejvyleštěnější verze Musk doporučuje uživatelům, aby počkali týden. Do té doby bude pravděpodobně připravena k nasazení nová hlasová integrace.
Pokud byste se raději zúčastnili Chatbot Areny a vyzkoušeli si Grok 3, navštivte webovou stránku, klikněte na Arena vedle sebe, z rozbalovací nabídky vyberte "early-grok-3" a zadejte ukázkový prompt. I když má aréna stále ranou verzi Grok 3, stále se jedná o výkonný model; Ostatně ve srovnání s ostatními modely, které jsou v nejnovějších verzích, se dostal na vrchol žebříčku.