Vyhledávání na webu

Grok 3 od xAI je lepší, než se očekávalo. Jak si ji zdarma vyzkoušet (před přihlášením k odběru)


Model umělé inteligence, který otřásl světem, je součástí širokého trendu vyždímat z čipů více. Zde je návod, jak to funguje.

Trh s umělou inteligencí (AI) - a celý akciový trh - byl minulý měsíc otřesen náhlou popularitou DeepSeek, open-source velkého jazykového modelu (LLM) vyvinutého čínským hedgeovým fondem, který v některých úkolech překonal ty nejlepší od OpenAI, přičemž stál mnohem méně.

Jak podrobně popisuje Radhika Rajkumar z ZDNET, úspěch R1 zdůrazňuje obrovskou změnu v umělé inteligenci, která by mohla umožnit menším laboratořím a výzkumníkům vytvářet konkurenceschopné modely a diverzifikovat dostupné možnosti.

Proč DeepSeek funguje tak dobře?

Její úspěch je způsoben širokým přístupem v rámci forem hlubokého učení, které se snaží vymáčknout více z počítačových čipů využitím jevu známého jako "řídkost".

Řídkost přichází v mnoha podobách. Někdy to zahrnuje odstranění částí dat, která umělá inteligence používá, když tato data podstatně neovlivňují výstup modelu.

Jindy řídkost zahrnuje odříznutí celých částí neuronové sítě, pokud to neovlivní výsledek.

DeepSeek je příkladem toho druhého: úsporné používání neuronových sítí.

Hlavním pokrokem, který většina lidí identifikovala v DeepSeek, je to, že dokáže zapínat a vypínat velké části "vah" nebo "parametrů" neuronové sítě. Parametry určují, jak může neuronová síť transformovat vstup - zadanou výzvu - na generovaný text nebo obrázky. Parametry mají přímý vliv na to, jak dlouho trvá provedení výpočtů. Více parametrů obvykle znamená větší výpočetní úsilí.

Řídkost a její role v umělé inteligenci

Schopnost použít pouze některé z celkových parametrů LLM a zbytek vypnout je příkladem řídkosti. Tato řídkost může mít zásadní vliv na to, jak velký nebo malý je výpočetní rozpočet pro model AI.

Výzkumníci umělé inteligence společnosti Apple ve zprávě zveřejněné 21. ledna vysvětlili, jak DeepSeek a podobné přístupy využívají řídkost k dosažení lepších výsledků pro dané množství výpočetního výkonu.

Apple nemá žádné spojení s DeepSeek, ale technologický gigant provádí svůj vlastní výzkum umělé inteligence. Proto je vývoj externích společností, jako je DeepSeek, široce součástí pokračujícího zapojení společnosti Apple do výzkumu umělé inteligence.

V článku nazvaném "Parameters vs FLOPs: Scaling Laws for Optimal Sparsity for Mixture-of-Experts Language Models", zveřejněném na předtiskovém serveru arXiv, hlavní autor Samir Abnar a další výzkumníci společnosti Apple spolu se spolupracovníkem Harshayem Shahem z MIT studovali, jak se výkon měnil, když využívali řídkosti vypínáním částí neuronové sítě.

Abnar a jeho tým provedli své studie pomocí knihovny kódu vydané v roce 2023 výzkumníky umělé inteligence ze společností Microsoft, Google a Stanford, která se nazývá MegaBlocks. Dávají však jasně najevo, že jejich práci lze aplikovat na DeepSeek a další nedávné inovace.

Abnar a jeho tým se ptají, zda existuje "optimální" úroveň řídkosti v DeepSeek a podobných modelech: existuje pro dané množství výpočetního výkonu optimální počet těchto nervových vah pro zapnutí nebo vypnutí?

Výzkum naznačuje, že řídkost můžete plně kvantifikovat jako procento všech nervových vah, které můžete vypnout, přičemž toto procento se blíží, ale nikdy se nerovná 100 % neuronové sítě, která je "neaktivní".

Grafy ukazují, že pro danou neuronovou síť, při daném výpočetním rozpočtu, existuje optimální množství neuronové sítě, které lze vypnout, aby bylo dosaženo úrovně přesnosti. Stejné ekonomické pravidlo platí pro každou novou generaci osobních počítačů: buď lepší výsledek za stejné peníze, nebo stejný výsledek za méně peněz.

Pro neuronovou síť dané velikosti v celkových parametrech, s daným množstvím výpočtů, potřebujete stále méně parametrů, abyste dosáhli stejné nebo lepší přesnosti v daném srovnávacím testu AI, jako je matematika nebo odpovídání na otázky.

Jinak řečeno, bez ohledu na váš výpočetní výkon můžete stále více vypínat části neuronové sítě a dosahovat stejných nebo lepších výsledků.

Optimalizace umělé inteligence s menším počtem parametrů

Jak Abnar a jeho tým uvedli v technických termínech: "Zvyšování řídkosti při proporcionálním rozšiřování celkového počtu parametrů konzistentně vede k nižším ztrátám před trénováním, i když jsou omezeny pevným rozpočtem na výpočty tréninku." Termín "ztráta předtrénování" je termín umělé inteligence pro to, jak přesná je neuronová síť. Nižší ztráta tréninku znamená přesnější výsledky.

Toto zjištění vysvětluje, jak by DeepSeek mohl mít menší výpočetní výkon, ale dosáhnout stejných nebo lepších výsledků jednoduše vypnutím více částí sítě.

Řídkost je jako kouzelný číselník, který najde nejlepší shodu pro váš model AI a dostupné výpočetní prostředky.

Stejné ekonomické pravidlo platí pro každou novou generaci osobních počítačů: buď lepší výsledek za stejné peníze, nebo stejný výsledek za méně peněz.

O DeepSeek je třeba zvážit některé další podrobnosti. Například další inovací DeepSeek, jak vysvětlil Ege Erdil ze společnosti Epoch AI, je matematický trik zvaný "vícehlavá latentní pozornost". Aniž bychom zacházeli příliš hluboko do plevele, vícehlavá latentní pozornost se používá ke kompresi jednoho z největších spotřebitelů paměti a šířky pásma, vyrovnávací paměti, která obsahuje poslední vstupní text výzvy.

Budoucnost výzkumu řídkosti

Pomineme-li detaily, nejhlubším bodem celého tohoto úsilí je to, že řídkost jako fenomén není ve výzkumu umělé inteligence ničím novým, ani není novým přístupem v inženýrství.

Výzkumníci v oblasti umělé inteligence již mnoho let prokazují, že odstraněním částí neuronové sítě lze dosáhnout srovnatelné nebo dokonce lepší přesnosti s menším úsilím.

Konkurent společnosti Nvidia, společnost Intel , již mnoho let identifikuje řídkost jako klíčovou směr výzkumu, který má změnit stav techniky v této oblasti. Přístupy startupů založené na řídkosti také v posledních letech zaznamenaly vysoké skóre v průmyslových srovnávacích testech.

Magický číselník řídkosti nesnižuje pouze výpočetní náklady, jako v případě DeepSeek. Řídkost funguje i opačným směrem: může vyrábět stále efektivnější počítače s umělou inteligencí.

Magický číselník řídkosti je hluboký, protože nejen zlepšuje ekonomiku s malým rozpočtem, jako v případě DeepSeek, ale funguje také opačným směrem: utrácejte více a díky řídkosti získáte ještě lepší výhody. Jak zvyšujete svůj výpočetní výkon, přesnost modelu umělé inteligence se zlepšuje, zjistil Abnar a jeho tým.

Navrhli: "Se zvyšující se řídkostí se snižuje ztráta ověření pro všechny výpočetní rozpočty, přičemž větší rozpočty dosahují nižších ztrát na každé úrovni řídkosti."

Teoreticky tedy můžete vyrábět větší a větší modely, na větších a větších počítačích, a získat lepší poměr ceny a kvality.

Všechna tato řídká práce znamená, že DeepSeek je jen jedním z příkladů široké oblasti výzkumu, kterou již mnoho laboratoří sleduje - a mnoho dalších nyní naskočí, aby zopakovalo úspěch DeepSeek.