Rok 2022 byl přelomovým rokem, kdy se umělá inteligence (AI) stala předmětem veřejné debaty, a rok 2023 byl rokem, kdy se začala používat v podnikání. Rok 2024 přináší nové výzvy a příležitosti, protože výzkumníci a podniky hledají způsoby, jak co nejlépe integrovat umělou inteligenci do každodenního života.
V tomto článku se podíváme na některé z nejdůležitějších trendů v oblasti AI, na které bychom se měli připravit a které bychom měli být schopni v nadcházejícím roce využít.
Další vlna pokroku se zaměří nejen na zlepšení výkonu v rámci určité oblasti, ale také na multimodální modely, které mohou jako vstup používat více typů dat. Modely, které pracují s různými modalitami dat, sice nejsou úplně novým fenoménem, ale modely převodu textu na obraz, jako je CLIP, a modely převodu řeči na text, jako je Wave2Vec, existují již několik let. Obvykle pracují pouze jedním směrem a byly vyškoleny k plnění konkrétního úkolu.
Nastupující generace mezioborových modelů zahrnuje proprietární modely, jako je GPT-4V společnosti OpenAI nebo Gemini společnosti Google, a také modely s otevřeným zdrojovým kódem, jako jsou LLaVa, Adept nebo Qwen-VL. Tato generace může volně přecházet mezi úlohami zpracování přirozeného jazyka (NLP), počítačového vidění a dokonce zapojit do hry i video. Koncem ledna společnost Google oznámila model Lumiere pro tvorbu videa z textu, který dokáže také provádět úlohy z obrázku nebo používat obrázky jako stylistickou referenci.

Tyto pokroky umožňují vytvářet intuitivnější aplikace a virtuální asistenty s umělou inteligencí a přinášejí nové možnosti interakce s technologiemi.
V doménově specifických modelech - zejména LLM, jsme pravděpodobně dosáhli bodu klesající návratnosti většího počtu parametrů.
Pouze největší společnosti mají prostředky a serverový prostor na trénování a udržování energeticky náročných modelů se stovkami miliard parametrů. Odhaduje se, že trénování jediného modelu velikosti GPT-3 vyžaduje roční spotřebu elektrické energie více než 1 000 domácností. Běžný den požadavků ChatGPT odpovídá denní spotřebě energie 33 000 amerických domácností.
Menší modely jsou přitom mnohem méně náročné na zdroje. Studie společnosti Deepmind z března 2022 ukázala, že trénování menších modelů na větším množství dat přináší lepší výkon než trénování větších modelů na menším množství dat. Velká část probíhajících inovací v oblasti LLM se tedy zaměřuje na získání většího výkonu z menšího počtu parametrů.
Výkon otevřených modelů proto bude i nadále růst. V prosinci 2023 vydala společnost Mistral model "Mixtral", který integruje 8 neuronových sítí, z nichž každá má 7 miliard parametrů. Společnost tvrdí, že nejenže ve většině benchmarků překonává 70B variantu Llama 2 s parametry při 6násobné rychlosti inference, ale dokonce se vyrovná nebo překoná mnohem větší GPT-3.5 OpenAI ve většině standardních benchmarků.

Tyto pokroky v menších modelech mají tři důležité výhody:
Lze je spouštět lokálně na menších zařízeních: umožňují sofistikovanější AI ve scénářích, jako je edge computing a internet věcí (IoT). Lokální spouštění modelů například na chytrém telefonu uživatele navíc pomáhá obejít řadu obav o soukromí a kybernetickou bezpečnost, které vznikají při interakci s citlivými daty.
Trend směřující k menším modelům bude vyvolán stejně tak nutností jako obchodním tlakem, protože náklady na cloud computing rostou s tím, jak se snižuje dostupnost hardwaru.

Zatímco velké společnosti investují do vlastních výpočetních zdrojů, stále více uživatelů se spoléhá na cloudové služby. Pro společnosti je proto důležité najít rovnováhu mezi efektivními menšími modely a výkonnějšími, ale dražšími modely.
Tyto trendy představují nové výzvy a příležitosti v oblasti umělé inteligence a jsou důležité pro další rozvoj této technologie v roce 2024.