O.S.E.L. - Nová inteligence Kosmos-1 chápe význam obrázků a řeší vizuální IQ testy
 Nová inteligence Kosmos-1 chápe význam obrázků a řeší vizuální IQ testy
Microsoft stvořil multimodální umělou inteligenci Kosmos-1, která analyzuje obrázky, dělá k nim popisky, odpovídá na otázky o obrázcích a ve vizuálních IQ testech porazí přinejmenším náhodu. Právě multimodální inteligence by mohly být klíčovým mezičlánkem k obecné, „opravdové“ umělé inteligenci, která zastane prakticky jakékoliv lidské intelektuální zaměstnání. Umíte něco rukama?

Blíží se multimodální inteligence. Kredit: Ars Technica.
Blíží se multimodální inteligence. Kredit: Ars Technica.

Na explozi umělých inteligencí se horlivě podílí i Microsoft. V pondělí 27. února (2023) představili novou inteligenci Kosmos-1, která podle Microsoftu dokáže analyzovat obsah obrázků, řeší vizuální hádanky, odpovídá na dotazy o obrázcích, umí vytvořit k obrázkům popisky, zvládá vizuální rozpoznávání textu i do jisté míry i vizuální IQ testy a rozumí instrukcím v přirozeném jazyce.

 

Furu Wei. Kredit: Microsoft Research.
Furu Wei. Kredit: Microsoft Research.

Kosmos-1 je multimodální inteligence. Zahrnuje různé typy vstupů, včetně textu, audia, obrázků a videa. Furu Wei z Microsoft Research a jeho spolupracovníci věří, že právě multimodální inteligence představuje klíčový krok na cestě k „pravé“ umělé inteligenci, která bude řešit problémy na úrovni srovnatelné s lidskou inteligencí.

 

Lidé jsou dnes nadšení z velkých jazykových modelů LLM (Large language model), jako je třeba ChatGPT. Někteří experti na umělé inteligence ale věří, že cesta k obecné umělé inteligenci AGI (Artificial general intelligence), tedy „opravdové“ umělé inteligenci, vede přes multimodální inteligence, jako je Kosmos-1.

 

Ukázka schopností inteligence Kosmos-1. Kredit: Huang et al. (2023), arXiv.
Ukázka schopností inteligence Kosmos-1. Kredit: Huang et al. (2023), arXiv.

Obecné umělé inteligence by měly přesáhnout infrastrukturu stroje, na němž budou vytvořeny a měly by zvládnout praktické každé lidské zaměstnání spoléhající na intelekt. Vytvoření takové inteligence je deklarovaným cílem organizace OpenAI, která je hlavním partnerem Microsoftu ve vývoji inteligencí.

 

Inteligence Kosmos-1 je ale zřejmě čistě záležitost Microsofru. Jde vlastně o multimodální velký jazykový model MLLM (Multimodal large language model), protože vychází ze zpracování přirozeného jazyka, jako to dělají čistě textové inteligence typu ChatGPT. Badatelé při komunikaci s Kosmosem-1 museli obrázky překlopit do podoby textu, se kterým umějí pracovat textové inteligence.

 

Pokud jde o výuku inteligence Kosmos-1, Wei a spol. ji vycvičili na velikých souborech dat původem z internetu, které zahrnovali například volně dostupná data z rozsáhlého datasetu pro výcvik inteligencí anglického textu Pile a archivu služby Common Crawl. Po absolvování výuky vypustili Kosmos-1 na řadu různých testů. V mnoha z nich Kosmos-1 porazil nejlepší soudobé inteligence.

 

##seznam_reklama##

Práce na multimodálních inteligencích teprve začínají. Kosmos-1 má své mouchy, ale podle jeho tvůrců stále zůstává ohromný prostor pro zlepšení. V plánu je podstatné zvětšení modelu i zahrnutí schopnosti řeči. Microsoft rovněž plánuje poskytnout Kosmos-1 vývojářům, takže by se zakrátko mohl s multimodálními inteligencemi roztrhnout pytel.

 

Video: Gravitas: Microsoft's yet-to-be-released chatbot goes rogue

 

Video: Yes, We Are At A Tipping Point: ChatGPT Is Just The Beginning Of How AI Will Soon Change Everything

 

Literatura

ARS Technica 3. 2. 2023.

arXiv:2302.14045.


Autor: Stanislav Mihulka
Datum:04.03.2023