Alpha Zero: soumrak slabých umělých inteligencí

Před 20 lety se lidé začali děsit, že počítače začínají být chytřejší než člověk. Garry Kasparov tehdy podlehl Deep Blue. Letos nás ten stroj už děsit nemusí. Nevyhraje ani jedinou ze sta partií proti Alpha Zero.

Šachové programy obvykle pracují na bázi pravidel, člověkem vložené vyhodnocovací funkce a procházení tahů do hloubky.

Vyhodnocovací funkce vypočítá skóre na základě materiálu (např. vlastní věž +500, soupeřův střelec -300), pozice (chráněný král, zdvojení pěšci, pokrytá pole a podobně) a tzv. doménové adaptace (v případě šachů databáze zahájení, koncovek a vybraných partií). Takto dokáží soutěžní sestavy vyhodnotit řádově miliony pozic za sekundu, což jde jako vstup do prozkoumávání všech legálních tahů. Ke každému z těchto tahů se zkoumají všechny možné soupeřovy reakce a počet možností exponenciálně roste: hrubé síle bezchybné vyhodnocovací funkce tak na výkonných strojích trvá přemýšlení šesti tahů dopředu řádově sekundy (a více příliš dlouho), což nestačí na velmistrovskou úroveň.

Drtivá většina pozic je však velmi hloupých a zavčasu se zavrhnou, což umožňuje hlubší prozkoumávání těch perspektivních. Má to ale háček: co může zprvu vypadat jako kiks (blunder), se může za pár tahů ukázat jako geniální obětování figury vedoucí k výhodě. Na člověka to ale bohatě stačí a lidé (komentátoři i hráči) dnes na stroje velmi spoléhají a vedou úvahy typu "Počítač tento tah nevyhodnotil dobře, byla to tedy chyba." Abychom se necítili méněcenně, nazýváme šachové stroje "umělou inteligencí", přestože to obvykle není nic víc, než bylo zmíněno výše.

Kdybychom této tzv. inteligenci upravili pravidla (například pro hraní střílečky), musel by člověk dodat jinou vyhodnocovací funkci a doménovou adaptaci, jinak by tato inteligence zůstala v jiných oblastech nepoučitelně blbá (politicky korektně ji označujeme "slabá umělá inteligence").

Princip prořezávání rozhodovacího stromu je u šachu účinný: každé pozici je průměrně 35 tahů možných, a průměrně jen 3 tahy rozumné, výkonné stroje tak dokáží vidět nejméně deset tahů dopředu.

Prořezávání stromu ale není vhodné např. pro hru Go (strom je tam příliš široký) a naopak velmi vhodné pro neuronové sítě (pracuje se vzory, transpozicemi) a není proto divu, že je pro pokročilé hráče celkem schůdné porazit i silné stroje, zatímco síť AlphaGo před časem porazila nejlepšího hráče Go, Lee Sedola.

Alpha Zero je ale jiná než AlphaGo: Zero znamená, že člověk nedodává žádnou doménovou adaptaci, pouze pravidla hry. Vyhodnocovací funkci si síť vytvoří na základě her sama se sebou a zpětnovazebného učení (reinforcement learning) pomocí nelineární vyhodnocovací funkce aplikující obecný MCTS algoritmus v hlubokých neuronových sítích (DNN).[1]

Univerzalita učení byla otestována ve třech různých hrách: šachy, shogi a go. Ve všech byla Alpha Zero s to porazit nejsilnější stroje, přestože odkázala vyhodnocovat řádově desetitisíce tahů za sekundu (tisícinový výkon oproti umělým protivníkům). Alpha Zero také hraje Atari hry, kde na vstup dostává pouze obraz. Nejenže se velmi brzy naučí hrát nadlidsky, ale dokáže si vytvořit i to, co chápeme jako strategii (např. u hry Breakout "přišla" na to, že cihličky se efektivněji likvidují, když si míčkem prorazí tunel na kraji do prostoru nad ním, viz video [2]).

U šachů bylo vítězství Alpha Zero nejpřesvědčivější: se známým algoritmem Stockfish využívajícím prořezávání stromu měla skóre (25-25-0) na pozici bílého a (3-47-0) na pozici černého, a to pouze po čtyřhodinovém předchozím trénování. Autoři zveřejnili 10 z těchto partií [1], které se oproti lidským vyznačují délkou (60, 80, 100 a více tahů), překvapivě poziční hrou Alpha Zero[3][4] a častými příležitostmi k remíze opakováním[5][6].

Jsme na prahu silné umělé inteligence?

Zdroje
[1] https://arxiv.org/pdf/1712.01815.pdf

[2] Video: Google DeepMind's Deep Q-learning playing Atari Breakout