Изкуственият интелект DeepMind побеждава експертите в сложната игра Stratego

Стефан Николов Последна промяна на 06 декември 2022 в 09:54 2220 0

Снимка Andy Chase/Flickr

Xbox Game Pass загуби 4 млн. абоната заради поскъпването на абонамента

09/07/2026

Microsoft съкращава 4800 служители, прави пълен рестарт на Xbox звеното

Още една игра, която се считаше твърде сложна за машините, падна под техния натиск. Това е постигнато от изкуствения интелект DeepNash, създаден от специалистите на DeepMind. Той успя да победи най-добрите играчи на Stratego – сложна стратегическа настолна игра, в която участниците разполагат с доста непълна информация.

По някои параметри Stratego е по-сложна за изкуствения интелект в сравнение с шаха, Го и покера. Двама играчи поставят 40 фигури на терен с различен ранг и свойства, като противникът не вижда какви са фигурите на неговия опонент и само по косвени признаци може да се досеща коя точно фигура му се противопоставя. Задачата е да се завземе вражеското знаме. Дървото на играта Stratego – графът на всички възможни начини на развитие е равен на 10 на 535 степен. Играта Го например, има 10 на степен 360 варианта. Що се отнася до непълната информация, то Stratego също е по-сложна: играта има 10 на 66-та степен на възможното разположения на фигурите. Да добавим, че един от най-разпространените вариации на покер – Тексас Холдем за двама души има "само" 10 на 6-та степен варианта.

DeepNash е наречен по този начин в чест на математика Джон Наш, създател на фундаменталното понятие "Равновесието на Наш" от теорията на игрите. Според нея, възможно е създаването на устойчиво равновесие, което се поддържа от всички заинтересовани страни, понеже всяка промяна на стратегията би влошила тяхното положение и по този начин никой не иска и не възнамерява да прави самостоятелни промени в стратегията. В игрите има три положения – да имат само едно, няколко Равновесия на Наш или изобщо да нямат такова.

DeepNash обединява в едно мощен изкуствен интелект с обратна връзка за подсилване на обучението, с дълбока невронна мрежа, съобщава изданието Nature. Обучението с подсилване намира най-добрата стратегия за диктуване на действията за всяко едно състояние в играта. За да открие оптималната стратегия този AI е изиграл 5.5 млрд. игри срещу самия себе си. Ако едната страна победи – получава награда, а ако загуби се наказва, което води до промяна на параметрите на невронната мрежа, което означава промяна в стратегията. В крайна сметка DeepNash постига приблизителното Равновесие на Наш. Това е принципно нов подход, при който за разлика от предишните AI за игри, включително AlphaGo, новият DeepNash не търси решения в дървото на играта, за да се оптимизира.

В продължение на две седмици през месец април DeepNash е изиграл редица Stratego мачове срещу хора, което става на онлайн платформата Gravon. След 50 игри новият AI се издигна до третото място в класацията за всички играчи от 2002 г. досега.

"Нашата работа показа, че толкова сложна игра като Stratego, с използването на непълна информация, не изисква използването на техники за търсене, за да се постигне победа" – каза Карл Туилс, един от водещите специалисти на DeepMind.

"Постигнатите резултати са наистина впечатляващи" – заяви от своя страна Ном Браун, известен специалист в сферата на изкуствения интелект на Meta.

Това е една наистина голяма стъпка напред за изкуствения интелект на компанията под крилото на Alphabet (холдингът на Google). Това е поредният алгоритъм, който с справя с изключително сложни игри. Предишният голям успех на DeepMind е изкуственият интелект AlphaStar. Той е специализиран във видеоиграта StarCraft 2, в която също играчът има ограничено „виждане“ за действията на противника. Още преди три години, системата победи някои от най-големите имена в тази сфера.