Бот Pluribus: окончательный убийца онлайн-покера?

Автор

NewSted

Опубликовано

14.07.2019

Обновлено

30.07.2020

Не прошло и суток после публикации журналом Science и Facebook информации о новом супер-боте Pluribus, который, якобы, может бить 6-макс кеш, даже играя против PRO-игроков, как эта новость стала распространяться в интернете со скоростью лесного пожара, а на покерных форумах уже начали считать дни до окончательной смерти онлайн-покера. Попробуем и мы разобраться, что же все-таки произошло.

Pluribus: на что способен новый покерный бот?

Так как уже сейчас информации о Pluribus достаточно много, на русском языке мы не будем выдавать много текста с подробным описанием его истории, показанных винрейтов и принципов работы, а коротко перечислим его особенности, достижения и, что намного важнее, дадим собственную интерпретацию возможного влияния Pluribus на современный онлайн-покер.

В чем принципиальное отличие Pluribus от всех предыдущих ботов?

Игра за 6-макс столом. Все предыдущие боты, в том числе прямой прародитель Pluribus – Libratus (в 2017 он первым обыграл команду PRO-игроков Дугласа Полка), могли играть только хедз-апы. Их алгоритмы, основанные на равновесии Нэша, за столом с большим числом игроков уже не могли обеспечить учет всех переменных и плюсовую игру;
Потребляемые мощности. По заявлению разработчиков, Pluribus в процессе игры использовал компьютер со 128Гб оперативной памяти и два 14-ядерных процессора, а для его обучения использовался облачный сервис, стоимостью в $150. Это, конечно, мощное железо, но уже не суперкомпьютер целого университета, стоимостью в десятки миллионов долларов;
Новый алгоритм подбора решений. Именно он позволил Pluribus выйти за пределы хедз-апов и снизить потребляемые мощности. Этот бот не просто перебирает все возможные в данной ситуации решения, а, основываясь уже на сыгранных раздачах, обучается, и может сразу отбрасывать ненужные древа решений и группировать оставшиеся по признакам, нужным в данном случае.

Некоторые источники добавляют к этому списку самообучаемость бота (изначально в него загрузили только правила покера), но, по крайней мере, Libratus тоже в большей мере основывался на уже сыгранной им базе, а не на готовых решениях.

В каких условиях и кого обыграл Pluribus?

Поводов для появления открытой информации о боте послужили итоги его игры против группы из 15 добровольцев. Многие из них - это известные игроки: Крис Фергюсон, Ник Петранжело, Грег Мерсон. Правда, почти все они МТТ-шники. Интересно, что в статье в блоге Facebook в этом списке появляется еще и один из сильнейших в мире кеш-игроков Линус "LLinusLLove" Лёлигер, а вот в материале Science о нем нет ни слова. Так что тут ваше право выбирать кому больше верить: Facebook или Science.

Игра шла в следующем формате:

Один 6-макс стол с блайндами 50/100 и статичным стеком в 10,000 фишек, без рейка, без анте и очень большими таймбанками;
Трое людей играли в формате 5 ботов+1 человек и показали по итогам 10 тысяч раздач средний минусовой винрейт в 3,27bb/100;
Остальные живые игроки участвовали в среднем по 4 часа в катке формате 1бот+5 людей и по итогам бот выиграл 4,77 бб/100.

Вот почти 5-минутное видео игры Pluribus против реальных соперников:

Так что каждый может увидеть, как он играет, и составить собственное мнение о силе бота.

Pluribus: реальные возможности и влияние на онлайн-покер

В итоге мы получили следующее:

Новый покерный бот Pluribus в условиях, которых никогда не было и не будет в онлайн-покере, показал плюсовой винрейт в кеше без учета рейка в игре против группы оффлайн турнирных игроков, (некоторые из которых вряд ли побили бы современный NL50$ на Старзах). Сам по себе это очень хороший результат для индустрии искусственного интеллекта, который будет работать в среде с неполной информацией, и сможет помочь обществу в различных сферах. Но нас, конечно, интересует, как появление Pluribus повлияет на современный онлайн-покер. Чтобы полнее понять это влияние, надо упомянуть еще несколько фактов:

Использованный в боте алгоритм минимизации потерь (Monte Carlo counterfactual regret minimization) всем хорошо известен по большинству солверов;
Перед началом встречи с живыми людьми Pluribus в течение 8 дней играл сам с собой на сервере с 64-ядерным процессором;
То есть самообучение бота, по идее, началось с восьми дневных расчетов в солвере на очень мощном железе, тогда как его соперники о GTO в кеше, скорее всего, ничего не знали.

Пессимизм в покерном сообществе во взглядах на будущее онлайн-покера в связи с появлением Pluribus большинство игроков высказывают потому, что получено принципиально решение для плюсовой игры за 6-макс столами для самообучающегося бота, нетребовательного к ресурсам, и скоро потомков Pluribus можно будет купить за сотню баксов для ноутбука и играть в плюс любые лимиты. И в итоге современный онлайн-покер, как игра людей против людей, умрет, разделив, например, судьбу тех же онлайн-шахмат.

Опасения вполне обоснованные, но не учитывающие некоторые факты:

Во-первых, создатели Pluribus делится ни с кем алгоритмами не собираются, так же, как и использовать его в реальной игре в интернете. То есть создание подобного бота более нечестными людьми может занять не один год;
Во-вторых, даже бот, аналогичный Pluribus, не приспособлен к игре в современных румах, для подобной адаптации нужно время и перед ботоводами при этом могут встать новые проблемы, а его нетребовательность к “железу” немного преувеличена, так как для начального обучения подобного бота все равно потребуется очень мощный и дорогой ПК;
В-третьих, даже если лет через 5 появится Pluribus 100-уровня, который сможет играть в плюс на любых лимитах в реальных румах (с рейком, динамическими стеками, небольшим таймбанком и за несколькими столами), который можно будет купить за сотни или несколько тысяч долларов и поставить на любой средний ПК - это не значит, что покер-румы будут все это время бездействовать и смотреть, как развивается ПО, убивающее их бизнес.

В последнем пункте как раз и состоит главное отличие современной индустрии онлайн-покера от тех же онлайн-шахмат, полностью проигравших войну ботам. Этот пункт не только отсрочивает смерть онлайн-покера, как первые два, но и дает шансы вообще избежать подобного исхода. Мы не будем сейчас касаться всех возможных вариантов изменений покер-румов, которые могут сильно осложнить или сделать вообще невозможным использование ботов, но то, что они будут появляться у нас, нет никакого сомнения. Ведь даже те люди, что считают, что румам могут быть выгодны минусовые или околонулевые боты для создания экшена и набивания рейка, не будут отрицать, что боты, подобные Pluribus, уже никаким образом и никому, кроме любителей быстрой наживы, за столами не нужны.

Вывод

В данный момент основной реальный минус для индустрии онлайн-покера от появления Pluribus - это разжигание информационной шумихи вокруг него падкой до сенсаций непокерной прессы. У игроков-любителей или тех людей, которые еще только хотят начать играть, после заголовков о программах, которые могут обыграть за 6-макс столом даже профессиональных игроков, явно поубавиться желания заносить свои деньги в подобную индустрию.

Также, важно понимать, что оппонентами Плюрибуса выступили игроки, которые в принципе не играют профессиональено в кеш-игры онлайн (чего только выбор Фергюсона стоит) и врядли показали бы плюсовые винтрейты на низких лимитах PokerStars. К тому же игра проходила без рейка.

Борьба с ботами и ботоводами даже в их текущем состоянии очень важна для будущего онлайн-покера. Но какие бы «подарки» нам не преподносил технический прогресс, если румы игроки и аффилейты объединят свои усилия в борьбе против этой беды, то возможная смерть онлайн-покера станет очень и очень отдаленной перспективой.

UPD: На форуме 2+2 появилась интересная инофрмация поставившая под сомнение сам факт плюсовой игры Pluribus против нескольких живых покеристов. Один из пользователей форума сконвертировал 10,000 раздач сыгранных ботов в партии против людей и получилось, что винрейт Pluribus составил минус 7.09bb на 100 рук и это при игре без рейка.

А откуда же взялись плюсовые винрейты из статей на Science и Facebook? Все дело скорее всего в так называемом алгоритме Aivat, который ученые использовали для сглаживания влияния дисперсии на достоверность винрейтов. В итоге выходит, что победу над людьми одержал не бот, а этот алгоритм. Это конечно не снижает важности проблемы ботов в онлайн-покере, но делает всю эту историю с Pluribus более сомнительной и мало правдободной.

Все новости по игре в различных румах и закрытых резервациях на приватных условиях мы публикуем в нашем Телеграм-канале. Подпишись, чтобы не упускать EV.