Новый трюк с игрой в го превосходит го-ИИ мирового класса, но проигрывает энтузиастам-людям

Развернуть / Фишки для го и свод правил для доски для го. Гетти Изображений
В мире искусственного интеллекта с глубоким обучением большое значение имеет древняя настольная игра Го. До 2016 года лучший игрок в го всегда мог победить самого мощного ИИ. Ситуация изменилась с появлением AlphaGo от DeepMind, которая использовала нейронные сети глубокого обучения для изучения игры на уровне, недосягаемом для людей. Совсем недавно KataGo стал популярным как ИИ с открытым исходным кодом, способный побеждать лучших игроков в го среди людей.

На прошлой неделе группа исследователей искусственного интеллекта опубликовала статью, в которой описывается способ победить KataGo с помощью враждебных методов, использующих слепые зоны KataGo. Играя неожиданные ходы за пределами тренировочного набора KataGo, гораздо более слабое расписание игры в го (которое могут превзойти люди-любители) может привести к проигрышу KataGo.

Чтобы понять это достижение и его последствия, мы поговорили с одним из соавторов статьи, Адамом Гливом, который имеет докторскую степень. кандидат Калифорнийского университета в Беркли. Глив (вместе с соавторами Тони Ваном, Норой Белроуз, Томом Ценгом, Джозефом Миллером, Майклом Д. Деннисом, Явеном Дуаном, Виктором Погребняком, Сергеем Левином и Стюартом Расселом) разработал то, что исследователи ИИ называют «состязательной политикой». В этом случае искатели политики используют смесь нейронной сети и метода поиска по дереву (называемого поиском по дереву Монте-Карло), чтобы найти ходы Go.

Искусственный интеллект мирового класса KataGo выучил го, сыграв миллионы игр против самого себя. Но этого опыта еще недостаточно, чтобы охватить все возможные сценарии, оставляя место для уязвимостей из-за неожиданного поведения. «KataGo хорошо обобщает многие новые стратегии, но чем дальше он уходит от игр, которые он видел на практике, тем слабее», — говорит Глив. «Наш противник обнаружил такую стратегию «вне распространения», для которой KataGo особенно уязвим, но, вероятно, существует гораздо больше».

Глив объясняет, что в матче по го состязательная политика работает так, что сначала нужно захватить небольшой угол доски. Он дал ссылку на пример, в котором соперник, контролируя черные камни, играет широко в правом верхнем углу доски. Противник позволяет KataGo (играет белым цветом) захватить остальную часть доски, в то время как противник разыгрывает несколько камней, которые легко захватить на этой территории.

Увеличить / Пример противоречивой политики исследователей, играющих против KataGo. Адам Глив
«Это заставляет КатаГо думать, что он уже выиграл, — говорит Глив, — поскольку его территория (внизу слева) намного больше, чем у противника. Но территория внизу слева на самом деле не влияет на его счет (только белые камни, которыми он играл) из-за наличия там черных камней, а это означает, что он не полностью безопасен."
Из-за его чрезмерной уверенности в победе (при условии, что он выиграет, если игра закончится и очки будут подсчитаны), КатаГо делает проходной ход,...

Технологии Nov 8, 2022 0 25 Add to Reading List

Новый трюк с игрой в го превосходит го-ИИ мирового класса, но проигрывает энтузиастам-людям

Иди по кусочкам и свод правил на доске для го.

В мире искусственного интеллекта с глубоким обучением большое значение имеет древняя настольная игра Го. До 2016 года лучший игрок в го всегда мог победить самого мощного ИИ. Ситуация изменилась с появлением AlphaGo от DeepMind, которая использовала нейронные сети глубокого обучения для изучения игры на уровне, недосягаемом для людей. Совсем недавно KataGo стал популярным как ИИ с открытым исходным кодом, способный побеждать лучших игроков в го среди людей.

На прошлой неделе группа исследователей искусственного интеллекта опубликовала статью, в которой описывается способ победить KataGo с помощью враждебных методов, использующих слепые зоны KataGo. Играя неожиданные ходы за пределами тренировочного набора KataGo, гораздо более слабое расписание игры в го (которое могут превзойти люди-любители) может привести к проигрышу KataGo.

Чтобы понять это достижение и его последствия, мы поговорили с одним из соавторов статьи, Адамом Гливом, который имеет докторскую степень. кандидат Калифорнийского университета в Беркли. Глив (вместе с соавторами Тони Ваном, Норой Белроуз, Томом Ценгом, Джозефом Миллером, Майклом Д. Деннисом, Явеном Дуаном, Виктором Погребняком, Сергеем Левином и Стюартом Расселом) разработал то, что исследователи ИИ называют «состязательной политикой». В этом случае искатели политики используют смесь нейронной сети и метода поиска по дереву (называемого поиском по дереву Монте-Карло), чтобы найти ходы Go.

Искусственный интеллект мирового класса KataGo выучил го, сыграв миллионы игр против самого себя. Но этого опыта еще недостаточно, чтобы охватить все возможные сценарии, оставляя место для уязвимостей из-за неожиданного поведения. «KataGo хорошо обобщает многие новые стратегии, но чем дальше он уходит от игр, которые он видел на практике, тем слабее», — говорит Глив. «Наш противник обнаружил такую стратегию «вне распространения», для которой KataGo особенно уязвим, но, вероятно, существует гораздо больше».

Глив объясняет, что в матче по го состязательная политика работает так, что сначала нужно захватить небольшой угол доски. Он дал ссылку на пример, в котором соперник, контролируя черные камни, играет широко в правом верхнем углу доски. Противник позволяет KataGo (играет белым цветом) захватить остальную часть доски, в то время как противник разыгрывает несколько камней, которые легко захватить на этой территории.

Пример враждебной политики исследователей, играющих против KataGo.

«Это заставляет КатаГо думать, что он уже выиграл, — говорит Глив, — поскольку его территория (внизу слева) намного больше, чем у противника. Но территория внизу слева на самом деле не влияет на его счет (только белые камни, которыми он играл) из-за наличия там черных камней, а это означает, что он не полностью безопасен."

Из-за его чрезмерной уверенности в победе (при условии, что он выиграет, если игра закончится и очки будут подсчитаны), КатаГо делает проходной ход,...