Правила соревнования

Общая процедура

Машина команды

Каждая команда получит удаленный доступ к виртуальной машине с GPU. На этой машине команда сможет устанавливать любое программное обеспечение, необходимое для работы разрабатываемого алгоритма. Машина предназначена для разработки и обучения моделей.

Машина тестирования

На отдельной виртуальной машине для каждой команды устанавливается ALE (arcade learning environment), запуски игр на которой управляются с основной машины команды удаленно. Машина не участвует в расчётах, а используетя для журналирования процесса тестирования моделей команд. По результатам тестирования и будет определяться победитель.

Тестирование результатов команд

С 20:00 до 08:00 команды могут запускать тестирование своих агентов на выделеных серверах. В качестве результата будет рассматриваться последний запуск.

В 12:00 следующего дня публикуются результаты – количество очков, набранных командами в каждой игре.

Схема тестирования

В тесте участвуют 3 заранее известных игры. На кажую из игр команда должна заявить своего агента-ALE. Далее все агенты запускаются по 30 раз с длиной сессии не более 5 мин (ограничивается количеством фреймов и идентично для всех участников) на каждой игре отдельно. В ходе теста для каждого агента вычисляется его средний результат по каждой игре.

Опишем расчет очков для одной игры. Пусть в тестировании участвовало 14 агентов. Пусть S1, S2, … , S14 – средние результаты агентов. Вычислим средний результат по игре

Пусть A = MАКС(S1, S2, … , S14), B = MИН(0,S1, S2, … , S14)

Значение очков для команды агента под номером i вычисляется следующим образом

Итог_i = (Si – B)/(A-B)

Если агент не был заявлен на тестирование, команде назначается штраф = -0,2 очка.

Пример.

Команда Арбуз заявила агентов А1, А2, А3 на игру И1, И2, И3.

Команда Банан заявила агентов Б1, Б2, Б3 на игру И1, И2, И3.

Команда Вишня заявила агентов В1, В3 на игру И1, И3.

Команда Груша заявила агентов Г1, Г2, Г3 на игру И1, И2, И3.

Команда Дыня заявила агентов Д1, Д2, Д3 на игру И1, И2, И3.

В результате теста агенты команд набрали следующие очки:

Команда\Игра И1 И2 И3
Арбуз 344 53 1302
Банан 343 99 900
Вишня 347 789
Груша 340 -7 1560
Дыня 350 57 900

После подсчета имеем следующий рейтинг

Команда\Игра И1 И2 И3 Итого
Арбуз 0,98 0,57 0,83 2,38
Банан 0,98 1,00 0,58 2,56
Вишня 0,99 -0,20 0,51 1,30
Груша 0,97 0,00 1,00 1,97
Дыня 1,00 0,60 0,58 2,18

Схема тестирования может быть изменена в случае выявления нарушений.

Схема турнира

Турнир состоит из нескольких туров. Отборочный тур начинается 19-го июля и заканчивается 24-го июля. Во время отборочного тура алгоритмы участников тестируются на трех играх, выбранных организаторами.  Игры для тестирования не меняются в отборочном туре. Восемь команд, показавших лучший рейтинг, отбираются в четверть финал утром 24-го июля. После объявления результатов отборочного тура организаторы называют 3 новых игры, по одной игре для четвертьфинала, полуфинала и финала. Команды, прошедшие в финал, должны обучать своих агентов на новых играх без изменения кода обучающихся алгоритмов. Тестирование решений происходит по стандартной схеме.

В финальном туре команды случайно разбиваются на пары, и соревнуются по олимпийской системе – победители игр четверть финала переходят в полуфинал, победители полуфинала в финал.

Представление результатов

Восемь команд, прошедших в финал, представляют свои алгоритмы и результаты на стенде в рамках Hack the Game! Day.

Номинации

  1. За победу в финале.
  2. За победу в отборочном туре (получает команда с максимальным рейтингом на утро 24-го июля).
  3. За лучшее представление результатов (оценивается жюри).

Вопросы

  1. Почему нельзя просто нормировать? Агенту, который набрал максимум, ставить 1, а который набрал минимум – 0?

Ответ.

Потому что, если все агенты играют примерно одинаково, то получить 1 можно совершенно случайно. В то время как основная борьба может развернуться в игре, где агенты будут различаться в поведении существенно. (см. команду Банан vs Дыня выше)

  1. Какие условия тестирования были в статье DeepMind?

Ответ.

Такие же. The trained agents were evaluated by playing each game 30 times for up to 5 min each time

Posted in