Вулкан Удачи
13.07.2017Разделение задачи на подзадачи позволяет использовать алгоритмы обучения с подкреплением для уточнения отдельно каждого компонента форм поведения, в результате чего проект становится более гибким. Тактические формы поведения могут формироваться на основе любой комбинации функций, а средства ИИ адаптируются в целях поиска наиболее приемлемого подхода.
Принято предположение, что задача http://kazino-club-vulkan.net/vulkan-udachi/ разделена на компоненты. Каждый компонент управляет отдельной частью анимата, поэтому декомпозиция основана на структуризации выходных данных. Следует отметить, что и в первом, и во втором случае потребление памяти может быть одинаковым, поскольку в обоих случаях можно использовать идентичные проекты пространства состояний. Преимущества, достигаемые в последнем случае, связаны с упрощением самой задачи обучения с подкреплением.
Таким образом, обеспечивается возможность декомпозиции форм поведения на отдельные функции, но возможно также разбиение сигнала вознаграждения путем распределения его по компонентам соответствующим образом. Например, вознаграждение, связанное со сбором элементов, передается в компонент, предназначенный для сбора, а вознаграждение за причиненный противнику ущерб — в компонент, обеспечивающий стрельбу. Вознаграждение, предоставляемое в такой форме, принято называть модульным, в отличие от целостных сигналов вознаграждения (которые включают все формы обратной связи вместе взятые).