Упорядочите следующие шаги в обучении модели Policy Gradi... | znaet.guru

#1244506

Упорядочите следующие шаги в обучении модели Policy Gradients в порядке их выполнения:

Варианты ответа:

генерация нескольких эпизодов с помощью текущей политики
вычисление функции потери
расчёт градиента функции потери по параметрам политики
обновление параметров политики с помощью градиентного спуска
повторение шагов a-d до достижения сходимости

🔒 Ответ будет доступен после оплаты

Тематика: Компонентный состав временных рядов. Алгоритмический подход к выделению тренда Нейронные сети и машинное обучение Основы искусственного интеллекта

📚 Похожие вопросы по этой дисциплине