Упорядочите следующие шаги в алгоритме Policy Gradients в... | znaet.guru

#1244505

Упорядочите следующие шаги в алгоритме Policy Gradients в порядке их выполнения:

Варианты ответа:

вычисление вероятностей каждого действия с помощью текущей политики
вычисление функции вознаграждения по эпизоду
вычисление градиента логарифма вероятности выбранного действия
обновление параметров политики с помощью градиентного спуска
выбор действия на основе вероятностей, вычисленных ранее

🔒 Ответ будет доступен после оплаты

Тематика: Компонентный состав временных рядов. Алгоритмический подход к выделению тренда Нейронные сети и машинное обучение Основы искусственного интеллекта

📚 Похожие вопросы по этой дисциплине