单项选择题
在强化学习中,什么是“动态规划”(DynamicProgramming)()?
A.一种用于优化策略的方法B.一种用于计算状态值的方法C.一种用于选择动作的规则D.一种用于表示环境模型的数据结构
单项选择题 在强化学习中,什么是“马尔可夫性质”()?
单项选择题 Mixup 数据增广的关键点是什么()?
单项选择题 强化学习算法中,用于优化策略的一种方法是:()。