单项选择题

A.一种用于优化策略的方法
B.一种用于计算状态值的方法
C.一种用于选择动作的规则
D.一种用于表示环境模型的数据结构