【马尔可夫决策过程引论】胡奇英刘建庸.pdf

国家科学技术学术著作出版基金资助出版马尔可夫决策过程引1论胡奇英刘建庸著

前言马尔可夫决策过程(MarkovDecisionProcesses,简记为MDP,也称马尔可夫决策规划或马尔可夫控制系统等)是研究一类随机序贯决策问题的理论。所谓随机序贯决策问题,是指在一系列相继的或连续的时刻(称之为决策时刻)点上作出决策,在每个决策时刻点,决策者根据观察到的状态从可用的若干个决策中选择一个.将决策付诸实施后,系统将获得与所处状态和所采取决策有关的一项报酬(或费用等)并影响系统在下一决策时刻点所处的状态。系统在下一决策时刻点处的状态是随机的。在这一新的决策时刻点上,决策者要观察系统所处的新的状态(即收集新的信息)并采取新的决策,如此一步一步进行下去。

方面的最新研究成果。在讨论多时要用到马氏链中的状态分类、极限分布等知识,因此,本章的一些内容要比前几章略微复杂一些.第6、7章分别讨论半马氏决策过程和连续时间马氏决策过程,在建立相应的模型之后,我们用转换的方法将它们化成离散时间马氏决策过程。这样,前面几章中的大部分结果可直接推广到这两章中去.以上为马民决策过程的最为基本的内容,在它们的基础上,可跳过第8、9 章而直接阅读有关应用的两章:第10章和第11章.第8章讨论一般化马氏决策过程,它们是比前面介绍的基本模型更接近于实际、更为一般化的模型。这些模型包括部分可观察模型、带约束条件的模型、多目标模型、摄动模型等。