【马尔可夫决策过程引论】胡奇英刘建庸.pdf

【马尔可夫决策过程引论】胡奇英刘建庸.pdf

国家科学技术学术著作出版基金资助出版 马尔可夫决策过程引1论 胡奇英刘建庸著前言 马尔可夫决策过程(MarkovDecisionProcesses,简记为MDP,也称马尔可夫 决策规划或马尔可夫控制系统等)是研究一类随机序贯决策问题的理论。所谓随 机序贯决策问题,是指在一系列相继的或连续的时刻(称之为决策时刻)点上作出 决策,在每个决策时刻点,决策者根据观察到的状态从可用的若干个决策中选择 一个.将决策付诸实施后,系统将获得与所处状态和所采取决策有关的一项报酬(或费用等)并影响系统在下一决策时刻点所处的状态。系统在下一决策时刻点处 的状态是随机的。在这一新的决策时刻点上,决策者要观察系统所处的新的状态(即收集新的信息)并采取新的决策,如此一步一步进行下去。方面的最新研究成果。在讨论多时要用到马氏链中的状态分类、极限分布等知 识,因此,本章的一些内容要比前几章略微复杂一些.第6、7章分别讨论半马氏决策过程和连续时间马氏决策过程,在建立相应 的模型之后,我们用转换的方法将它们化成离散时间马氏决策过程。这样,前面 几章中的大部分结果可直接推广到这两章中去.以上为马民决策过程的最为基本的内容,在它们的基础上,可跳过第8、9 章而直接阅读有关应用的两章:第10章和第11章.第8章讨论一般化马氏决策过程,它们是比前面介绍的基本模型更接近于实 际、更为一般化的模型。这些模型包括部分可观察模型、带约束条件的模型、多 目标模型、摄动模型等。
支付成功后系统会自动返回 下载地址!有问题:cuwen@foxmail.com(截图)