机器人流程自动化(RPA)能够满足高水平的运营效率,同时对风险管理以及任务质量和流程有着高标准的把控,这已引起企业的极大兴趣。日常任务,如工作流处理、自动电子邮件查询处理、调度系统、在线数据采集和自动库存补充,可由配备自动软件代理和机器人的专家系统执行。RPA 可以自动化重复地执行业务流程,这在通过信息技术(IT)的进一步模拟日常手动任务和工作流流程方面起着关键作用,比如 Amazon Alexa,Microsoft Cortana,Google Assistant以及 Apple Siri。RPA 已经出现并吸引了实践者对部署的关注,尽管RPA 是一种功能强大的工具,但其应用基于规则的、结构化的、成熟的、标准化的、竞争性的和有良好文档记录的决策逻辑,以便于通过数字化结构化数据输入完成任务,流程。目前行业正在寻求更智能和创新的 RPA,利用认知计算和嵌入式智能处理决策过程。此类系统智能化程度的提高意味着技术逻辑能力的提高,从而为利益相关者实现高水平的过程自动化和价值创造。
近些年,随着计算机技术的发展,一些需要人类参与决策的任务可以利用人工智能相关技术完成,许多研究者结合机器学习(ML)方法,可以快速完成复杂模型中的大型数据集分析,强大的图形处理单元也提高了处理复杂的深度学习和强化学习算法的兼容性。这些因素都有助于 RPA 利用人工智能执行认知决策,从而进一步扩展到不同的工程应用中。例如常关羽等人提出语义识别与业务流程管理相结合,实现流程模型管理智能化。Pedro等人通过结合图像识别技术, 对业务流程中的图片的信息进行读取与理解。Mateusz等人通过结合数据挖掘技术,基于用户个人进行个性化推荐。目前大部分学者都是针对不同类型数据的读取与理解,提供了针对性的解决方案,即借助深度学习或者增强学习处理流程中的非结构数据和辅助决策,而对于整体的流程执行策略的制定,还是缺少研究和解决方案的。
文章针对 RPA 路径规划进行研究,提出一种 RPA 执行路径规划的解决方案,即 RPA 可以自主在环境中寻找到一条满足任务要求的执行路径。与其他研究者不同的是,本文并非针对执行过程中某个单点问题提出解决方案,而是针对执行路径制定,这也是 RPA 智能化的关键问题,在不同的作业环境中学习到适合的执行路径。同时这种通过与环境交互, 不断探索的学习方式,正好符合增强学习的学习方式,即通过智能体与环境的交互,不断地试错纠正,学习到执行策略, 所以将深度增强学习算法用于 RPA 自主进行路径规划的研究中。深度强化学习算法已经被广泛应用到路径规划中,
有效克服了人工势场法,遗传算法等在复杂环境中无法处理复杂高纬度信息,但是其依旧存在着学习效率低、数据探索效率低下和过度估计等问题,为了打破数据相关性,提升算法稳定性,Schaul等人提出基于优先级的经验回放机制替代等概率的抽样方法,解决了均匀采样的问题。Schulman 等人提出通过与环境的交互作用来采样数据,使用随机梯度代替标准策略梯度优化目标函数交替,使得机器人路径规划算法具有较好的数据效率和鲁棒性。目前许多研究者针对样本抽取策略进行优化,对传统的学习方法进行改进,提升了智能体的探索效率,准确度等。但在流程自动化的路径规划不只是针对提升探索效率来说的,还需要解决如何消除环境中无关因素的干扰,即 Web 页面中无效元素,以及还需要考虑如何在环境中体现元素之间的逻辑关系。针对此类问题, 目前尚未有人提出有效解决方案。文中借鉴了深度增强学习解决路径规划问题的经验以及元素的类地图表达方式, 首先构建可以满足实验需求的虚拟环境,即首先通过抽取页面有效元素,元素之间的关系,组成元素的基本信息组,然后基于 Gosper 折线能将相邻元素聚拢组成块状的特性,构建虚拟环境。为了将聚拢到一起的元素与其他元素进行划分, 通过创建 LOD(Level of Detail)值,体现出不同层次和关联关系。最后以元素节点作为发生元创建泰森多边形,单个六边形表示一个有效元素的信息节点,从而表达环境信息。本课题,通过分析深度双 Q 网络的优点与不足之后,提出将样本与目标的位置信息的杰卡德系数作为样本优先度,结合基于排名的优先级采样方法构建新的采样方法,从而优化模型探索策略提高探索效率。仿真实验表明,提出基于 Gosper 与 LOD 结合构建的虚拟环境符合实际需求,可以满足深度增强学习的环境要求;同时对算法的改进提高了算法收敛速度,消除局部最优现象。