导读:今日,AI赛车手再次战胜人类玩家,登上Nature封面!
高能力的AI在各种游戏中打败人类,这些消息近年来频频出现。
不管是早年的国际象棋、问答比赛,还是近年的围棋、星际争霸、刀塔2。
在AI选手面前,人类的专业选手简直被打到要哭。
今日,AI赛车手再次战胜人类玩家,登上Nature封面!
索尼公司亲自下场开发的AI「GT Sophy」,让电子赛车游戏加入了上述名单:不管是日本的还是其他国家的头挑电竞选手,在GT赛车中都比不过索尼拿1000台PS4主机训练出的AI。
GT Sophy,或者可以亲切地称为「苏菲」,是索尼内部的AI事业部、PDI工作室、互动娱乐子公司联合研发的项目,耗时逾5年。
AI事业部提供深度学习算法、负责训练模型;PDI工作室出的游戏作为AI训练和验证的环境;互动娱乐公司的云计算架构将千台PS4主机串联起来作为大规模训练架构和平台。
作为一种神经网络驱动程序,GT Sophy在遵守赛车规则的同时,展现出了超凡的行驶速度、操控能力和驾驶战术。
斯坦福大学教授Christian Gerdes在Nature的一篇文章写道: 「在这场面对面的竞争中,AI车手如此娴熟地超越人类玩家,代表着人工智能的一项里程碑式的成就。」
龙之径上演「速度与激情」
这有什么厉害的???
说来,赛车比赛的目的很简单,就是用更短时间超越竞争对手,你就赢了。
《速度与激情》中的硬核碰撞让人热血沸腾,而真正赛场上的终极对决可是需要实打实的战术。
索尼PDI工作室在东京提供场地,请GT赛车游戏世界范围内的一流电竞选手来与「GT Sophy」及其变体比赛。
比赛节选
在GT Sophy与人类选手的第一场比赛中,选址Dragon Trail龙之径展开精彩对决。
整条跑道全长5209米,划分出S1,S2,S3三个区间,以及17处弯道。
比赛的始发位置是以AI、真人交错的顺序排列,共8名车手。
不过,比赛一开始,名叫薇奥拉(Violette)的GT Sophy人工智能变体就完成了对人类车手的超越,排到第二位。
AI队友波尔多(Bordeaux)则一直保持着第一的位置。
到T2/3转弯处,AI选手维特(Verte)嗖地一下冲到了人类选手山中智瑛前面。
比赛中途,排在第一,第二的Sophy AI在没有阻挡情况下,选择了最优路线。
比赛进行到最后一区S3,赛车手们需要绕过T17大弯道后就能迅速冲向终点。
比赛结果显示,排在前三的赛车选手,GT Sophy占据两席,只有人类选手国分凉太冲进了前三。
国分凉太一直是一个冷静沉着的赛车手,在2019年摘得国际汽车联合会跑车锦标赛第五轮东京国家杯冠军,2020年FIA GT Championship国家杯第三名。
这个结果的产生,其实从资格赛中就可以看出一些端倪。
画面右边的AI选手在过弯时不仅更稳定,而且选择的路线要明显优于人类玩家。
在游戏中的马焦雷湖赛道上另一场比赛中,四款AI击败了四个人类对手。
该次比赛中AI军团中的最杰出者「GT罗格」在比赛的三个计分圈中都处于第一位置,领先最快的人类选手超过5秒。不过马焦雷湖赛道上,也有AI车手失误,过弯时转向不足,一头撞墙。
GT Sophy在2021年7月的实验中,还只能在没有其他车的虚拟空赛道上,跑出超过人类选手的单纯竞速成绩。训练到2021年10月,就可以在真正的游戏赛车环节击败一群人类对手了。
2020年GT赛车世界杯上的明星选手宫园拓真说:「AI的驾驶方式,我们想都想不出。」但他也承认「GT Sophy」的战术决策很有用。
被AI击败的宫园拓真一脸不服
可以看到,赛车不仅仅是速度和反应时间的问题,驾驶赛车极其考验一个人的极限战略,因此让机器掌握并非易事。
正如Nature一文所指出的那样,若想实现这一目标需要战胜极其复杂的物理挑战,因为在赛道上驰骋需谨慎利用轮胎与地面之间「有限的摩擦力」。
比如,用摩擦力来制动,就会减少绕过拐弯的力量。
更具体地说,每个接地轮胎可以产生一个与垂直力成比例的摩擦力,或荷载。当汽车加速时,荷载转移到后胎,前胎的摩擦力减小。
这可能会导致转向不足,在这种情况下,方向盘不能产生更多的过弯力,会在冲出弯道时保持事实上的手刹状态。
相反的,当汽车刹车时,负载转移到汽车的前部。这可能会导致转向过度,也就是说后胎会失去牵引力,汽车会激烈打转。
再加上复杂的赛道地形,以及调整负荷转移的复杂性与悬挂车辆,以及赛车的挑战变得明显。
为了赢得比赛,车手必须选择让赛车尽可能保持在摩擦限制范围内的轨迹。
如果转弯时刹车太早,你的车就会慢下来,浪费时间。刹车太晚,就不会有足够的转弯力来保持你想要的赛车线。再加上,刹车太用力可能会引起车体旋转。
尽管赛车的操纵极限非常复杂,但物理学已经很好地解释了这些极限。因此,它们可以被计算或学习也是理所当然的。
在一场面对面的比赛中,GT Sophy非但没有利用单圈时间优势战胜对手,反而在最后轻而易举超过竞争对手。
就比如,在第一比赛最后冲刺节点上,2个人类赛车手试图阻断2个AI赛车手的路径。
但GT Sophy成功地找到了两条不同的路线,最后一举超越人类玩家冲向终点。
通过神经网络模型训练后,GT Sophy学会了在不同的情况下通过角落走不同的路线。
那么,这个AI超人赛车手究竟是如何炼成的呢?
AI赛车手如何炼成?
与其它规则、玩法较固定的游戏不同,GT赛车游戏的玩家战术选项是很开放的。而且GT赛车游戏的特色在于较好地模拟了真实世界的物理定律。
所以兼具虚拟与真实世界双重难度的GT赛车游戏,要让AI玩好还真不容易。
首先,我们需要一个超真实的模拟器作为训练环境。
Gran Turismo? Sport(GT Sport)是由Polyphony Digital与FIA(国际汽车联合会)合作设计制作的PlayStation 4的驾驶模拟器。
GT Sport有明确规则和判断标准,不用「猎豹」也能保证公平的竞赛环境。(doge)
此外,GT Sport尽可能真实地再现了现实世界的赛车环境,包括其赛车、赛道,甚至空气阻力和轮胎摩擦等物理现象。
在汽车制造商的指导下,汽车的细节被准确地再现,从车体的曲线,到车身面板之间的缝隙宽度以及转向灯和大灯的形状。
游戏环境有了之后,就需要对训练环境的配置了。
DART是索尼AI为此量身定制的网络架构,让研究者能用互动娱乐公司的云计算游戏平台串联起1000台PS4游戏主机来长时间训练GT Sophy。
千台PS4主机阵列,游戏宅的豪华梦想
在如此的架构上,各个异地数据中心间的所有计算资源被有效整合。研究者可以轻松确定实验参数、设定当云资源可用时实验自动进行、并且搜集能在浏览器中观察的数据。
研究者以此平台顺畅执行了数百次模拟实验,将AI的技战术提高到之前未及的高度。
最后,就是对AI车手GT Sophy的训练了。
与那些在游戏中战胜人类的AI前辈相同,为了避免一开始将游戏行为人工编码成复杂庞大的行为规则数据集,GT Sophy也采用深度强化学习来进行训练。
当智能体,也就是GT Sophy在训练环境中采取行动时,算法根据其导致的结果给予奖励或惩罚。在得到了奖励(或惩罚)之后,GT Sophy会更新其对世界的认知,以确定其下一步行动。
索尼人工智能研究人员和工程师开发了创新的强化学习技术,包括一种新的训练算法QR-SAC,给AI的各种高速驾驶决策做出规则和物理限制内的合理性后果分析。并用智能体可理解的赛车规则编码,以及获得一种促进细微赛车技能的训练方案。
在强化学习中,AI赛车手需要考虑其行为的长期后果,并能在学习过程中独立收集自己的数据,避免了对复杂的手工编码行为规则的需求。
当然,处理像Gran Turismo这样的复杂领域,依然需要同样复杂和细微的算法、奖励和训练场景。
在训练的后期,研究人员更是加入了不同数量的对手,锻炼GT Sophy在和人类车手对抗时的
从结果上看,索尼开发的算法可谓是效果拔群。
经过短短数个小时的训练,GT Sophy就已经能上赛道了,而且「一两天内」的速度比其训练数据集中95%的驾驶员都要快。
当然,95%是远远不够的。
又继续训练了大约45,000小时之后,GT Sophy终于在三条赛道(克罗地亚海边龙径赛道、意大利马焦雷湖大奖赛道和法国萨尔特赛道)上完全战胜人类车手。
然而,在和人类的比赛汇总,AI具有着很多先天优势,比如完美的记忆力和快速的反应时间。
尤其是GT Sophy有着一张精确的赛道地图,上面标注着赛道边界的坐标,以及「关于每个轮胎载荷、每个轮胎的滑动角度和其他车辆状态的精确信息」。
不过,依然可以对另外两个要素进行限制:作用频率和反应时间。
GT Sophy的输入信号被限制在10赫兹,理论上人类的最大输入信号为60赫兹,而这有时会让人类车手在高速行驶时表现出「更平稳的动作」。
在反应时间方面,GT Sophy能够在23-30毫秒内对比赛环境中的事件做出反应,这比专业运动员估计的最高反应时间200-250毫秒要快得多。为了弥补这一缺陷,研究人员增加了人为延迟,训练GT Sophy的反应时间分别为100毫秒、200毫秒和250毫秒。
即便如此,GT Sophy还是在「所有这三项测试都达到了超人圈速。」
索尼AI事业部的负责人承认,让AI学会文明比赛不卑不亢还蛮困难的,在面对对手时做到战术决策既不太过暴躁又不太过谨慎,任务量还是很大的。
首先要让AI在理解游戏环境中虚拟赛车位置、虚拟气动模型、赛道图形、基本驾驶动作的基础上学会开车;然后是各种GT赛车游戏战术,例如滑流设障、插线超车、各种阻挡卡位;最后还要让AI学会必要的赛道礼仪规则,例如避免恶意犯规碰撞、尊重对手的车道安全等等。
赛车控制
QR-SAC算法可以明确地推理出GT Sophy高速行动的各种可能结果。对驾驶行为的后果和其中的不确定性进行核算,帮助GT苏菲在物理极限下过弯,并在与不同种类的对手比赛时考虑复杂的可能性。
赛车战术
通过加入混合场景的训练,使用人工制作的、可能在每个赛道都很关键的比赛情况,以及帮助智能体学习这些技能的专门对战对手。
这些技能培养方案帮助GT Sophy获得了专业的赛车技术,包括处理拥挤的起跑、用弹射式超车反制滑流设障,以及防御性的机动动作。
赛车礼仪
为了帮助GT Sophy学习赛道礼仪,索尼AI研究人员找到了将赛车的书面和非书面规则编码到复杂的奖励函数中的方法。
研究小组还发现有必要平衡对手的数量,以确保GT Sophy在训练赛表现出程度恰好的竞争性,与人比赛时不会变得过于激进或胆小。