大脑能够通过逐个神经元地预测多个未来来快速适应变化。这些发现或将推动人工智能实现同样的功能。
我们总是在做决定。有些决定看似简单:我在一家新餐厅订了晚餐,但现在肚子饿了。我应该去吃点零食冒着失去食欲的风险,还是等到晚些时候再吃一顿饱饭——换句话说,哪种选择可能更有价值?
大脑内的多巴胺神经元会追踪这些决策及其结果。如果你后悔了某个选择,下次很可能会做出不同的选择。这被称为强化学习,它帮助大脑不断适应变化。它还驱动着一系列人工智能算法,这些算法能够像人类一样从成功和错误中学习。
但回报并非全有或全无。我的选择让我欣喜若狂,还是仅仅让我更快乐一点?等待值得吗?
本周,尚帕利莫基金会、哈佛大学和其他机构的研究人员宣布,他们发现了大脑中一个此前隐藏的多巴胺信号世界。在记录小鼠学习新任务时单个多巴胺神经元的活动后,研究团队发现这些细胞不仅仅是追踪奖励。它们还会记录奖励何时到来以及奖励大小——本质上是在构建一幅关于近期和远期奖励可能性的心理地图。
“以前的研究通常只是对各个神经元的活动进行平均,并观察其平均值,”研究作者玛格丽达·索萨 (Margarida Sousa) 在一份新闻稿中表示。“但我们希望捕捉整个群体的全部多样性——看看单个神经元如何特化,并如何为更广泛的集体表征做出贡献。”
一些多巴胺神经元偏好即时奖励;另一些则缓慢地增强活性,以期获得延迟的满足感。每个细胞对奖励的大小也有偏好,并会监听内部信号——例如,老鼠是否口渴、饥饿,以及它的动机水平。
令人惊讶的是,这张多维地图与一些依赖强化学习的新兴人工智能系统非常相似。一些人工智能系统并非将不同的意见平均化为一个决策,而是使用一组算法,对各种奖励可能性进行编码,然后对最终决策进行投票。
在几次模拟中,配备多维地图的人工智能更好地处理了觅食任务中的不确定性和风险。
一个团队写道,这些结果“开辟了新途径”,以设计更高效的强化学习人工智能,使其能够更好地预测和适应不确定性。它们还提供了一种理解我们大脑如何做出日常决策的新方法,并可能为如何治疗帕金森病等神经系统疾病中的冲动行为提供新的见解。
多巴胺火花
几十年来,神经科学家已经知道多巴胺神经元是强化学习的基础。这些神经元会释放少量多巴胺——通常被称为“快乐化学物质”——来发出意外奖励的信号。通过反复试验,这些信号最终可能会引导一只口渴的老鼠穿过迷宫,找到迷宫尽头的水。科学家们通过记录这些小动物学习过程中多巴胺神经元的电活动,开发了一个强化学习的框架。多巴胺神经元会对附近的奖励做出反应,然后这种活动会随着时间的推移逐渐消退——研究人员将这一过程称为“折扣”。
但这些分析将活动平均化为单一的预期奖励,而不是捕捉随时间推移可能出现的所有结果——例如,延迟更长时间后获得更大的奖励。虽然模型可以告诉你是否获得了奖励,但它们会忽略一些细微的差别,例如何时获得奖励以及奖励金额。在克服了饥饿之后——等待餐厅还值得吗?
意想不到的暗示
索萨和同事们想知道多巴胺信号是否比之前认为的更复杂。他们的新研究实际上是受到了人工智能的启发。一种名为分布式强化学习的方法可以估计一系列可能性,并从反复试验而非单一奖励中学习。
“如果不同的多巴胺神经元对未来可能的奖励特征的不同组合敏感——例如,不仅是它们的大小,还有它们的时间——那会怎样?”索萨说。
由内田直重(Naoshige Uchida)领导的哈佛大学神经科学家团队找到了答案。他们记录了小鼠在学习舔水奖励时单个多巴胺神经元的电活动。在每次试验开始时,小鼠会嗅探不同的气味,这种气味既可以预测它们可能找到的水量(即奖励的大小),也可以预测它们需要多长时间才能得到奖励。
每个多巴胺神经元都有各自的偏好。有些神经元更冲动,偏好即时奖励,无论奖励大小。有些则更为谨慎,会逐渐增加追踪奖励的活动。这有点像在沙漠中徒步时,如果水源有限,你感到极度口渴:你是现在就一饮而尽,还是适量饮用,给自己留出更长的跑道?
这些神经元也具有不同的性格。乐观的神经元对意外的巨额奖励尤其敏感——会突然激活——而悲观的神经元则会保持沉默。结合这些神经元投票者的活动,以及各自不同的观点,最终形成了决定小鼠行为的群体代码。
“这就像拥有一支具有不同风险状况的顾问团队,”研究作者丹尼尔·麦克纳米在新闻稿中表示,“一些人敦促采取行动——‘现在就接受奖励,它可能不会持久’——而另一些人则建议保持耐心——‘等待,更好的事情可能会到来。’”
每个神经元的立场都是灵活的。当奖励持续延迟时,它们会集体转向更长期的奖励,展现出大脑如何快速适应变化。
“当我们将[多巴胺神经元]群体作为一个整体进行观察时,很明显这些神经元正在编码一个概率图,”研究作者乔·帕顿说。“这不仅仅是关于奖励是否可能获得,而是一个关于奖励何时到来以及奖励大小的坐标系统。”
从大脑到人工智能
大脑记录就像集成人工智能,其中每个模型都有自己的观点,但团队会合作处理不确定性。
该团队还开发了一种名为时间-幅度强化学习(TMRL)的算法,可以规划未来的选择。经典的强化学习模型只在最后给予奖励。这需要经过多次学习循环才能使算法最终找到最佳决策。但 TMRL 可以快速映射一系列选择,使人类和人工智能能够以更少的循环次数选出最佳选择。新模型还纳入了饥饿程度等内部状态,以进一步微调决策。
在一项测试中,为算法配备类似多巴胺的“多维地图”与标准强化学习模型相比,提高了它们在模拟觅食任务中的表现。
索萨和团队写道: “在事件开始时提前了解可获得奖励的范围和可能性以及它们可能发生的时间,对于规划和灵活行为非常有用”,尤其是在复杂的环境和不同的内部状态下。
这两项研究是人工智能与神经科学合作的最新成果,展现了两者合作的强大力量。大脑内部运作的模型可以激发更像人类的人工智能。与此同时,人工智能正在揭示我们自身的神经机制,并可能帮助我们深入了解神经系统疾病。
帕顿说,来自大脑的灵感“可能是开发更像人类推理的机器的关键”。