为什么机器学习很难学习因果关系?

【CSDN 编者按】尽管现有的机器学习模型已经取得了巨大的进步,但遗憾的是,所有的模型不过是对数据的精确曲线拟合(www.lwrs.net)。从这一点而言,现有的模型只是在上一代的基础上提升了性能,在基本的思想方面没有任何进步。那么,怎样才能推动AI社区解决这一问题呢?

作者 | Ben Dickson,已获作者翻译授权

译者 | 弯月

出品 | CSDN(ID:CSDNnews)

在观看下面这则短视频的时候,你可以推断出不同元素之间的因果关系。例如,看见球棒和棒球选手的手臂一起移动,你就知道是选手的手臂运动带动了球棒的运动。而且你还知道这一棒打下去,球的运动方向会立即改变。

同理,你还可以进行一些反事实推理,例如,如果球飞的稍微高一点,而且球棒没有击中球,会怎样。

这类的推理对于人类来说都是很自然的事情。我们很小就学会了这样的推理,不需要任何人的指导,只需要通过观察世界就能掌握。虽然机器学习算法能够在象棋等复杂的任务中击败人类,但因果关系对它们来说仍然是一个大难题。机器学习算法,尤其是深度神经网络非常擅长通过大量数据找出不易察觉的模式。它们可以实时将音频转成文本,每秒标记成千上万的图像与视频画面,而且还可以通过X射线和 MRI 扫描检查是否存在癌症的影像模式。但是它们却很难执行简单的因果推理,就像我们上面看到的棒球视频。

Max Planck 智能系统研究所、蒙特利尔学习算法研究所和 Google 研究所的的工作人员在题为《Towards Causal Representation Learning》的论文中,讨论了机器学习模型由于缺乏因果表示而引发的难题,他们还为创建能够学习因果表示的人工智能系统指明了方向。

这是研究人员为探索和解决机器学习缺乏因果关系问题而做出的多项努力之一,如今这个问题已成为克服该领域一些重要挑战的关键。

独立同分布数据

为什么机器学习模型无法推广到其狭窄的领域和训练数据之外?

独立同分布(independent and identically distributed,简称 i.i.d.)数据是机器学习中经常使用的术语。它假设问题空间中的随机观测之间不相互依赖,而且发生频率是恒定的。举个最简单的例子,掷硬币或掷骰子。每一次抛掷的结果都与前面的抛掷没有关系,而且每种结果的发生概率保持不变。

当涉及到更复杂的领域(比如计算机视觉)时,机器学习工程师会通过在大量的示例语料库上训练模型,尝试将问题转化成某个独立同分布的领域。他们假设,如果示例非常充分,那么机器学习模型就能够将问题的大致分布编码成参数。但在现实世界中,这些分布经常由于训练数据中没有考虑到或无法控制的因素而发生变化。例如卷积神经网络,即便经过了数百万个图像的训练,但在遇到光照条件发生变化、略微调整角度或在不同的背景下才能看到的物体时,就可能失败。

为了解决这些问题,研究人员所做出的努力主要还是在更多示例中训练机器学习模型。但是随着环境变得越来越复杂,通过添加更多训练数据的方法来覆盖整个分布是根本不可能的。在 AI 智能体必须与世界交互的领域(例如机器人和自动驾驶汽车)尤其如此。由于缺乏对因果管理的理解,机器学习算法很难做出预测,并应对新情况。这就是为什么即使无人驾驶汽车经过了数百万英里的训练,仍然会出现一些奇怪的错误。

AI 研究人员表示:“为了准确地概括独立同分布,机器学习算法不仅需要学习变量之间的统计关系,而且还需要学习潜在的因果模型。”

人类可以通过因果模型将以前获得的知识应用到新领域。举个例子,在你玩《魔兽》之类的即时战略游戏时,可以将所学的知识快速应用到其他类似的游戏,比如《星际争霸》和《帝国时代》等。然而,机器学习算法中的迁移学习仅适用于非常表面的情况,比如微调图像分类器以检测新型对象。在学习视频游戏之类更复杂的任务中,机器学习模型需要大量的训练(需要玩数千年的游戏),而且一旦环境出现细微的变化(比如遇到新地图或规则稍作改动),响应就会出问题。

因果机器学习论文的作者写道:“因果模型只需更少的样本就能适应环境,因为绝大多数知识(即模块)都无需重新训练就可以重用。”

因果学习

既然我们已经知道独立同分布存在弱点,为什么还要通过这种形式训练机器学习呢?完全基于观察的方法具有可扩展性。你可以通过添加更多的训练数据持续提高准确性,并且可以通过添加更多计算能力的方式来加快训练过程。事实上,近年来深度学习成功背后的关键因素之一便是更多的数据和更强大的处理器。

此外,基于独立同分布的模型也易于评估,你可以在获得大型数据集后,将其分为训练集和测试集,根据训练数据调整模型,并利用测试集来衡量准确性。你可以持续训练,直到达到所需的准确性。许多公共数据集都提供此类的基准,比如 ImageNet、CIFAR-10 和 MNIST。还有一些特定的数据集,比如专用于covid-19 诊断的数据集 COVIDx,威斯康星州乳腺癌诊断数据集。在上述所有情况下,我们面临的挑战都是相同的,即开发一种可以根据统计规律预测结果的机器学习模型。

然而,正如 AI 研究人员在论文中观察到的那样,准确的预测通常不足以为决策提供依据。例如,在新冠疫情期间,许多机器学习系统都出现了问题,因为它们是根据统计规律训练而成的,而不是因果关系。一旦生命模式发生变化,模型的准确性就会下降。

此外,因果模型还可以让我们应对以前从未见过的情况,并进行反事实推理。我们无需开着车冲出悬崖就知道后果是什么。反事实推理能够大幅削减机器学习模型所需的训练示例。

因果关系对于应对对抗性攻击也很重要,这里的对抗性攻击指的是通过一些巧妙的操纵,迫使机器学习系统发生意外。“这些攻击打破了基于统计的机器学习做出的假设,即独立同分布的数据。”该论文的作者表示,对抗性漏洞证明了人类的智力水平与机器学习算法的健壮性机制之间的差异。研究人员还提出,因果关系是防御对抗性攻击的一种措施。

从广义上讲,因果关系可以解决机器学习缺乏通用性的问题。研究人员表示:“可以说,当前的大多数做法(解决独立同分布的基准问题)和大多数理论结果(关于独立同分布设置中的泛化)都无法解决各个问题之间的泛化。”

在机器学习中加入因果关系

AI 研究人员在论文中介绍了一些对于创建因果机器学习模型必不可少的概念和原则。

其中包括如下两个概念:“结构因果模型”和“独立因果机制”。该原则指出,AI系统不应该寻找表面化的统计相关性,而是应该寻找因果变量,并将它们对环境的影响分开。

无论视角、背景、光线和其他噪声如何,这种机制都能够检测到不同的物体。这些因果变量之间的分离能够使AI系统在应对不可预测的变化和干预时更加强大。因此,因果AI模型不需要庞大的训练数据集。

因果机器学习论文的作者表示:“无论是通过外部的人类知识,还是通过学习获得因果关系,一旦建立因果模型,因果推理就可以在干预、反事实和潜在结果之上得出结论。”

此外,作者还探讨了如何将这些概念应用到机器学习的不同分支,包括强化学习(强化学习对于智能体探索环境并通过反复试验发现解决方案的问题至关重要)。因果结构可以提高强化学习的效率,因为机器学习模型可以从训练开始就做出良好的决定,避免采取一些随机且不合理的行动。

关于如何构建结合了机器学习机制与结构因果模型的 AI 系统,研究人员提供了一些构想:“为了结合结构因果模型与表示学习,我们应该努力将 SCM 嵌入到更大的机器学习模型中,这些模型的输入和输出是高维非结构化的,但是部分内部运作可由 SCM 控制(可以通过神经网络设置成参数)。这样就可以得到模块化的体系结构,并且不同的模块可以分别进行微调,然后应用到新任务。”

这些概念可以让我们的模型更接近人类思维的方式,实现类似于人类思维在大脑的不同区域和领域之间重用知识和技能的效果。

然而,我们需要注意,该论文中提出的想法目前仅限于概念。正如作者所说,这些概念的实现面临以下几个主要的挑战:

  1. 在许多情况下,我们需要根据底层输入的特征推断抽象的因果变量;
  2. 通过数据的哪些方面挖掘因果关系尚无定论;
  3. 常规的训练集和测试集实验方案不足以推断和评估现有数据集的因果关系,而且我们需要创建新的基准,例如考虑了环境信息和干预等因素的基准;
  4. 即使仅限于我们所了解的少数情况,我们也经常缺乏可扩展且可以用数学证明的算法。

但是,该论文的研究人员从该领域的其他工作中汲取了灵感。该论文引用了图灵奖获奖者 Judea Pearl 的《causal inference》。同时,该论文的作者之一 Yoshua Bengio 也是图灵奖获奖者。

此外,该论文与 NeurIPS 2019 AI 大会上 Bengio 发表的演讲《system 2 deep learning》中提出的概念相吻合。该演讲背后的思想是创建一种可以从数据中学习更高表示的神经网络体系结构。更高的表示对于因果关系、推理和迁移学习都很重要。

虽然目前尚不清楚以上几种方法中的哪一种有助于解决机器学习的因果关系问题,但不同思想流派的汇聚与碰撞一定能产生不一样的火花。

原文链接:https://bdtechtalks.com/2021/03/15/machine-learning-causality/

4月20日晚八点,欢迎来到CSDN悦读时间直播间,与四位大咖一起探索UNIX传奇往事的启示,围观《UNIX传奇》新书发布会!

☞ 直接学 Vue 3 吧 —— 对话 Vue.js 作者尤雨溪 ☞ ☞“诺奖摇篮”贝尔实验室:从辉煌到衰败的百年沉浮

主营产品:化工成套设备,化工实验设备,炼化设备,仪器仪表