教神经网络推理他们所看到的东西

一个从未见过粉红色大象的孩子仍然可以描述它,这与计算机不同。对于机器来说,总结信息并谈论以前没有观察到的事情的能力是非常困难的。深度学习系统仅适用于统计模式。但是,如果您尝试使用抽象或符号编程来教他们怎么办?在本文中,我们将讨论麻省理工学院科学家关于结合统计和符号人工智能的研究。

人们能够比较对象之间的关系并以不同的方式解释它们的属性。我们来看下图所示的第一个例子。

想象一下,一个人根本不知道颜色

他得到了带有红色和绿色立方体的图片,以及相应的问题和答案。他可以轻松识别物体外观的差异(在本例中为颜色),并将它们与正确的单词(红色和绿色)正确匹配。其他属性,例如形状,可以以类似的方式学习。有了这些知识,人们就可以轻松记住视觉信息与单词语义之间的许多对应关系(图中的第二个示例),并根据视觉线索解决复杂的构图问题(第三个示例)。

基于这个概念,麻省理工学院的研究人员创建了一种神经符号概念学习器(NS-CL),它可以同时学习视觉感知并根据图像和问答对分析单词的语义。 NS-CL 由三个模块组成。第一个是神经感知模块,可以从照片中提取物体的概念。第二个是将问题翻译成可执行程序的语义分析器,第三个是这些程序的符号执行器,它对对象之间的属性和关系进行分类并处理问题的答案。

神经网络按以下顺序学:

首先,它根据简短的问题掌握对象的个体表示,然后掌握多个对象之间更复杂的关系。这使她能够进一步解释新的作品和有关它们的问题。

让我们考虑一下每个神经网络模块的操作。如下图所示,感知模块找到照片中的对象并提取每个对象的隐藏深度表示。为此,使用预先训练的 Mask R-CNN 神经网络。然后,每个形状周围的边界框以及原始图像被发送到 ResNet-34 以提取颜色、形状和位置特征。

神经符号学习

语义分析模块将原始问题翻译成用于VQA(视觉问答)的领域特定语言(DSL)的程序。 DSL 涵盖了一组针对视觉特征的基本分层操作,例如过滤具有某些属性的对象或查询属性。所有操作的输入和输出接口都是相同的,因此可以将它们组合起来创建任何复杂性的程序。

最后一个模块,程序执行器,根据收到的表示执行它并回答问题。该模块在视觉和概念表示方面具有完全可微分的设计,并支持训练期间的梯度优化。

此外,维护良好的职能电子邮件数据库可以显著提高营销和推广活动的效率。通过采用高级细分策略,组织可以制作符合每个群体独特需求和兴趣的 工作职能邮件数据库 定制信息。这种有针对性的方法不仅可以提高参与率,还可以与收件人建立更牢固的关系,最终有助于改善业务成果。

实验
NS-CL 允许:

工作职能邮件数据库

高精度研究物体的视觉特性;

在 CLEVR 数据集上高效执行视觉推理;
推广到新的属性、成分和文本描述。
神经网络在 5000 张图像上进行训练(不到 CLEVR 训练集的 10%)。每个问题都有 20 个问题。 Mask R-CNN 在带有边界框注释的 4K CLEVR 图像上进行训练。

NS-CL 观看照片并阅读问答对

同时学习物体的视觉属性(颜色、形状、大小)和单词的语义分析。在 CLEVR 测试样本上评估神经网络的结果如下表所示。与其他类似架构( MAC和TbD)相比,该模型实现了高水平的效率。这些神经网络基于注意力模型,并且已经实现了四种变体以进行系统研究。 TbD-Object 和 MAC-Object 将一堆对象而不是单个图像作为输入,而 TbD-Mask 和 MAC-Mask 组合了对象掩码并使用它们来引导图像中的注意力。

NS-CL 取得了最好的结果,因为它将视觉属性 有工作的时间,也有玩乐的时间。什么是游戏化以及何时需要游戏化? 的学习和基于它们的推理完全联系起来。

推广到新的作品

为了评估模型推广到具有新成分的图像的能力,使用了 CLEVR-CoGenT 数据集。它由两个样本组成:A 组仅包含灰色、蓝色、棕色、黄色立方体和红色、绿色、紫色和青色圆柱体,而 B 组中立方体和圆柱体的所有这些颜色都是相反的。如果仅研究样本 A 的视觉属性,则模型将简单地按颜色对形状进行分类。这将导致样本 B 的泛化能力较差。

研究人员通过引入以算子的形式感知对象属性的思想解决了这个问题。具体来说,他们联合训练网络的对象属性(例如“红色”、“立方体”等)和单词语义,同时保留预先学习的运算符。由于模型对不同的属性接收完全不同的表示,因此样本 A 的准确率达到 98.8%,样本 B 的准确率达到 98.9%。

泛化到新图像和问题

一个人可以查看具有几个对象的小图像,学习简单的问题和答案,然后轻松地将这些知识推广到具有许多对象的大场景(场景是一个场景,即场景中所有对象的集合)图像)。为了让神经网络获得相同的结果,研究人员将 CLEVR 数据集分为四个部分:

样本 A 仅包含少于 6 个物体的场景和简单问题
样本 B 包含少于 6 个物体的场景,但有任意问题
样本 C 包含带有简单问题的随机场景
样本 D 包含随机场景和问题。
下图为样本示例:

仅使用样本 A 的数据进行训练,其余三组数据用于评估。 NS-CL对于大场景和复杂问题实现了非常好的泛化,达到了97%的准确率。

作者还在 Minecraft 推理数据集上测试了该模 美国手机号码列表 型的泛化性,该数据集包含许多游戏截图。该数据集与 CLEVR 有很大不同:图像看起来不同,并提出完全不同类型的问题。然而,NS-CL 模型在其上达到了 93.3% 的准确率。

执行语义解析来回答问题的示例

泛化到自然图像和文本
然后作者在 MS-COCO 图像上进行了实验,并将结果呈现在 VQS 数据集中。它包含原始 VQA 1.0 数据集中的照片子集和问题。所有问题都可以基于视觉:每个问题都与包含答案的图像的多个区域相关联。示例如图所示:解析器用于从图像中提取 DSL 程序。问题和对象特征分别从在 MS-COCO 和 ImageNet 数据集上预训练的模型中提取。 MAC神经网络解决这个问题的准确率达到46.2%,NS-CL达到44.3%的准确率。

滚动至顶部