主页 > 科学 > 使用深层信任网络学习多模态数据的表示形式

使用深层信任网络学习多模态数据的表示形式

佚名 科学 2020年09月08日

使用深层信任网络学习多模态数据的表示形式



摘要

我们提出了一种深度信任网络架构,用于学习多模态数据的联合表示。该模型定义了多模态输入空间上的概率分布,并允许从每个数据模态的条件分布中进行采样。即使缺少某些数据模态,这也使模型可以创建多模态表示。我们对由图像和文本组成的双模态数据的实验结果表明,模态 DBN 可以学习图像和文本输入的联合空间的良好生成模型,该模型对于填充缺失数据非常有用,因此可以将其用于 图像注释和图像检索。我们进一步证明,使用多模态 DBN 发现的表示形式,我们的模型在分类性任务上远超 SVM 和 LDA。


1 简介


现实世界中的信息来自多个输入通道。图像与字幕和标签相关联,视频包含视觉和音频信号,感官感知包括来自视觉,听觉,运动和触觉途径的同时输入。尽管每个输入模态传达了其他信息,但是任何一种模态的信息内容都不太可能独立于其他模态。例如,森林和景观的图像与诸如自然和风景之类的标签紧密相关。


这项工作的目标是学习一种将这种关联考虑在内的表示形式。同时,该模型必须能够处理丢失的数据模态,以便即使在某些输入通道不可用时也可以提取相同类型的表示。实现此目的的一种方法是通过学习多模态输入空间上的联合密度模型。然后,可以通过在给定观察到的模态的情况下,从隐含的条件分布上对模态进行采样来处理模态。例如,我们可以使用大量带有用户标签的图像来学习图像和文本上的分布 P(vimg, vtxt |θ),这样很容易从 P(vimg | vtxt, θ)和 P(vimg, vtxt |θ)取样,以便我们可以进行图像标注和图像检索。另外,还希望该表示对于诸如对象识别之类的分类任务有用。


在详细描述我们的模型之前,有必要指出为什么这样一个模型是很有用的。在许多应用中,观察来自不同的输入通道,每个输入通道具有不同的表示形式和相关结构。例如,文本通常表示为稀疏字数向量,而图像则使用像素强度或实值且密集的特征提取器的输出表示。与相同模态的特征之间的关系相比,这使得发现跨模态的关系要困难得多。输入中有很多结构,但是很难发现跨不同模态的特征之间存在高度非线性关系。此外,这些观察结果很嘈杂,可能缺少值。使用我们的概率模型,将有可能发现捕获各种模态之间关系的联合潜在表示。不同的方式通常会携带不同类型的信息。例如,人们经常给图像加上标题,以说出图像本身可能看不到的东西,例如人物名称或图片中的位置。除非我们进行多模态学习,否则将不可能发现许多有关世界的有用信息。


在本文中,我们提出了一个基于深层信任网络的模型。关键思想是首先使用单独的模态友好型潜在变量模型来独立学习每种数据模态的低级表示。为此,我们可以利用大量未标记的数据来分别学习每种模态的良好生成模型。实际上,对于许多领域,包括文本检索,语音感知和机器视觉,未标记的数据很容易获得。尽管每个单独模型的输入通常属于不同的模态,但我们的模型将学习形式和相关结构相似的潜在表示。然后可以将不同模态的潜在表示连接起来,以形成多模态输入。然后可以使用高阶潜在变量来模拟此输入上的分布。然后可以使用高阶变量的后验表示多模态输入。


2 背景:RBM 及其延伸


2.1 受限玻尔兹曼机


一个受限玻尔兹曼机指的是包含可见单元 v∈ {0, 1}D 和不可见单元 h∈ {0, 1}F 的无向图模型。每一个可见单元连接了每一个不可见单元。模型还定义了一个能量函数 E:{0, 1}D+F → R:E(v, h; θ) = ?a?v ? b?h ? v?Wh,其中 θ = {a, b, W }是模型的参数。可见和不可见单元的联合分布定义如下,其中 Z(θ)表示归一化常数。


2.2 高斯 RBM


考虑对可见的实数值单元 v∈ RD 建模,令 h∈ {0, 1}F 是二进制随机隐藏单元。高斯 RBM 的状态{v, h}的能量函数定义如下,其中 θ = {a, b, W, σ }是模型的参数。


这引出了以下的条件分布:


2.3 复制 SoftMax 模型


复制 SoftMax 模型对于建模稀疏计数数据(例如文档中的字数向量)很有用。令 v∈NK 为可见单位的向量,其中 vk 计数单词 k 在文档中出现的大小为 K 的词汇表的次数。令 h∈ {0, 1}J 为二进制随机隐藏主题特征,。能量函数表示如下,其中 θ = {a, b, W, σ }是模型的参数,M = ∑kvk 是文档中单词总数。


这引出了以下的条件分布:


对于所有上述模型,精确的最大似然学习是难于解决的。在实践中,有效的学习是通过遵循对比发散(CD)目标的梯度进行的。


3 多模态深层信任网络


我们以运行图为例,说明了使用图像文本双模态 DBN 的多模态 DBN 的构造。令 vm∈RD 表示图像,而 vt∈NK 表示文本输入。考虑使用单独的两层 DBN(见图 3)对每个数据模态进行建模。每个 DBN 模型分配给可见向量的概率为:


特定于图像的 DBN 使用高斯 RBM 对实值图像特征的分布进行建模,而特定于文本的 DBN 使用复制的 SoftMaxes 对字数向量上的分布进行建模。等式 4、5 中使用的给定隐藏单元的可见性的条件概率分别如等式 2、3 所示。


为了形成多模态 DBN,我们通过在它们之上学习联合 RBM 来将这两个模型结合起来。结果的图形模型显示在图 3 的右面板中。联合分布可以写为:


可以通过使用 CD 进行贪婪的分层训练来大致了解该多模态 DBN 的参数。


请注意,多模态 DBN 可描述为单模态路径的组成。每种路径都是在完全不受监督的方式中单独学习的,这使我们能够利用大量未标记的数据。可以潜在地使用任何数量的路径,每个路径具有任意数量的层。只要每个路径末端的最终隐藏表示形式相同,各层中较低的 RBM 的类型可能会有所不同,说明输入分布的类型有所不同。


我们的模型背后的原理如下。每个数据模态可能具有非常不同的统计属性,这使得浅层模型难以直接找到跨模态的相关性。独立的模态友好模型(等式 4,5)的目的是学习删除此类特定于模态的相关性的高层表示,以便顶层 RBM 呈现相对“无模态”的特征,即与原始输入相比,它们在统计特性方面更相似。换句话说,给定原始输入,可以很容易地说出代表图像的图像和代表其文本的稀疏性和相关结构的文本。但是,从 DBN 的更高级别的隐藏功能来看,做出这样的区分更加困难。因此,高层联合 RBM 可以轻松地获取跨模态关系。


3.1 生成任务


如简介中所述,许多现实世界中的应用程序经常会缺少其一种或多种模态。我们可以通过从条件模型中抽取样本来推断缺失值,这将使我们能够正确使用所有输入通道。


例如,考虑生成为给定图像 vm 生成文本。我们首先通过将 vm 向前传播到最后一个隐藏层来推断图像路径中的隐藏变量 hm 的值。以 RBM 顶层的 hm 为条件,我们可以使用以下条件分布进行交替的 Gibbs 采样,其中 σ(x) = 1/(1 + e?x)。


样本 ht 然后可以通过文本路径传播回去,从而在 SoftMax 词汇上产生分布。然后可以使用此分布对单词进行采样。


3.2 分类任务


该模型还可以用于分类任务,方法是在多模态 DBN 的顶部添加一个可区分的权重层,并对网络进行微调以优化交叉熵目标。在我们的实验中,我们使用简单的逻辑分类器进行 1-vs-all 分类,并使用随机梯度下降法微调模型。


4 实验


4.1 数据集及特征提取


在我们的实验中使用了 MIR Flickr 数据集。该数据集包含从社交摄影网站 Flickr 检索到的 100 万张图像及其用户分配的标签。该图片集包含根据创意公共许可证发布的图像。在这 100 万张图片中,有 25,000 张已标注了 24 个概念,包括对象类别(如鸟,树,人)和场景类别(如室内,天空和夜晚)。对于其中的 14 个,进行了更严格的标记,其中仅当图像中的相应类别显着时才为图像分配注释。这导致总共 38 个类。每个图像可能属于几个类别。未标记的 975,000 张图像仅用于预训练 DBN。接下来,我们使用 15,000 张图像进行训练,并使用 10,000 张进行测试。平均精度(MAP)用作性能指标。结果取训练和测试集的 10 个随机分组的平均值。


数据集中有超过 800,000 个不同的标签。 为了保持文本表示的可管理性,每个文本输入均使用 2000 个最频繁的标签表示。 严格限制该词汇表后,与图像关联的标签的平均数量为 5.15,标准偏差为 5.13。 有 128,501 张没有标签的图像,其中 4,551 张在标签集中。 因此,大约 18%的标记数据没有任何标签。 用?log(1+w)?替换字数 w。 我们将单词金字塔直方图(PHOW)功能,Gist 和 MPEG-7 描述符(EHD,HTD,CSD,CLD,SCD)连接起来,以获得 3857 尺寸的图像表示。 每个维度均以均值为中心。 PHOW 特征是通过在多个尺度上提取密集的 SIFT 特征并将其聚类而获得的图像单词包。


4.2 模型架构与学习


图像路径由具有 3857 个可见单元和 1000 个隐藏单元的高斯 RBM 组成,其后是另一层 1000 个隐藏单元。 文本路径包括一个具有 2000 个可见单元和 1000 个隐藏单元的 Replicated Softmax 模型,然后是另一层 1000 个隐藏单元。 关节层还包含 1000 个隐藏单元。 尚未发现该模型对这些超参数的选择非常敏感。


我们用贪婪的分层 CD1 对每个路径进行了预训练。 每个高斯单位的方差固定为训练集中的经验方差。 对于区分性任务,我们在联合模型中对隐藏单元的最后一层使用逻辑回归执行 1-对所有分类。 由于类别标签重叠,因此分别对 38 个类别中的每个类别进行了随机梯度下降的微调。 我们将 15K 训练集分为 10,000 个训练和 5,000 个验证。


4.3 分类部分


在我们的第一组实验中,我们将多模态 DBN 评估为分类模型。表 1 显示了我们与线性分类分析(LDA)和支持向量机(SVM)的比较结果。使用有关连续图像和文本特征的标记数据对 LDA 和 SVM 模型进行了训练。此外,未使用基于 SIFT 的功能。因此,为了进行公平的比较,我们首先训练了我们的模型,而未使用未标记的数据并使用了一组相似的功能(即,不包括基于 SIFT 的功能)。我们将此模型称为 DBN-Lab。表 1 显示,在许多类别中,DBN-Lab 模型已经优于其竞争对手 SVM 和 LDA 模型。 DBN-Lab 的 MAP(平均平均精度超过 38 个类别)为 0.503。这与 SVM 和 LDA 模型获得的 0.475 和 0.492 进行了比较。


为了量化使用未标记数据的效果,我们接下来训练了使用 975,000 个未标记示例的多模态 DBN。我们将此模型称为 DBN-Unlab。 DBN-Unlab 模型与 DBN-Lab 模型之间的唯一区别在于,DBN-Unlab 在其预训练阶段使用了未标记的数据。两种模型的输入表示均保持不变。毫不奇怪,几乎所有类别的 DBN-Lab 模型都显着改进了 DBN-Unlab 模型,MAP 达到 0.532。接下来,我们训练了第三个模型,称为 DBN,该模型使用了基于 SIFT 的功能以及未标记的数据。表 1 显示,使用 SIFT 功能可在模型性能方面提供额外的收益,MAP 达到 0.563。


我们还比较了使用 DBN 权重初始化并按照 Ngiam 等人的建议进行微调的自动编码器。 (2011)自动编码器。它的性能比 SVM 和 LDA 的 MAP 为 0.547 好得多。在某些类别上,它的性能比 DBN 模型更好,但是,平均而言,它的性能还不如 DBN 模型。请注意,自动编码器模型在诸如鸟,汽车和食物之类的对象级别类别上表现出色。


在几种情况下,可能需要使用多模态 DBN 进行分类。最简单的情况是图像和相关标签可用于培训和测试。但是,通常情况下,某些培训和测试用例可能根本没有标签。例如,在我们的设置中,18%的标签数据没有文本输入。解决此问题的一种方法是在没有标签的情况下仅使用文本输入 0。到现在为止讨论的所有模型都与这种情况相对应。也就是说,训练和测试集按给定的方式使用(没有标签时输入零文本)。


还有另一种处理丢失文本的方法。 DBN 定义的生成模型可用于推断以图像输入为条件的文本输入。然后可以使用此重构的文本来填充丢失的文本。要查看这种完成缺失数据的方法是否对分类有用,我们使用给定的训练集来训练分类模型,但在测试时,使用 3.1 节中描述的方法填充缺失文本数据。我们将此模型称为 DBN-Recon。用平均场推断代替吉布斯采样以减少噪声。表 1 显示,平均而言,DBN-Recon 模型略胜于 DBN 模型,平均 MAP 为 0.566,而 DBN 为 0.563。我们的最佳模型对几乎所有类别的 SVM 和 LDA 都做出了重大改进。对于某些类别,它们的表现要高得多,例如,sea *从 0.201(SVM)到 0.419(DBN-Recon),tree *从 0.321 到 0.546 和 cloud *从 0.434 到 0.739)。图 4 显示了表 1 中所有模型相对于 SVM 模型的 AP 分数的差异。在大多数类别中,DBN 和 DBN-Recon 曲线的性能优于其他模型。


4.4 多模态部分


尽管以上实验表明 DBN 的性能优于其他多模态方法,但学习多模态特征并不能帮助仅使用一种输入模态并不是显而易见的。在这组实验中,我们专注于评估模型学习多模态特征的能力,该特征比单模态特征更适合于区分性任务。在表 2 中,我们将模型与仅基于图像功能的 SVM(Image-SVM),仅基于图像特征的 DBN(Image-DBN)和仅基于文本特征的 DBN(Text-DBN)进行了比较。通过在用于多模态 DBN 的单模态路径上增加一层额外的层来构造单模态 DBN,以使所有 DBN 中的隐藏层数相同。最好的多模态 DBN(DBN-Recon)显然可以实现更好的整体性能。但是,鉴于多模态模型在测试时可提供的数据比其他仅使用图像或文本功能的模型更多,因此可能无法令人印象深刻。


因此,为了进行公平的比较,我们进行了以下实验。我们采用了经过预先训练并经过图像和文本功能调整的多模态 DBN 模型。但是,在测试时,仅提供图像功能作为输入,并且将文本输入替换为零。该模型在表 2 中显示为 DBN-NoText。请注意,DBN-NoText 模型的性能明显优于仅 SVM 和 DBN 映像模型。该结果表明,即使在测试时不存在某些模态,学习多模态特征也会有所帮助。具有多种模态可以使模型规范化,并使其学习更好的功能。此外,这意味着我们无需学习单独的模型来处理缺失数据模态的每种可能组合。可以在测试时部署一个联合模型,并将其用于可能出现的任何情况。


如果使用生成模型推断出缺少的文本输入并在测试时将其提供给判别模型,则可以进一步提高性能。该模型显示为 DBN-NoText-Recon。图 5 显示了表 2 中所有模型相对于 Image-SVM 的 AP 得分的差异。在所有类别中,DBN-Recon 曲线均优于其他模型。仅使用单模态输入(DBN-NoText 和 DBN-NoText-Recon)的 DBN 比其他单模态模型更好。


4.5 生成部分


为了定性地评估模型的生成方面,我们以从测试集获取的图像为条件,研究了从多模态 DBN 生成的文本样本。选择图像以覆盖 38 个类别中的许多类别。它们与生成的文本一起显示在图 6 中。该模型非常擅长推断属于场景级别类别(例如云,夜,海和水)的图像的文本。查看表 1 中的 AP 得分并将 DBN-Recon 与 DBN 进行比较,我们发现,对于这些类别,AP 得分显着提高,例如,sea *从 0.359 上升至 0.419(相对提高了 16%)。对于食品和运输等较细的类别,它无助于提高分类准确性。


我们还将查看基于基于文本的模型所生成的特征检索的图像。图 2 显示了一些结果,其中我们从包含 4000 个随机选择的图像的测试集的子集中检索图像。我们从手动选择的文本开始,然后推断以其为条件的图像特征。然后我们找到这些特征的最近邻居,并检索相应的图像。我们使用特征向量之间的 L2 距离来查找所有特征均被归一化为具有零均值和单位方差的最近邻居。


5 结论与未来工作


我们提出了一种深度信任网络架构,用于学习多模态数据表示。该模型将多种数据模态融合到一个联合的隐藏表示中。该模型在多模态输入空间上定义了一个联合密度模型,可用于填充缺失的输入。在分类任务上也表现出色。当在测试时仅存在一种数据模态时,与仅在一种模态上进行训练的单模态模型相比,它可以更好地填充丢失的数据并执行更好的性能。对图像标注和检索模型的定性评估表明,它可以学习有意义的条件分布。该模型可以有效利用大量未标记的数据。学习多模态功能时,可以独立训练每种模态的路径,并将它们“插入”在一起。


我们的方法得益于以下事实:所有路径上最终隐藏表示的统计属性都相似。但是,我们没有明确强加任何明确的目标来实现这一目标。探索如何通过对隐式表示的某些属性(例如稀疏性和熵)进行明确的惩罚或约束来改善这种方法将是很有趣的。


致谢

本文由南京大学软件学院 2020 级博士生虞圣呈翻译转述


标签: 使用   我们   模型   图像