文章引见在非对齐序列的多模态情感剖析场景中,一种基于 holographic reduced representation 的表征融合措施。 ICASSP收录论文: Mutimodal Sentiment Analysis On Unaligned Sequences Via Holographic Embedding作者:马煜坤 马斌 || 背景 多模态情感剖析不时是语音了解任务中的一个重要的子任务。不同于传统的基于文本或者语音的单模态情感剖析任务,多模态情感剖析需求同时思索多个模态(语音/文本/图像)的输入特征。 这个任务的中心是要把多个模态输入的特征中止有效的融合和应用。常见的多模态情感的剖析场景中,输入是视频流,包含文本、图像和语音的三个特征序列。 依据多模态序列能否对齐,任务能够进一步细分为:1)关于对齐序列的多模态剖析;2)关于非对齐序列的多模态剖析。目前的研讨针对对齐/非对齐序列的特征融合主要依托运用多层网络结构(例如transformer layer)来完成。 || 措施
我们针对非对齐序列的多模态表征融合提出一种基于 holographic reduced representation 的融合措施。这种融合措施能够用于表示恣意两个模态的表征的高阶相关性(high-order correlation)。细致是经过 circular convolution layer来完成的。 如上图所示,circular convolution 能够被看做是一个紧缩版本的向量外积,并能够经过 fast fourier transformation 来保障较高效率。下图展示我们提出的跨模态HRR的一个block: 第一层是 circular convolution 层用于表示两个模态序列 step-wise 的高阶相关性; 第二层 cross attention 层依据 X->Y 或者 Y->X 的方向对两个模态特征中止融合; 第三层 self-attention 层,依据融合过后的序列中止进一步的序列中的信息融合; 第四层 Linear 层对融合过后的表征中止进一步的变换。
思索到效率,我们采取了将跨模态 HRR block 和 transformer block 混合的网络结构。只应用比较浅(1-3层)的 HRR 对多模态表征中止高阶融合,然后应用 transformer 层中止 task specific adaptation。我们实验了不同的混合战略(见下图,从左到右)分别对应 early fusion/intermediate fusion/late fusion.
|| 实验结果 我们在两个 CMU 的多模态情感剖析数据集(下图左 CMU MOSI,下图右 MOSEI)上做了对比实验。对比了目前针对非对齐多模态序列的 SOTA 措施。结果显现在大多数评价指标上,我们的融合措施都完成了提升。
另一方面,我们比较了不同的与 transformer 层的混合措施的效率,我们发往常抵达上面表格讲演效果的前提下,运用 late fusion 和 early fusion 能够取得更好的 inference 效率。主要的缘由是 late 和 early fusion 需求更少的 transformer 层。 || Future Work 在这个工作中,我们探求了应用HRR来中止跨模态的特征融合,并证明了在非对齐序列情感了解任务上的有效性。目前,我们应用HRR来对跨模态特征中止融合时,还是经过遍历一切的特征来完成的。针对下一步的探求方向,我们能够尝试将HRR和跨模态图模型中止分离,应用HRR来表示不同模态间存在联络的节点。 更多语音相关资讯,请关注语音之家公众号及官网:http://www.speechhome.com/ |