3-alignment

发表于 2022-09-04 分类于 tutorial ， multimodal 阅读次数：本文字数： 1.6k 阅读时长 ≈ 1 分钟

MMML Tutorial Challenge 2: Alignment

Alignment定义：

Identifying and modeling cross-modal connections between all elements of multiple modalities, building from the data structure.

存在三种可能的connection：

equivalence表示两个不同模态的element之间是完全相等的，correspondences表示两个element信息互相补充比如图像和对图像内容的描述，dependencies表示两个element之间存在关系。

dependency示例：

比如说存在时间上的前后关系；或者是比较特殊的co-dependencies，指不同的元素总是同时出现。

Sub-Challenge 1: Explicit Alignment

定义：

Identifying explicit connections between elements of multiple modalities.

比如把图像中的object和对应的文本描述关联起来：

speech的对齐：

在图像和文本的对齐中，对于模态element的定义是明确的。但是对于某些模态的定义就不够确切。比如如果我们希望对齐两个video。

比如存在有研究如何对齐两个video的方法：

Sub-Challenge 2: Implicit Alignment

定义：

Implicitly model connections between elements for better representation learning.

比如期望实现下面的三个模态对齐：

我们无法直接提前选择好explicit connection，但是我们可以利用神经网络实现implicit connection。比如一个简单，但是efficient的方式是把所有的模态拼接到一起后，使用Transformer，通过self-attention，潜在地把不同模态的element融合到一起：

Transformer会把所有可能相关的element关联到一起。VisualBERT是一个关联image-language的实例：

上面的方法会直接把不同模态信息进行融合，最近出现了更多的pair-wise alignment：

仍然保持各自在不同的表示空间，但是对于modality A会尝试对齐来自modality 的信息，对于modality B尝试对齐来自modality A的信息。如果出现了三个以上的模态，同样可以进行跨模态的对齐。实现的主要思路是，比如我现在有个word embedding，使用这个word embedding作为query embedding，计算来自video slice的image embedding的相似度，然后基于attention聚合image embedding，这样就到达了衡量image对于language的重要程度。下面是一个cross-modal pairwise Transformer的实例：