【论文笔记】UPOC2:跨模态跨语言,时尚领域的模型预训练(上)

1,417 阅读3分钟

这是我参与2022首次更文挑战的第10天,活动详情查看:2022首次更文挑战

本文于2021年8月25日上传至 arXiv,已被 ACM MM 2021 接受为 Oral 论文,第一作者来自中国人民大学。
原文链接:Product-oriented Machine Translation with Cross-modal Cross-lingual Pre-training

Motivation

与 Kaleido-BERT (【论文笔记】Kaleido-BERT:精致的时尚领域需要“百变”的模型 - 掘金 (juejin.cn))一样,本文也是为了解决传统多模态机器翻译在时尚领域中效果不够好的问题,相比于 Kaleido-BERT,本文指出目前时尚领域多模态机器翻译存在的其它问题:

  • 时尚领域的多模态机器翻译任务更具挑战性。产品描述中的专业术语、描述与图像复杂的关联方式等;
  • 现有的商品描述翻译(PMT)数据集(如IKEA)规模较小,无法支持研究。
  • 商品描述往往对应多张配图,现有多模态机器翻译不能利用该特性。

本文希望构建一个统一的面向产品的跨模态语言模型和一个产品描述数据集来解决上述问题。

Method

本文首先构建了一个大规模双语产品描述数据集 Fashion-MMT ,包含 114257 个机翻描述(Fashion-MMT(L)) 和40000个人工翻译的(Fashion-MMT(L))描述,每组数据由<图像、英文描述、中文翻译>三元组构成。

本文提出了一个统一的面向产品的跨语言跨模态(UPOC2)模型来进行预训练和微调,学习产品图像和双语文本之间的语义对齐。该模型基于多模态Transformer,设计了三个代理任务来进行预训练,分别是多模态翻译语言建模(MTLM)、图像-源句子匹配(ISM)和产品属性预测(ATTP),以进行源句单词和目标句单词之间的语义对齐和图像与文本之间的对齐。

Model

模型整体结构如下:

0.png

Input Representation

图像embedding通过ResNet-101提取图像全局视觉特征;源语句单词和目标语句单词的开头和结尾分别加上开始标记[SOS]和结束标记[EOS]。除此之外,三类embedding中分别添加了可学习的模态嵌入,用来标识该元素属于哪种embedding;源语句嵌入和目标语句嵌入中还包含位置编码。

Multimodal Transformer

图像嵌入、源语句单词嵌入和目标语句单词嵌入分别通过各自的独立编码器进行编码,获取内部上下文信息,再通过一个交叉编码器(也是多层Transformer encoder)对模态或语言间的上下文进行编码。

预训练时,原句编码器和目标句编码器共享参数,微调时分离,因为微调阶段目标句编码器将用来产生结果。


今天有事,先写一半。


1.29更新

【论文笔记】UPOC2:跨模态跨语言,时尚领域的模型预训练(下) - 掘金 (juejin.cn)