ACL2017 | 南加州大学:Affect-LM 一个定制情感文本生成的神经语言模型

2022-01-21 12:26:55

你和“懂AI”之间，只差了一篇论文

很多读者给芯君后台留言，说看多了相对简单的AI科普和AI方法论，想看点有深度、有厚度、有眼界……以及重口味的专业论文。

为此，在多位AI领域的专家学者的帮助下，我们解读翻译了一组顶会论文。每一篇论文翻译校对完成，芯君和编辑部的老师们都会一起笑到崩溃，当然有的论文我们看得抱头痛哭。

同学们现在看不看得懂没关系，但芯君敢保证，你终有一天会因此爱上一个AI的新世界。

读芯术读者论文交流群，请加小编微信号：zhizhizhuji。等你。

这是读芯术解读的第5篇论文

ACL 2017 Long Papers

Affect-LM：一个定制情感文本生成的神经语言模型

Affect-LM:A Neural Language Model for Customizable Affective Text Generation

南加州大学

University of Southern California

【摘要】人的言语交流主要通过使用带有情感色彩的词汇传达情感信息。学者在这个方向上进行了大量的研究，但将最先进的神经语言模型与情感信息相结合的问题仍然是一个需要探索的领域。在本文中，我们提出受情感类别影响的扩展LSTM（长短期记忆）语言模型用于生成会话文本。本文提出的Affect-LM模型能够通过额外的设计参数来定制生成句子中情感内容的程度。使用AmazonMechanical Turk进行的感知研究表明，Affect-LM在不牺牲语法正确性的情况下，产生比较真实的情感句子。Affect-LM还学习了具有情感判别能力的词表示，而复杂实验表明，会话文本中额外的情感信息可以有效改善语言模型的预测能力。

1 引言

情感是一种包含情绪和需要长期形成的如心境和个性等的术语，指的是一种感觉或情绪体验（Schereret al., 2010）。Picard (1997) 提供了对人类情感在人际交往和互动中重要性的详细讨论。在这种情况下，对文本中人类情感的分析是自然语言理解中的一个重要课题，其中包括Twitter的情感分析（Nakov etal., 2016），诗歌情感分析（Kao and Jurafsky，2012）和研究功能词与社会/心理过程之间的相关性（Pen-nebaker，2011）。人们交流的口头信息不仅包含语法信息，而且还传达了他们心理和情绪状态。例子包括使用情感色彩的词（如愤怒和快乐）和发誓的话。对人语言沟通的情感自动化处理对于理解口语系统非常重要，特别是对于新兴应用，如对话系统和对话代理。

图1 Affect-LM能够在具有不同影响力（β）的五个具体影响类别（et-1）中产生带有情感色彩的会话文本。图中展示了在三种不同程度情感级别上，三个针对happy情绪的自动生成情感句的例子。

统计语言建模是语音识别系统的一个组成部分，其他应用如机器翻译和信息检索。对于语言建模的复现神经网络（Mikolov等., 2010），，这些基于语法模型的基本语言模型的表现远远超过了基于n-gram方法的性能。然而，在构建利用情感信息的文本神经语言模型方面还没有太多的研究工作。目前关于语言理解的深度学习文献主要侧重于基于词语语义表示（Mikolov等，2013），用于句子表示的编码器-解码器模型（Cho et al.,2015），语言建模与符号化知识（Ahn et al., 2016）和神经网络字幕生成（Vinyals等，2015），但是据我们所知，目前还没有关于使用实体信息，或数据驱动来增强神经语言建模以产生情感文本的方法。

由于神经语言建模和文本情感分析中的这些进步，本文提出了一种用于表达和生成情感文本的模型，我们称之为Affect-LM。我们的模型是针对会话语音语料库进行训练，在语音识别应用的语言建模中是常见的（Bulyko等，2007）。图1概述了Affect-LM及其在多种情感类别中产生情感色彩对话文本的能力。虽然这些参数可以手动调整以产生会话文本，但也可以从上一个上下文单词自动推断情感类别。特别是对于模型训练，情感类别是从情感词典中产生的特征得出的，如LIWC（语言查询和词计数）工具（Pennebaker等，2001）。本文的主要研究问题是：

Q1：是否可以通过设置可定制的模型参数，针对不同程度的情感强度来为目标情感生成情感句子？

Q2：这些生成的句子是否可在广泛人群来源的感知实验中被认为是情感表达并且语法正确？

Q3：基于上下文单词情感类别的自动推断能否提高Affect-LM的语言建模性能？

本文的其余部分安排如下。在第2节中，我们讨论了神经语言建模和情感对话文本生成领域的前人工作。在第3节中，我们描述了基线LSTM模型和我们提出的Affect-LM模型。第4节详细介绍了实验设置，在第5节中，我们讨论了可定制的情感文本生成的结果，每个情感类别的感知研究以及在第6节结束之前对基准模型复杂度的改进。

2 相关工作

语言建模是口语系统的一个组成部分，传统上使用了n-gram方法（Stolcke等，2002），其缺点是它们不能将其推广到不在训练集中，却在未知数据中出现的单词序列。Bengio等人（2003）提出的神经语言模型，通过词表示的概括来解决这个缺点。Mikolov等人（2010）和Sundermeyer等（2012）将神经语言模型扩展到循环架构，使用LSTM（长短期记忆）神经网络从所有以前的词w1，w2，...，wt-1的语境中预测出目标词wt。最近仍有很多工作一直在努力建立以数据的其他模式或属性为条件的语言模型。例如，Vinyals等人（2015）介绍了神经图像字幕发生器，其中通过CNN（卷积神经网络）从输入图像学习的表示被馈送到LSTM语言模型以生成图像标题。Kiros等人（2014）使用LBL模型（对数双线性语言模型）进行两个应用-图像检索，给出句子查询和图像字幕。对于图像中的文本而不是仅在文本上训练的语言模型，实现了较低的复杂度。

相比之下，以前关于情感语言生成的文献并没有充分关注可定制的最先进神经网络技术来产生情感文本，也没有对多个情感色彩的语料库进行定量评估。 Mahamood和Re iter（2011）使用几种NLG（自然语言生成）策略为正在接受医疗保健的新生儿婴儿的父母制作情感医学报告。虽然他们研究情感和非情感报告之间的差异，但其工作仅限于基于启发式的系统，不包括会话文本。 Mairesse和Walker（2007）开发了PERSONAGE，一种面向维度扩展的对话生成系统。他们根据用户的选择对回归模型进行了训练，以自动确定其模型中选出的哪些句子显示出适当的额外属性。在Keshtkar和Inkpen（2011）中，作者使用启发式和基于规则的方法来产生情感句子。他们的生成系统不是对大型语料库进行培训，他们使用附加的语音语法知识来创建简单的情感句子。相比之下，我们提出的方法建立在最先进的神经语言建模方法的基础上，没有使用句法先验知识，并产生有表现力的情感文本。

3 模型

3.1 LSTM语言模型

在介绍本文提出的模型之前，我们简要介绍一下LSTM语言模型。我们选择了这种模型作为基准，因为与其他方法相比，其先进的复杂度已经被证明过了，例如基于Kneser-Ney平滑的n-gram模型（Jozefowicz等，2016）。与普通循环神经网络不同，LSTM网络不会遇到对于长序列更为显著的消失梯度问题（Hochreiter和Schmidhuber，1997）。正式地，通过概率的链规则，对于M个词w1，w2，...，wM的序列，所有单词的联合概率由下式给出：

如果词汇由V个词组成，则词wt的条件概率作为其上下文ct-1=（w1，w2，...，wt-1）的函数，由下式给出：

f(.)是LSTM网络的输出，其通过one-hot表示将上下文词w1，w2，...，wt-1作为输入，U是在我们已经发现的与POS词性相关的可视化词表示矩阵，而bi是捕获单词i的一元文法出现的偏差项。方程式2表示作为其不使用任何附加情感信息的LSTM语言模型的上下文的函数的词wt。

3.2 模型提出：Affect-LM

所提出的模型Affect-LM在词预测中具有额外的能量项，并且可以通过以下等式来描述：

et-1是由训练期间从上下文单词获得的情感类别信息组成的输入向量，而g(.)是在et-1上运行的网络的输出。Vi是由模型学习的词汇中的第i个词的词向量，预期会对有区别的表达每个单词的情感信息。在图4中，我们提出了这些情感表征的可视化表示。

在等式3中定义的参数β，我们称之为情感强度，定义给定上下文，情感类别信息（带有情感色彩的词的出现频率）对目标词wt的总体预测的影响。我们可以将该公式作为能量模型（EBM）来考虑，其中额外的能量项可以预测预测词与情感输入之间的相关程度（Bengio etal., 2003）。

3.3 情感类别信息描述符

我们提出的模型学习了下一个单词wt的生成模型，不仅在以前的单词w1，w2，...，wt-1上进行了修改，而且还关注了情感类别et-1，这是关于情感内容的附加信息。在模型训练期间，情感类别是从上下文数据本身推断的。因此，我们定义了一个合适的特征提取器，它可以利用情感词汇来在上下文中推断情绪。对于我们的实验，我们利用语言查询和词计数（LIWC）文本分析程序，通过关键词识别进行特征提取。在Pennebaker等人（2001）的介绍中，LIWC基于一个词典，其中每个单词被分配给一个预定义的LIWC类别。这些类别根据与社会、情感和认知过程的关联来选择。例如，字典词的worry（担心）被分配给LIWC的类别anxiety（焦虑）中。在我们的工作中，我们利用了与情感过程相对应的LIWC的所有单词类别：积极、愤怒、悲伤、焦虑和消极。因此，描述符et-1具有五个特征，每个特征表示存在或不存在特定情绪，其通过从LIWC提取的特征的二进制阈值获得。例如，句子“i will fight in the war”的情感表示是et-1= {“悲伤”：0，“坟墓”：1，“焦虑”：0，“消极”：1，“积极”：0}。

表1 本文使用的语料库的总结。观察到CMU-MOSI和SEMAINE具有比Fisher和DAIC语料库更高的情感含量。

3.4 Affect-LM：情感文本生成

Affect-LM可用于根据输入情感类别、情感强度β和上下文单词生成句子。对于我们的实验，我们选择了以下情感类别-积极、愤怒、悲伤、焦虑和消极（是愤怒、悲伤和焦虑的超类）。如第3.2节所述，情感强度β定义了情感相对独立的能量项对语言模型中词预测的优势度，因此在模型训练之后，我们可以改变β来控制“情感色彩”的程度，从β= 0（中性，基线模型）到β=∞（生成的句子只由情感色彩的单词组成，没有语法结构）。

当Affect-LM用于句子生成时，情感类别可以是（1）从上下文中使用LIWC推断出来的（当我们提供情感色彩本身的句子开始时），或者（2）设置为输入情绪描述符e（这是通过将e设置为编码所需情绪的二进制向量获得的，甚至在中性句子开始时也可以使用）。给定M个词的初始起始集合、情感强度β和词数N去生成第i个生成词，通过，i∈{M + 1，M + 2，...，M + N}抽样来获取。

4 实验设置

在第1节中，我们介绍了三个主要的研究问题，涉及到提出的Affect-LM模型在不影响语法正确性的情况下产生情感色彩对话文本的能力，并且在情感色彩语料库评估时获得比基线LSTM语言模型更低的复杂度。在本节中，我们将讨论我们的实验设置来解决这些问题，并介绍Affect-LM架构和用于训练和评估语言模型的语料库。

4.1 语音语料库

Fisher English训练语音语料库是用于训练本文提出模型的主要语料库，此外，我们选择了三种带有情感色彩的对话语料库。下面给出了每个语料库的简要描述，在表1中，我们报告了每个语料库中的相关统计信息，如单词总数，以及情感色彩单词数（属于LIWC情感词类别）。

Fisher English训练语音语料库第1&2部分： Fisher English数据集（Cieri等，2004）由来自每个10分钟的电话对话语音以及相关的语音转换笔录本组成。每个对话都发生在两个陌生人之间，被要求从一组随机选择的主题中说话。对话专题的例子包括Minimum Wage、Time Travel和Comedy。

Distress AssessmentInterview语料库（DAIC）： Gratch（2014）引入的DAIC语料库包含70多个小时的人物对象与虚拟人物之间的二维访谈，虚拟人类提出了旨在诊断受试者心理困扰症状的问题如抑郁症或PTSD（创伤后应激障碍）。

SEMAINE数据集： SEMAINE（McKeown et al., 2012）是一个大型视听语料库，由主体之间的相互作用和模拟SAL（敏感人工听众）的操作员组成。共有959次对话，每次约5分钟，并以情感维度进行转录和注释。

多模态意见层面的情绪强度数据集（CMU-MOSI）：（Zadeh等，2016）这是一个多模态注释的意见视频语料库，每个视频中的一个演讲者都表达了他对商业产品的看法。语料库来自89位不同的演讲者（41名男性和48名女性演讲者）的93部影片的演讲。这个语料库与其他语料库不同，因为它包含独白而不是对话。

虽然我们发现所有语料库都包含口语，但它们具有与Fisher语料不同的以下特征：（1）表1中观察到的情绪含量更多，因为它们是通过人类主体自发地回答旨在产生情绪反应或情绪诱导主题的对话（2）由于记录环境引起的领域不匹配性（例如，DAIC语料库是在精神卫生领域上创建的，而CMU-MOSI语料库由在线上传的意见视频组成）。（3）显著小于是其他语料库组合大小25倍的Fisher语料库。因此，我们在两个不同的阶段进行训练-对Fisher语料库的基线和Affect-LM模型进行训练，以及随后对每个情感色彩的语料库进行适应和微调。

4.2 Affect-LM神经网络结构

我对于我们的实验，我们在Tensorflow（Abadi等，2016）中实现了一个基准的LSTM语言模型，其遵循Zalmba等人（2014）描述的非正则化实现。我们在实施Affect-LM方面增加了影响情感的单独能量项。我们使用了10000个单词的词汇和一个每个隐藏层有2个隐藏层和200个神经元的LSTM网络。网络展开20个时间步长，每个小型服务器的大小为20。影响类别et-1由具有100个神经元的单个隐藏层和S形激活函数的多层感知器处理，以产生g（et-1）。我们将f（ct-1）和g（et-1）的输出层大小设置为200。我们一直保持网络架构不变，以便于基线和Affect-LM之间的比较。

4.3 语言建模实验

Affect-LM也可以用作语言模型，从上下文单词估计下一个预测词，以及从上下文单词本身提取的情感类别（而不是在生成时从外部编码）。为了评估其他情绪信息是否能够提高预测效果，我们将在4.1节中详细列出如下所述的两个阶段中的语料库：

（1）Fisher数据集语言模型的训练和验证 - Fisher语料库分别按照75:15:10的比例对应于训练、验证和评估，并依据Zaremba等人（2014）的方法，我们分13次训练语言模型（包括基线和Affect-LM），前四次训练的学习率为1.0，随后的每次训练以1/2的速率递减。所有模型的学习率和神经元结构都是一样的。我们验证模型的情感强度β∈[1.0,1.5,1.75,2.0,2.25,2.5,3.0]。选择Fisher验证集上最好的模型，并将其用作后续适应情感色彩的语料库的种子。

（2）对其他语料的种子模型进行微调 - 三种语料库--CMU-MOSI，DAIC和SEMAINE中的每一种都以75:15:10的比例分配，以创建训练、验证和评估子集。对于基线和Affect-LM，来自第1阶段（种子模型）的最佳表现模型在每个训练语料库上进行微调，学习率为0.25保持不变，并且β∈[1.0,1.5,1.75,2.0]。对于在语料库中适应的每个模型，我们比较了在该语料库上评估时，Affect-LM和基线模型获得的复杂度。

4.4 句子生成感知研究

我们通过对亚马逊的Mechanical Turk（MTurk）平台进行广泛的认知研究，评估Affect-LM在不同程度上，保证语法正确性的前提下，产生情感色彩文字的能力。MTurk平台过去已成功应用于广泛的认知实验，并已被证明是收集大型研究中人类评级的绝佳资源（Buhrmester等，2011）。具体来说，我们在五个情感类别中产生了超过200个句子，即包含五个情感类别开心（积极）、愤怒、悲伤、焦虑和消极的四个句子开头（即表2中列出的三个句子开头，以及句子标记的结尾，表示该模型应该生成一个新句子）。用Fisher语料库训练的Affect-LM模型用于生成句子。每个句子由两位于美国的评估人员进行评估，最低批准评级为98％。人们指示，这些句子应该被认为是从对话而不是书写内容中得出的：重复和暂停填充（例如，嗯，呃）是常见的，不提供标点符号。人类评估者对五个情感类别，总体情感价值以及句子的语法正确性进行了七分Likert量表评估，并且每句支付0.05USD。我们使用Krippendorffsα测量了评估者之间的一致性，并且观察到所有类别的评估者之间的相当一致（例如，价数α= 0.510和语法正确性α= 0.505）。

表2 由不同影响类别的模型生成的示例句子

对于每个目标情绪（即，生成句子的预期情感），我们初始化一个MANOVA，人类评价的情感类别为DV（依赖变量）和情感强度参数β为IV（自变量）。然后我们进行随机单变量方差分析，以确定哪个DV与β显着变化。总共我们进行了5个MANOVA和30个后续ANOVA，这要求我们在Bonferroni修正后将显着性水平更新为p<0.001。

5 结论

5.1 情感文本生成

在3.4节中，我们描述了根据输入情感信息（研究问题Q1）的模型对文本进行抽样的过程。表2显示了由输入句开始的模型生成的三个句子，我感觉如此...，为什么...我告诉他为五个影响类别中的每一个 - 快乐（积极的情绪）、愤怒、悲伤、焦虑和中立（没有情感）。他们从每个类别和句子开始的20个生成句子中选出。

5.2 MTurk感知实验

在下文中，我们通过报告我们的MTurk研究的主要统计发现来解决研究问题Q2，这些发现见图2和图3。

图2 亚马逊Mechanical Turk关于目标生成句子在目标情感类别：积极、消极、愤怒、悲伤和焦虑（a）-（e）上的研究结果。每个产生的情感最相关的人类评分曲线以红色突出显示，而相关的评分曲线则以黑色显示。情感类别通过不同的类型进行编码，并在图中的图例中列出。

图3 对所有产生的目标情绪语法正确性的Mechanical Turk研究结果。每个情感类别的感知语法正确性都是彩色编码的。

积极的情感句子。多变量结果对于产生积极情绪句子的效果是显著的（Pillai'sTrace = .327，F（4,437）= 6.44，p <.0001）。ANOVAs显示所有DV的的显著结果，除了“生气” p<.0001，表明情感价值和“快乐” DV都能成功地用β操作，如图2（a）所示。语法正确性也受情感强度参数β的显着影响，结果表明正确性随着β的增加而降低（见图3）。然而，事后Tukey测试显示，只有最高的β值时语法正确性显着下降p <.05。

负面情绪句子。多变量结果对于负面情感句子的生成效果是显著的（Pillai'sTrace = 0.130，F（4,413）= 2.30，p <.0005）。ANOVAs显示“情感值” p <.0005和“快乐” DVs的显着结果，表明“情感价值” DV成功地被β操纵，如图2（b）所示。此外，如DV一样，“生气”，“悲伤”和“焦虑”没有显著差异，表明负面情绪DV指的是更一般的相关情绪概念，而不是特定的消极情绪。这个发现是符合预期的LIWC类别的负面情感类别的，形成父类别以上的更具体的情绪，如愤怒，悲伤和焦虑（Pennebaker等，2001）。语法正确性也受影响强度β的显著影响，结果表明正确性随着β的增加而降低（见图3）。对于积极情绪，事后Tukey测试显示，只有最高的β值显示时语法正确性显着下降p <.05。

愤怒的句子。多变量结果对于生成愤怒感情色彩的句子（Pillai'sTrace = .199，F（4,433）= 3.76，p <.0001）是重要的。ANOVAs显示“情感值” p<.0001，“快乐”和“愤怒”的DV的显著结果，表明“情感值”和“愤怒”的DV都成功地被β操纵，如图2（c）所示。语法正确性不受影响强度参数β的显著影响，这表明愤怒句子在广泛的β范围内是高度稳定的（见图3）。然而，似乎人类评估者无法成功区分愤怒，悲伤和焦虑的影响类别，表明所产生的句子可能遵循一般的负面影响维度。

悲伤的句子。多变量结果对于悲伤句子的生成效果是显著的（Pillai'sTrace = .377，F（4,425）= 7.33，p <.0001）。ANOVAs仅显示“悲伤” p <.0001的DV的显著结果，表明尽管可以用β成功操纵“悲伤”的DV，如图2（d）所示。β的语法正确性显着降低。具体来说，事后Tukey测试显示，只有两个最高的β值显示时语法正确性显着下降p <.05（见图3）。对于“悲伤”的事后Tukey测试显示β= 3时对于该DV是最佳的，因为其导致感觉悲伤评分在p<.005，β∈{0,1,2}处显著跳跃。

焦虑句子。多变量结果对于产生焦虑句子是重要的（Pillai'sTrace = 2.89，F（4,421）= 6.44，p <.0001）ANOVAs显示“情感价值” p <.0001，“快乐”和“焦虑”DV的显着结果，表明“情感价值”和“焦虑”DV都成功地被β操纵，如图2（e）所示。语法正确性也受情感强度参数β的显著影响，结果表明正确性随着β的增加而降低。类似地，对于“悲伤”，事后Tukey测试显示，只有两个最高的β值显示时语法正确性显着下降p <.05（见图3）。再次，“焦虑”的事后Tukey测试显示，β= 3对于该DV是最佳的，因为其导致在p<.005，β∈{0,1,2}处的感知“焦虑”得分的显著跳跃。

表3：基于Fisher训练并随后适应于DAIC，SEMAINE和CMU-MOSI语料库，基线和Affect-LM模型获得的评估复杂度得分

5.3 语言建模结构

在表3中，我们通过介绍基线模型和Affect-LM获得的复杂度分数来解决研究问题Q3，当对Fisher语料库进行训练时，随后对三种情绪语料库进行调整（每个适应模型在CMU-MOSI、DAIC和SEMAINE上单独训练）。对Fisher训练的模型在所有语料库上进行评估，而每个适应模型仅在其各自的语料库上进行评估。对于所有语料库，我们发现Affect-LM平均比基线模型实现更低的复杂度，这意味着从上下文获得的情感类别信息改进了语言模型预测。对Fisher训练的模型，平均复杂度提高为1.44（相对提高1.94％），而适应模型则为0.79（1.31％）。我们注意到，对于情感词含量较高的语料库，观察到对复杂度的改进更大。如表3所示，其中Affect-LM对于CMU-MOSI和SEMAINE语料库的复杂度有较大的降低，分别比Fisher语料库多2.76％和2.75％的情感词。

5.4 词表示

在等式3中，Affect-LM学习权重矩阵V，其捕获预测词wt与影响类别et-1之间的相关性。因此，矩阵Vi的每一行是第i个词在词汇中的情感上有意义的词向量。在图4中，我们提出了这些词向量的t-SNE可视化，其中每个数据点是一个单独的单词，出现在LIWC词典中的单词根据它们属于哪个情感类别进行着色（我们只标记了类别中的单词：积极、消极、愤怒、悲伤和焦虑，因为这些类别包含最常见的话）。彩色灰色的词是不在LIWC词典中的。在图4中，我们观察到词向量包含情感信息，其中积极与聚集在一起的消极（悲伤、愤怒、焦虑）高度分离。

图4: 通过Affect-LM学习词表示

6 结论和未来工作

在本文中，我们引入了一种新颖的语言模型Affect-LM，用于生成基于上下文单词、情感类别和情感强度参数的情感对话文本。MTurk感知研究表明，该模型可以在不影响语法正确性的情况下，产生不同程度的表示文本。我们还将Affect-LM作为语言模型进行评估，并且显示当从上下文中的单词获得情感类别时，它比基线LSTM模型实现较低的复杂度。对于未来的工作，我们希望通过调研基于面部图像和语音等其他模式的语言生成以及虚拟代理对话生成等应用程序来扩展此模型。

论文下载链接：

http://www.aclweb.org/anthology/P/P17/P17-1059.pdf

留言点赞发个朋友圈

我们一起探讨AI落地的最后一公里

长按识别二维码可添加关注

读芯君爱你