音乐情感识别研究综述

发布时间：2021-11-29 16:56所属平台：学报论文发表咨询网浏览：次

摘要：音乐是表达情感的重要载体，音乐情感识别广泛应用于各个领域。当前音乐情感研究中，存在着音乐情感数据集稀缺、情感量化难度大、情感识别精准度有限等诸多问题，如何借助人工智能方法对音乐的情感趋向进行有效的、高质量的识别成为了当前研究的热点与难点。论文

　　摘要：音乐是表达情感的重要载体，音乐情感识别广泛应用于各个领域。当前音乐情感研究中，存在着音乐情感数据集稀缺、情感量化难度大、情感识别精准度有限等诸多问题，如何借助人工智能方法对音乐的情感趋向进行有效的、高质量的识别成为了当前研究的热点与难点。论文旨在总结当下音乐情感识别的研究现状，从音乐情感数据集、音乐情感模型、音乐情感分类方法三个方面进行梳理，列举当前可使用的公开数据集并对其进行简要概括，综合评判常见的音乐情感模型，针对不同模态总结不同的分类方法，最后对该领域当前问题及今后研究工作进行归纳概括，为后续进一步的研究提供思路。

　　关键词：音乐情感识别;音乐情感模型;音乐情感分类;音乐情感数据集

音乐情感

　　1概述

　　1.1发展背景

　　随着网络用户的大量增长，音乐信息检索的需求逐步加大，《2020年中国在线音乐行业报告》数据显示中国在线音乐活用户数超6.58亿，对于音乐情感识别的需求抵达前所未有的高度。用户的大量增长使得在线音乐收听服务系统受到了巨大挑战。如何识别用户内心情感和如何推荐给用户最感兴趣的歌曲成了当下许多音乐检索和推荐领域研究人员研究的热点问题。进一步开展基于音乐情感的音乐信息检索研究，对于解决当前的热点问题具有重要意义。

　　音乐教育论文范例：流行音乐与高职音乐教学的融合分析

　　音乐情感识别任务实际上是对音乐的深层次分析与理解。通过音乐智能计算来确定音乐情感趋向，不仅涉及信号处理和人工智能，还需要理解听觉感知、心理学和音乐理论等众多领域，本质上是一项跨学科的工作[1]。然而人们对音乐情感的判断极具主观性，不同的经历与理念会对音乐情感的判断有着不同程度的影响。音乐的特征如音色、节奏和歌词等也会影响人们对音乐情感的感知与判断。音乐以音的高低、长短、强弱和音色等基本要素的不同来表现不同情感，如何量化这种音乐情感特征是解决音乐情感识别问题的关键之一[2]。

　　邓永莉等人[3]以人的认知为根据，将音乐情感特征分为低层特征和中高层特征。低层特征如能量特征、频域特征、时域特征、乐音特征和感知特征等，与人认知层面的情感间接相关;高层特征与情感之间有更强且更直接的相关性，如速度、节拍、伴奏、和弦、调式等。还有些研究者认为乐器也可以辅助音乐情感识别，李子晋等人[4]认为乐器的特征对音乐情感的识别结果有一定影响，如二胡往往传递给人较为悲伤的情感感受，萨克斯、唢呐、小号则较为激昂。

　　对选择的特征充分分析其优缺点，可以更好地进行特征融合。对这些特征进行融合，识别效果可能更佳。近年来音乐情感识别问题受到广泛关注，在结合了深度学习方法后情感识别准确率有了大幅提升，但音乐情感识别是一项长期性任务，仍需不断地开拓创新与提升。随着音乐情感识别在各个领域的深入应用，其创造了不可比拟的应用价值，积极推动了其他领域的发展。

　　对音乐情感进行识别可以更准确地进行个性化音乐推荐，根据情感需求进行个人喜好上的调整，能够很好地解决个体差异性问题，将音乐从情感角度进行识别与分类进而使音乐检索方式变得更加多元。同样，音乐情感识别也逐渐应用于医疗领域，用音乐进行心理治疗近年来成为了医疗行业的有效治疗方法，在处理脑神经难题时音乐情感识别也发挥了重要作用。因此音乐情感识别研究对各个领域的深入发展都有着重要意义。

　　论文按照不同角度下所处理的具体问题组织全文，安排如下：论文首先介绍了几种常见的公开音乐情感数据集，详细介绍了心理学角度的音乐情感表示;其次，本文介绍了音乐情感模型的研究工作，阐述了常见模型如Hevner模型、Thayer模型、TWC模型(Tellegen-Watson-Clark)和PAD模型的发展过程及应用。最后论文介绍了三种模态下音乐情感的基本分类方法，针对不同模态归纳了不同的分类方法;最后进而对该领域当前问题及今后研究工作进行了总结。

　　1.2音乐情感数据集

　　音乐情感数据集是音乐情感识别研究的基础数据，根据数据集中的元数据和情感标注可以有效地进行音乐情感识别任务。以下简要介绍几种常见的公开音乐情感数据集以及知名评测比赛中所使用的非公开数据集。

　　1.2.1CAL500数据集

　　CAL500数据集[5]为公开数据集，使用的音乐数据是一套500首“西方流行”歌曲的集合，来自500位独特的艺术家，每首歌曲都至少有三个人对歌曲进行注释。在此基础上构建了174个“音乐相关”语义关键词词汇对每首歌曲进行标注。174个语义关键词中情感关键词有18个，总共有1708个注释。且每首歌都有一个二进制注释向量使得所有主题之间有很高的一致性，以保证标签是可靠的。基本可以满足音乐情感识别所要求的细粒度与区分度方面的需求。

　　1.2.2emoMusic数据集

　　emoMusic数据集[6]是一个包含1000首歌曲的公开数据集，收集时变的(每秒)连续的V-A评级，效价表示积极情绪和消极情绪，唤醒表示情绪强度。使用情感的维度表征对音乐进行连续的动态注释，即在歌曲播放时不断地对歌曲进行情感标注。最终的数据集包含1000首歌曲，每首歌曲至少有10个主题注释，其情感注释规模比目前许多可用的音乐情感数据集都要大，更适用于V-A模型的情感分类实验。

　　1.2.3AMG1608数据集

　　AMG1608数据集[7]包含1608个30秒的音乐片段，由665名受试者对片段进行注释。数据集包含了46个主题的注释，每个主题注释了150多个音乐片段，音乐情感模型采用V-A维度模型，每个音乐片段只标注一个V-A值，可以用来分析和研究情感识别的个性化问题。AMG1608的创建是为了促进市场营销的发展和评价，数据集在很多度量上都比之前的数据集大且可以公开访问。与emoMusic数据集相比，AMG1608数据集同样使用了V-A评级，但与动态的评级方式相比标注量略显不足。

　　1.2.4DEAP数据集

　　DEAP数据集[8]是根据分析人类情感状态而提出的一个多模态数据集。该数据集包含来自32名参与者的生理线索(以及来自22名参与者的正面视频)，每个参与者根据视频的唤醒度、效价、支配性和感知观看了40个音乐视频。使用偏好和熟悉度评估情绪反应。数据集选用的是一种基于情感标签的半自动刺激选择方法且对研究界公开。对很多领域的情感研究工作都具有很大意义。

　　1.2.5相关竞赛及其数据集

　　MIREX[9](MusicInformationRetrievalEvaluationeXchange)是音乐信息检索领域具有较高影响力和知名度的音频检索评测竞赛，能够提供给参赛者种类相对齐全的数据集。大赛自2004年起已成功举办16届，为推动音乐情感识别的研究作出巨大贡献。其中音乐情感相关的子任务有两个，分别为音频音乐情感分类和K-POP情感分类。音频音乐情感分类任务提供了一个包含600首音乐的数据集，每首截取30秒音频，情感类别分为5类，每类120个音频[10]。

　　K-POP情感分类的数据集包含1438首歌曲，每首歌曲选取30秒，数据集包含5类情感分类，由于测评需要并未公开。MediaEval测评大赛致力于评估多媒体检索的新算法，自2013年起增加了音乐情感预测任务。其在2013至2015年所使用的是一个包含744首歌曲的数据集，分为开发集(619首歌曲)和评估集(125首歌曲)，每首歌曲截取45秒音频，每首歌曲至少有10人进行连续的动态V-A标注[11]。

　　2020年和2021年的任务所使用的数据是MTG-Jamendo数据集[12]的子集，包含18,486条带有情感主题注释的音轨，总共有57类情感标签。综上所述，我们可以清晰地看出，音乐情感方面的公开数据集数量相对稀少，很多数据集仅适用于单一实验，格式与标准有待进一步规范，以上种种原因使得该领域可广泛使用的数据集数量并不乐观。

　　2音乐情感表示

　　2.1音乐情感定义

　　音乐的创作是为了传递情感信息，音乐情感是音乐的内在属性。研究表明，音乐中情感的表达和感知具有一定的普遍性[13]。学术界对这种情绪的定义有两种不同的观点，即“表达理论”和“唤醒理论”。“表达理论”认为音乐情感是指作曲家或演奏者情感体验的表达。而“唤起理论”则认为，音乐的情感是聆听音乐过程中听者所经历的情感体验[14]。从情感角度理解，“表达理论”倾向于作曲家或演奏者想传达给听众的情感，而“唤起理论”则倾向于通过音乐感召听众的主观情感感受。

　　许多相关研究结果表明，不同的人对同一音乐所表达的情感的选择是大多是相同的，这种根据人们的感知来判断音乐情感的方法被证明是可靠且有效的。不同的音乐所表达出情绪不同，听众表现出生理上的情感反应也不同，“表达理论”与“唤起理论”二者所传达出的情感亦有差异。音乐情感识别研究大多基于机器学习，而对于机器学习来说，“表达理论”和“唤起理论”在标签选择上也有差异。“表达理论”在标签标注上采用来自作曲家与演奏者所规定的情感标签;“唤起理论”在标签的选择上则是选择来自听众定义的情感标签。因为来自不同个体的情感感受不可避免地有个体差异，所以目前研究者大多采纳“表达理论”，因为“表达理论”更具客观性，所以在应用上更符合需求。

　　2.2音乐情感模型

　　音乐情感的分析与识别需要使用到音乐情感模型，音乐情感模型可以有效解决情感难以量化的问题，根据特征选择适合的模型是对音乐情感进行分析与识别的基础。音乐情感分析模型一般可分为三个部分：音乐特征模型、音乐情感模型和分类认知模型[15]。

　　其中音乐情感模型作为最终分类的基础，它的选择尤为重要。音乐情感模型中最为通用、常见的有Hevner[16]模型、Thayer[17]模型、TWC[18]模型(Tellegen-WatsonClark)和PAD[19]模型等。陈晓鸥[20]等人对音乐情感识别的研究进展情况提出了若干问题及可能的解决方案，并且针对不同的理解角度认为音乐情感模型还分为表达模型和唤起模型之分，在实际应用当中还会用到其他领域通用的连续维度情感模型。二者对比之下，音乐领域所用的情感模型更接近人的情感体验的特点，而通用连续维度情感模型支持多模态的情感关联。

　　2.2.1Hevner模型

　　Hevner模型是计算机音乐情感分析领域常用的音乐情感心理模型，最早在1936年由Hevner提出，Hevner将情感形容词归结为8大类：庄重、悲伤、梦幻、安静、优雅、快乐、激动和有力，每类形容词下又细分出多个更为细致广泛的情感形容词共67个词。模型结合了音乐学与心理学，在情感关键词的选择上更加丰富，对于音乐作品的情感鉴别有很好的效果。Farnsworth[21]在Hevner模型的基础上发现有几个Hevner形容词簇描述情绪不够精准，随即通过使用50个Hevner形容词对模型进行了有效的更新，对比原本的模型内部一致性更高，类别区分更加明显。2003年Schubert[22]又将Hevner模型情感形容词表进行了更新，最后的列表包含了46个单词，在情感空间中被分成九组。

　　Hevner模型主要针对西方群体，受众具有较大的局限性，究其原因主要在于中西方文化的差异，不同的文化背景及不同的思维方式造成模型在使用上并不完全适用于国内音乐。在对模型进行改造时，通过直接翻译情感形容词等方法具有局限性，改善更新后的词汇不一定适合中文的表述习惯。刘涛等[23]联合多位音乐专家、作曲家、演奏家和专业音乐教师，根据Hevnermodeldictionary中的形容词，选取并添加了适合描述中国民族音乐、符合中国人习惯的形容词，删除了同义词，最终选取了47个情感形容词。

　　更新后的模型在国内研究领域被广泛使用。蒋益盛[24]在改进的Hevner情感环模型的基础上，借助语义资源和从互联网上爬取的歌词语料库，构建了一个树状层次结构的音乐领域汉语情感词典，在前人基础上进一步完善了适用于中国音乐的音乐情感词典，但词典的构建过程中，没有考虑到实词的词频和词性对情感词权重的影响。为了解决这个问题，王杰[25]等人基于词类和情感词的权重构建了音乐领域的汉语情感词典，分析了汉语音乐的情感，在构建特征向量时考虑了词类的影响，进一步提高了模型的适应性。

　　3音乐情感分类方法

　　在音乐的情感分类方面，当下不少研究者使用新兴方法对音乐的情感进行分类，如李洪伟[29]等人基于动态脑网络，捕捉人类大脑在长期音乐下的情绪变化，可以有效区分不同种类的情绪，为音乐情感研究提供了新的方向和思路，但由于这种方法会产生数据冗余，所以并不适用于二分类。传统的研究方法主要集中在基于音频的情感分类、基于歌词的情感分类和多模态情感分类，选择适合的方法可以有效提升分类精度。相较而言，音频的内容信息比歌词丰富，所以在以往的研究中，音乐情感分类工作大多是基于音频特征的情感分类。

　　基于歌词的情感分类对比其他模态具有速度优势，但仅靠歌词不能完全对情感进行识别，应用于音乐情感分类领域的研究相对较少。单从音频或歌词文本中提取特征进行分类在准确率上取得了一定成果，要将其进行进一步提升还有待研究，故近年来，越来越多的研究基于多种来源的多模态方法[30]，这些方法将音乐情感识别任务扩展到了多个领域，在很多场合下发挥着重要作用，有望将音乐情感识别准确率进一步提升，多模态分类在基于音乐的情感识别领域中逐渐占据主导地位。

　　4音乐情感识别研究面临的问题及未来研究展望

　　4.1现有研究所面临的问题

　　音乐情感识别作为一项跨学科的研究，在各个领域都有着广泛应用。自音乐情感识别领域发展以来，国内外众多学者对该领域进行了深入研究，并取得了一定成果，但音乐情感识别总体还处于上升阶段，仍具有很大的研究空间。

　　(1)在研究过程中，音乐情感的主观性一直是音乐情感识别中的重大难题，是影响情感标注的重要因素。音乐表达及唤起的情感是主观的，难以准确量化，导致研究者难以获得客观准确的情感标注，这就使得难以建立有效、高质量的训练集。

　　(2)在分析音乐情感的过程中，分析音乐的特征是进行情感计算的重要基础条件，目前对音乐情感进行分类的一般方法是提取音乐底层的物理特征，并对这些特征进行分析处理，但底层特征与高层情感之间的关系是有限的，现有的音乐特征难以对情感相关信息进行有效表达，如何建立合理的音乐特征分析模型是有待解决的问题之一。(3)在现有的研究方法上，利用音频底层特征的机器学习方法带有盲目性和未知性，大范围的对音频底层特征组合进行对比成本过大，效果也难以预测，难以进一步提高音乐情感的识别性能。

　　4.2未来研究展望

　　(1)在音乐情感数据集的建立方面，可在对情感进行标注时将离散情感模型与连续情感模型进行融合，使情感类别的选择更为集中、区分度更大，有效减少标注者主观因素对情感标注准确性的影响，进而推动音乐情感数据集的高质量建立。

　　(2)相比机器学习，深度学习具有更好的特征学习能力，对数据有更本质的描述。将深度学习方法应用于音乐情感识别可以有效提高识别性能，在此基础上，将深度学习方法与其他方法相融合也是当前较为热门的研究方法之一，这种融合方法有望将识别准确率进一步提升。

　　(3)从模态方面，单一模态的识别尤其是音频模态已经能够取得较高的识别准确率，但面对民族音乐等部分风格较为鲜明的音乐时，使用通用的音频特征得到的识别准确率并不理想。在未来研究中可尝试将多种不同类型的特征相互组合的处理方法，有望带来更高的识别效率和更为理想的识别效果。

　　参考文献:

　　[1]KimYE,SchmidtEM,MignecoR,etal.StateoftheArtReport:MusicEmotionRecognition:AStateoftheArtReview[C]//Proceedingsofthe11thInternationalSocietyforMusicInformationRetrievalConference,ISMIR2010,Utrecht,Netherlands,August9-13,2010.DBLP,2010.

　　[2]韩文静,李海峰,阮华斌,马琳.语音情感识别研究进展综述[J].软件学报,2014,25(01):37-50.HANWJ,LIHF,RUANHB,MAL.ReviewofSpeechSentimentRecognition[J].JournalofSoftware,2014,25(01):37-50.

　　[3]邓永莉,吕愿愿,刘明亮,等.基于中高层特征的音乐情感识别模型[J].计算机工程与设计,2017(4).DENGYL,LYUYY,LIUML,etal.MusicEmotionRecognitionModelbasedonmid-levelfeatures[J].ComputerEngineeringandDesign,2017(4).

　　[4]李子晋,于帅,肖畅,等.CCMusic:用于MIR研究的中国音乐数据库建设[J].复旦学报(自然科学版),2019(3).LIZJ,YUS,XIAOC,etal.CCMusic:ConstructionofChinesemusicdatabaseforMIRResearch[J].JournalofFudanUniversity(NaturalScienceedition),2019(3).

　　作者：康健，王海龙*，苏贵斌，柳林

转载请注明来源。原文地址：http://www.xuebaoqk.com/xblw/7132.html

《音乐情感识别研究综述》

上一篇：警惕平台经济中的“异化劳动”现象
下一篇：从人文生态视角分析《德雷尔一家》的艺术价值

音乐情感识别研究综述

学报论文发表期刊

热点学报

学报问题

热点问题