详情

基于情感分析和LDA主题构建的影评知识图谱及预测系统

申报人:阳炫俊 申报日期:2024-05-31

基本情况

2024年批次
基于情感分析和LDA主题构建的影评知识图谱及预测系统 学生申报
创新训练项目
工学
计算机类
学生来源于教师科研项目选题
一年期
在大数据发展的浪潮下,当前的影视平台推荐系统缺乏有效的自动化工具来高效处理和分析海量的影评数据,难以精准地满足用户的个性化需求。鉴此,打造一个能够实时处理和分析庞大影评数据的系统,迅速捕捉观众情绪和电影核心主题,已成为影视行业亟待解决的主要问题之一。该系统不仅能为广大观众提供公益性的影评分析服务,使他们能迅速洞悉电影的主题与情感脉络;而且,对于影视行业的专业人士而言,该系统还提供付费的深入分析服务,帮助他们依据影评的反馈结果预测电影票房的走势,进而优化宣传布局和营销战略。

RoboMaster机甲大师超级对抗赛全国三等奖、睿抗机器人开发者大赛省级三等奖、广西人工智能设计大赛省级三等奖、全国三维数字化创新设计大赛省级二等奖、大学生计算机设计大赛省级一等奖

参加一项国家自然基金项目,主持两项教学研究项目

提供了相关材料及解答相关研究出现的难点

区级

项目成员

序号 学生 所属学院 专业 年级 项目中的分工 成员类型
阳炫俊 计算机科学与工程学院 人工智能 2022 技术支持
韦豪卓 计算机科学与工程学院 网络工程 2021 版面设计
唐伟程 物理与电子信息工程学院 电子信息工程(应用) 2022 文件检索
何佳瑶 计算机科学与工程学院 计算机科学与技术(应用) 2022 资料整合
刘波 计算机科学与工程学院 网络工程 2021 网络搭建

指导教师

序号 教师姓名 所属学院 是否企业导师 教师类型
陈宫 计算机科学与工程学院

立项依据

       在信息化社会和大量的数据背景下,影视平台如豆瓣、猫眼等提供了丰富的观影信息和评论平台,使用户可以轻松分享观影体验。电影评论作为用户生成的内容,对电影的市场表现产生了重大影响。然而,评论的海量数据和高复杂性对传统系统推荐方法构成挑战,特别是在实时捕捉和分析观众情绪及主题趋势方面。

       当今,对影视评论进行研究的文章表明,现有方法主要集中在单独运用LDA主题模型识别影评的情感倾向,或者利用情感分析构建知识图谱。然而,鲜有研究同时采用LDA主题模型和知识图谱进行分析。影评知识图谱模型融合了情感分析、LDA主题模型和知识图谱构建三种技术,不仅能分析影评中的情感倾向,还能挖掘出潜在的讨论主题,并将这些信息以知识图谱的形式直观展现为用户提供了一个多维度的电影分析视角。

       通过该模型,用户可以更加精准地了解电影的市场反响,预测电影的成功潜力,优化影视内容制作和发行策略。此外,对于影评平台来说,该工具能够丰富用户体验,提高平台的用户粘性与访问量。鉴于电影行业的广泛性和互联网用户数量的庞大基础,加之业界对数据分析和市场预测日益增长的需求,该模型有望成为电影行业数据分析的重要工具之一,同时也能为广大影迷社区带来更加个性化和深入的影评体验。

summernote-img

       1.针对情感分析运用机器学习中的支持向量机(SVM)进行情感分析,计算影评数据的情感分值了解影评者对电影的情感倾向,从而更好地理解观众的反馈。

       2.针对LDA主题提取:首先,对文本数据进行更加细致的预处理,包括去除噪声数据、词性标注、命名实体识别等,以保证输入数据的质量;其次,通过主题数寻优图确定主题最优数,以提高主题提取的准确性和稳定性。同时,可以结合领域知识和词汇表进行主题模型的解释和评估,确保提取的主题具有实际意义和可解释性为电影的分析提供更多角度和思路。

       3.针对构建影视知识图谱:首先,利用自然语言处理技术,如命名实体识别和实体链接,从影评文本中抽取出实体信息,如电影名称、演员、导演等。然后,通过关系抽取技术,分析影评中的语义关系,如评论者对电影的评价,演员之间的关联等。最后,利用知识图谱建模工具,如Neo4j,将抽取出的实体和关系构建成图谱结构,并进行可视化展示。同时,可以结合领域专家的知识和规则进行知识图谱的验证和优化,以确保构建的知识图谱具有较高的准确性和实用性。

       随着互联网迅速崛起,开放式平台诞生并发展。互联网用户数量规模的不断增大,平台的不断完善,人们的生活方式在改变。用户可以在购物网站、社交网站、论坛以及许多开放平台上发表自己的见解。近年来,国内外许多学者对影评知识图谱模型进行研究,并获得了显著的成果。刘丽等人提出融合多语言的条件随机场模型和句法树剪枝的方法对产品评论进行情感分析。陈炳丰等人通过线性链条件随机场和双层条件随机场模型的对比方式,对汽车评论数据进行了情感属性分析。彭云等人提出了语义关系约束模型方法,在有语义参考的前提下,基于LDA模型的情感元素的提取结果较好。李鸣等人结合情感词典匹配算法以及Apriori算法,提出了可跨领域的情感元素提取方法。肖璐等人通过对词语的特征以及统计关系自动抽取评论中情感元素。Poria等人提出了采用深度卷积神经网络与语言规则相结合的方式通过对句训练来提取情感元素。

       在电影产业的研究领域,尤其是在基于大数据的影评分析中,现有的解决方案已经逐步展示了用户评论数据在电影推荐和市场预测中的关键作用。特别是,文本挖掘和情感分析技术已被广泛用于理解和预测消费者的行为及其对电影的情感反应。然而,现有研究在处理网络爬取的数据时常常面临多个挑战,包括数据噪声、重复内容以及信息缺失等问题。此外,这些技术往往难以准确处理新词、专有名词和歧义词,也无法有效地解析包含讽刺或隐喻这类复杂情感的评论。因此,在情感倾向分析的精度方面,现有研究仍显示出明显的局限性,这成为了该领域研究的常见痛点之一。

       在影评分析领域,知识图谱已成为一个重要的研究方向通过从大量的影评文本中提取关键信息如电影的角色、导演、电影类型等实体及其相互之间的关系,知识图谱帮助将非结构化的数据转化为结构化数据。这不仅增强了数据的可查询性和分析深度,也为推荐系统提供了支持,使其能够根据用户的具体兴趣和偏好(基于他们的影评)进行更精确的电影推荐。相关研究在识别影评中复杂实体(如隐喻和比喻)和关系的方法上探讨不足。这些复杂的语言表达形式常常含有丰富的情感和观点,对于精确捕捉用户情感及观点态度尤为关键。其次,现有方法在处理影评数据的多样性和复杂性方面还有待提高。

       1.采用综合分析方法。将情感分析与LDA主题模型相结合,准备捕捉影评的情感倾向,深入理解评论所涉及的主题内容,从而实现对影评更为全面的解读

       2.构建知识图谱。通过运用结构化的知识图谱,直观地展示影评数据的关键信息和关系,将情感倾向、主题分类和知识关系有机地融合在一起,为影评内容的深度理解和后续分析提供了有力支持。

       3.运用主题建模。通过得到一系列主题分布,进而进行电影知识融合、实体对齐和本体构建,将提取出的影评知识和情感分析按照一定的结构和逻辑进行组织和表示,最终构建出影评知识图谱

       4.多语言支持与跨文化应用。提供多语言支持的影评分析服务,并探索跨文化影评分析的方法与应用。这样可以拓展影评分析的应用范围,满足不同地区和文化背景下用户的需求。

       5.个性化推荐与制定化服务。结合用户的历史行为数据和个性化偏好,开发更智能、个性化的影评分析与推荐系统。通过利用用户的历史行为数据和实时反馈,为用户提供定制化的影片推荐和个性化的服务体验,提升用户满意度和忠诚度。

1.研究方法:

1)通过团队成员内部相互讨论、文献查找、案例分析等方式调查现有影评分析技术的痛点和难点,寻找解决的核心问题,以确保分析结果的准确性和可靠性

2)通过爬虫技术自动化抓取互联网数据同时运用布尔逻辑优化查询,研究基于综合分析的知识图谱构建,开展深度市场调研和观众行为分析。通过对影评数据的结构化整理和关联分析,可以发现潜在的市场机会和观众喜好,为影视行业的战略决策提供科学依据。

3)通过线上线下向一些具有相关模型开发经验的人员进行询问,寻求最佳模型建立方案。

4)通过向指导老师沟通,寻求老师的帮助,根据老师的意见进行修改。

2.技术支持概念:

1)Python网络爬虫:Python爬虫是利用Python编程语言编写的程序,通过构建URL,包含评论的起始位置、数量、状态和排序方式等参数,进而使用requests库发送HTTP请求,等待评论页面的HTML响应,利用parsel库解析HTML响应,接着提取评论内容、时间等信息。Python爬虫在数据获取方面具有灵活性和高效性,可以应用于各种场景,如数据分析、舆情监测、搜索引擎优化等

summernote-img

(2)TF-IDF分词与统计。TF-IDF是用于信息检索与文本挖掘的常用加权技术,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF基本包含以下流程:①分词;②统计词频;③去除停用词;④词频可视化;⑤关键词提取。

(3)词云图。词云图是由词汇、颜色、字体大小和图形四个要素构成的,它浓缩了文本数据的内容,通过文字、色彩、图形的搭配,直观地表示了每个词汇在相应文本数据中的词频分布,通过使用不同的颜色和大小来表示不同级别的相对重要性,字体越大越显眼,对应的词汇被提及频率越高。词云图过滤掉了大量的文本信息,能够快速提取出文本所表达的主旨。

(4)支持向量机。支持向量机是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面。SVM使用铰链损失函数计算经验风险,并在求解系统中加入了正则化项以优化结果风险,是一个具有稀疏性和稳健性的分类器。

(5)LDA主题模型。LDA模型的基本原理是先假设一个文本集合的生成过程:首先,从主题分布中随机选择一个主题;然后,从该主题的单词分布中随机选择一个单词;重复上述过程,直到生成整个文本。

(6)LDA模型的生成过程包括以下三个步骤。①从狄利克雷分布中随机选择一个主题分布。②对于文档中的每个位置,从主题分布中随机选择一个主题。③对于文档中的每个位置,从所选主题的单词分布中随机选择一个单词。

(7)知识图谱构建。知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性键值对,实体间通过关系相互联结,构成网状的知识结构。summernote-img

(8)知识图谱迭代过程。构建知识图谱是一个迭代更新的过程,根据知识获取的逻辑,每一轮迭代包含三个阶段:①信息抽取:从各种类型的数据源中提取出实体、属性以及实体间的相互关系,在此基础上形成本体化的知识表达。②知识融合:获得新知识后,需要对其进行整合,以消除矛盾和歧义。③知识加工:对于经过融合的新知识,需要经过质量评估之后,才能将合格的部分加入到知识库中,以确保知识库的质量。

3. 预期成果:完善概念以及计划书,完成信息化平台的搭建

1)首先对于电影营销商来说,基于影评情感分析结果,制定针对性的营销策略。对于积极评论较多的方面,可以通过社交媒体广告和宣传活动来强化其相关的正面形象;对于负面评价加多的方面,则可采取改进宣传方案或者针对特定观众群体的定向营销策略。

2)对于影视平台来说,利用情感分析和主题模型分析的结果,结合知识图谱来优化在线影视平台的用户推荐系统。不仅可以根据用户的情感倾向进行推荐,还可以根据用户对不同主题的兴趣进行精准匹配,提高用户体验和平台粘性。

3)对于电影导演和制片人来说,根据影评的综合分析结果,制定影片改进计划或者后续制作决策,通过分析影评中提到的主题和情感反馈,可以提供宝贵的改进意见和创作灵感,从而提升影片质量和市场竞争力。

4)对于市场调研的专业人士来说,基于综合分析的知识图谱构建,开展深度市场调研和观众行为分析,通过对影评数据的结构化整理和关联分析,可以发现潜在的市场机会和观众喜好,为影视行业的战略决策提供科学依据。

5)对于企业、政府机构来说,可以利用这种综合分析方法进行舆情监测与管理,通过分析影评中的情感倾向和主题内容,可以及时了解公众对特定影视作品或相关事件的态度和看法,为决策和公共关系管理提供数据支持。

6)对于学术研究者来说,该影评分析结果可以应用于学术研究和教育领域。研究人员可以利用这种综合分析方法进行影评内容的深入研究和探讨,拓展影评分析领域的知识边界。

       1.2024年5月。确定研究课题方向,广纳成员建议。填写大学生创新创业计划项目申报书,并在20号前向复杂此比赛的负责人提交电子档材料,完成网上管理系统的报名。

       2.2024年5月-2024年7月。收集并整理与影评情感分析,主题模型和知识图谱构建相关的资料文献,强化对其概念的理解。之后,制定更详细的项目实现计划,包括:技术路线,所需的技术支持,需要达到的目标;给组员分配工作,正式启动项目研究。

       3.2024年8月-2024年10月。项目开发基础期,收集不同影视平台一系列电影的影评数据,并对数据进行初步的清洗、分词和统计。

       4.2024年11月-2025年1月。项目开发中期,对影评数据进行情感分析、LDA主题模型构建、知识图谱构建及可视化。

       5.2025年2月-2025年4月。项目开发最后时期,搭建网站系统对影评数据分析结果进行可视化展示,同时对该系统进行测试预测电影票房的趋势,完成整个作品。

       6.2025年5月。提交最终成品,附上情感分析和LDA主题构建的影评知识图谱分析报告、使用说明书、商业计划书、测试报告等有关文件。

(1)已做好前期部分工作,利用Python网络爬虫技术收集了影视关键信息及其影评信息,浏览了许多关于影评情感分析、LDA主题构建、知识图谱的相关例子。例如已用Neo4j构建简单的知识图谱,已用主题数寻优图确定LDA主题最优数,构建初步LDA模型。

(2)浏览中国知网,收集了有关影视推荐系统和影评分析技术发展现状的有关资料。

(3)通过了解国内电影票房市场的信息,确定影评分析在影视平台中应用的可能性。

(4)已经尝试过搭建网站页面,使数据能够以图形的形式呈现在使用者的眼前,达到面向对象的设计理念。

(1)已具备的条件:影评分析流程的构建,基于github page网站搭建的技术。

(2)尚缺少的条件:在含有复杂情感时,如含有讽刺、隐喻等评论,难以确保情感分析的准确性,从而无法构建出正确的影评知识图谱。

(3)解决方法:探索更深层次的情感理解技术比如深度学习等,确保对各种情感表达的准确把握。

经费预算

开支科目 预算经费(元) 主要用途 阶段下达经费计划(元)
前半阶段 后半阶段
预算经费总额 6000.00 项目实现 2750.00 3250.00
1. 业务费 3000.00 实验业务 1250.00 1750.00
(1)计算、分析、测试费 900.00 分析数据和撰写分析结果 300.00 600.00
(2)能源动力费 100.00 能源消耗 50.00 50.00
(3)会议、差旅费 500.00 市场勘察 200.00 300.00
(4)文献检索费 500.00 知网查询 200.00 300.00
(5)论文出版费 1000.00 出版论文 500.00 500.00
2. 仪器设备购置费 1000.00 租用域名和服务器 500.00 500.00
3. 实验装置试制费 1000.00 购买装置 500.00 500.00
4. 材料费 1000.00 购买素材 500.00 500.00
结束