详情

面部微表情识别器设计

申报人:岑承瑞 申报日期:2024-05-28

基本情况

2024年批次
面部微表情识别器设计 学生申报
创新训练项目
工学
自动化类
学生自主选题
一年期
随着现代通讯技术的发展和普及,数字化的信息传播渠道变得越来越丰富多样。同时,人们在日常生活和工作中也越来越依赖信息技术来实现多方面的交流和协作。在这种情况下,如何更有效地识别和理解人类的情感变得越来越关键。因此,面部微表情识别技术的应用范围被拓宽。目前,面部微表情表情识别技术被广泛应用于计算机游戏、辅助医疗、智能家居、教育培训等领域。然而,在实际应用中,该技术还存在一些问题和挑战,例如,在人脸光照、姿态变化等情况下,识别面部微表情的准确度会大大降低;此外,还面临着标注大规模人脸数据集、不稳定人脸检测和复杂建模等问题。
负责人虽然没有参加过科研项目,但是具备丰富的实践经验和专业技能。负责人曾参与过互联网+实践项目,这些经历让负责人具备了创新思维和商业策略的能力,以及与团队成员紧密协作的经验。此外,负责人在学业方面也表现突出,拥有丰富的学习成果和相关技能,例如数据分析方面。这些经验和技能为团队的创新创业提供了重要的支持和背景。

1)广西科技计划,2018GXNSFAA138154,表面粗糙度机器视觉测量的理论与关键技术研究,2018/06-2021/07,12万,在研,参与

(2)广西中青年教师基础能力提升项目,2017KY0271,基于改进滑模观测器PMSM无位置传感器控制研究,2017/05-2019/12,2万,结题,主持

(3)国家自然科学基金委员会,61650106,多因素耦合作用下经络的宏微观信息模型及同步分析,2016/12-2017/12,13万,结项,参与

(4)广西科技计划项目,2015GXNSFAA139272,主动电磁轴承-转子系统中转子裂纹故障的动力特性研究,2015/09-2018/08,5万,结项,参与

(5)国家自然科学基金委员会,51565009,主动电磁轴承-柔性裂纹转子系统动力学建模及裂纹转子系统的动力学特性研究,2015/09-2019/12,40万,结项,参与

指导教师已经对学生进行过前期指导,有一定基础,后续会对现有内容进行完善,指导学生完成全部设计内容,并按照要求完成考核任务和结题工作。
校级

项目成员

序号 学生 所属学院 专业 年级 项目中的分工 成员类型
岑承瑞 机械与控制工程学院 自动化 2022 面部微表情识别器的结构设计
景琪轩 机械与控制工程学院 机械设计制造及其自动化(中外合作办学) 2022 面部微表情识别器的平台搭建
周智恒 机械与控制工程学院 机器人工程 2021 面部微表情识别器的数据分析
杨一帆 机械与控制工程学院 机械设计制造及其自动化(中外合作办学) 2022 面部微表情识别器的软件编程设计

指导教师

序号 教师姓名 所属学院 是否企业导师 教师类型
李海侠 机械与控制工程学院

立项依据

本项目旨在设计一种基于MobileNet架构,以C语言作为编程语言,并借助MATLAB平台实现,能够识别多种人脸微表情(包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性等表情),同时提供多种表情识别方式(例如图片识别、视频识别和摄像头识别),以及设计一个简洁的GUI界面,方便用户随时进行实时表情识别。该人脸微表情识别系统功能如图2-1所示。summernote-img

设计的人脸微表情识别系统具体功能说明如下:

1) (批量)图片识别模式:

用户可以选择一张包含人脸表情的图片(或者图片文件夹),系统将识别并显示图片中的表情识别结果。在GUI图形操作界面上,用户可以点击“选择图片”按钮,选择本地的一张图片(或图片文件夹),然后系统将自动识别图片中的表情,并在图片旁边显示识别结果(包括表情类别、置信度、用时等)。使用(批量)图片识别模式的前提是,该图片中存在人脸且该人脸表情类型已经经过图像数据集采集以及机器学习训练得到模型。

2) 视频识别模式:

用户可以选择一个包含人脸表情的视频文件,系统将实时识别并显示视频中的表情识别结果。在GUI图形操作界面上,用户可以点击“选择视频”按钮,选择本地的一个视频文件,然后系统将自动播放视频并实时识别视频中的表情,同时在视频画面上显示识别结果(包括表情类别、置信度、用时等)。使用视频识别模式的前提是,该视频中存在人脸且该人脸表情类型已经经过图像数据集采集以及机器学习训练得到模型。

3) 摄像头识别模式:

用户可以通过电脑摄像头进行实时表情识别。在GUI图形操作界面上,用户可以点击“摄像头识别”按钮,系统将打开摄像头并实时识别用户的表情,同时在摄像头画面上显示识别结果(包括表情类别、置信度、用时等)。使用摄像头识别模式的前提是,摄像头所捕捉到的画面中存在人脸且该人脸表情类型已经经过图像数据集采集以及机器学习训练得到模型。

4) 可更换识别模型:196

GUI图形操作界面上,用户可以点击旁边的模型选择图标选择要使用的表情识别模型(例如MobileNetEfficientNet等不同的识别模型)。本设计的识别系统默认模型为MobileNet

5) GUI图形界面操作:

为了提高人机交互过程中的人性化设计,用户既可以在图形界面上直观地看到实时识别画面、表情类别、置信度、用时等数据,又可以方便地通过点击界面旁边相应的图标按钮选择相应的功能(例如选择图片、播放视频、开启摄像头、更换识别模型、强制终止识别进程等)。

针对面部微表情识别技术面临的问题和挑战,国内外的一些研究团队进行了积极的探索和尝试。其中,如何提高面部微表情识别的准确度成为了一个重点研究方向。

2015年,Goodfellow, et al.[5]首次提出了一种名为深度信念网络(DBN)的表情识别方法,并在Fer2013数据集上进行了测试;2017年,Lopes,et al.[6]利用卷积神经网络(CNN)进行表情识别,实现了较高的识别准确率。这些工作为后续基于深度学习的表情识别研究奠定了基础。

随后,研究者们开始尝试使用不同的网络结构和优化方法来提高表情识别的性能,例如Kahou,et al.[7]RNN多模态表情识别方法、Mollahosseini,et al.[8]使用Inception模块构建的FECNet深度表情识别网络。此外,还有研究者尝试利用迁移学习技术,如Zhang,et al.[9]利用VGG-Face预训练模型进行表情识别任务,有效地提高了识别性能。

数据增强方法在深度学习中具有重要的作用,尤其是对于数据不足的情况更加凸显其重要性。2015年,Khorrami,et al.[10]提出了一种基于生成对抗网络(GAN)的数据增强方法,以提高表情识别性能。2017年,Kaya,et al.[11]将分数融合和数据增强方法应用于表情识别任务,实现了较大的性能提升。也有研究者通过多任务学习来进行表情识别,例如2016Liu,et al.[12]提出的一种能够同时学习面部属性和表情识别任务的表情识别方法。

近年来,轻量级神经网络在表情识别任务中也得到了广泛关注。这些轻量级网络具有较低的计算复杂性和内存需求,使得它们更适用于移动设备和实时应用。2017年,Howard,et al.[13]提出了MobileNet网络,其能够通过引入深度可分离卷积(depthwise separable convolution)减少参数数量和计算量。2018年,Sandler,et al.[14]提出了MobileNetV2,引入了线性瓶颈和逆残差结构,进一步提高了计算效率。

基于MobileNet的表情识别方法也取得了显著的成果。例如2020Hu,et al.[15]提出了一种基于MobileNetV2的轻量级表情识别网络,实现了较高的识别准确率和实时性能。

虽然,国内外研究者在人脸微表情识别方向做了大量探索性工作且已经取得了一定的成果,但仍然面临诸多挑战,例如,表情特征的提取和分类仍然是研究的难点之一;建立大规模的微表情数据库也较为困难;跨文化和跨场景的应用也需要进一步探索。近年来,深度学习在计算机视觉任务中取得了巨大成功,尤其是卷积神经网络(CNN)在图像识别领域的表现尤为突出[16],但相关算法仍在不断改进、优化中,以求识别更快速、更高效

创新点

本设计的人脸微表情识别系统基于MobileNet架构,以C语言作为编程语言,并借助MATLAB平台实现,能够识别多种人脸微表情(包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性等表情),同时提供多种表情识别方式(例如图片识别、视频识别和摄像头识别),以及设计一个简洁的GUI界面,方便用户随时进行实时表情识别。

项目特色

1.(批量)图片识别模式:

用户可以选择一张包含人脸表情的图片(或者图片文件夹),系统将识别并显示图片中的表情识别结果。在GUI图形操作界面上,用户可以点击“选择图片”按钮,选择本地的一张图片(或图片文件夹),然后系统将自动识别图片中的表情,并在图片旁边显示识别结果(包括表情类别、置信度、用时等)。使用(批量)图片识别模式的前提是,该图片中存在人脸且该人脸表情类型已经经过图像数据集采集以及机器学习训练得到模型。

视频识别模式:

用户可以选择一个包含人脸表情的视频文件,系统将实时识别并显示视频中的表情识别结果。在GUI图形操作界面上,用户可以点击“选择视频”按钮,选择本地的一个视频文件,然后系统将自动播放视频并实时识别视频中的表情,同时在视频画面上显示识别结果(包括表情类别、置信度、用时等)。使用视频识别模式的前提是,该视频中存在人脸且该人脸表情类型已经经过图像数据集采集以及机器学习训练得到模型。

2.摄像头识别模式:

用户可以通过电脑摄像头进行实时表情识别。在GUI图形操作界面上,用户可以点击“摄像头识别”按钮,系统将打开摄像头并实时识别用户的表情,同时在摄像头画面上显示识别结果(包括表情类别、置信度、用时等)。使用摄像头识别模式的前提是,摄像头所捕捉到的画面中存在人脸且该人脸表情类型已经经过图像数据集采集以及机器学习训练得到模型。

3.可更换识别模型:

GUI图形操作界面上,用户可以点击旁边的模型选择图标选择要使用的表情识别模型(例如MobileNetEfficientNet等不同的识别模型)。本设计的识别系统默认模型为MobileNet

GUI图形界面操作:

为了提高人机交互过程中的人性化设计,用户既可以在图形界面上直观地看到实时识别画面、表情类别、置信度、用时等数据,又可以方便地通过点击界面旁边相应的图标按钮选择相应的功能(例如选择图片、播放视频、开启摄像头、更换识别模型、强制终止识别进程等)。

技术路线

1) 通过网络访问官方网站下载Fer2013CK+图像库:

选择Fer2013CK+作为数据集的原因如下:首先,Fer2013具有较大规模和多样性,有利于训练出泛化能力较强的模型;其次,CK+数据集虽然样本量相对较小,但提供了动态表情信息和较高的标注准确率,可以作为补充数据集,提高模型的表现。

2) 预处理数据:

检测人脸、数据扩充、人脸对齐,在把图片载入内存的过程中,通过构建一个队列,每次从外部磁盘读取部分数据打乱后放到内存中,内存只需维护队列大小的空间,这样避免直接全部载入内存导致内存不够用,耗时长。

3) 搭建神经网络:

选择MobileNetV2作为基本神经网络模型,并对网络进行微调,以便将其应用于表情识别任务。同时使用随机梯度下降优化器(SGDM)作为训练优化器,并设置训练选项,包括MiniBatchSizeMaxEpochsInitialLearnRate等;还设置验证数据和验证频率,以便在训练过程中评估网络性能。

4) 训练模型,并将训练好的模型保存到一个单独的文件中。

5) 测试模型:

1、随机选择4个测试图像并显示它们的预测结果;

2、计算模型在测试集上的准确率;

3、绘制混淆矩阵以直观地展示模型的分类性能。

    6) 编写功能代码。

7) 系统整合:

    1、设计一个基于MATLAB App DesignerGUI界面,至少包括图片识别、视频识别、摄像头识别、模型选择、结果显示五个板块;

    2、分别为打开图片、视频、摄像头、模型的按钮添加一个回调函数,以便在用户单击该按钮时执行相应的操作;在此回调函数中,可以使用相应功能的代码片段进行图片读取、预处理、表情识别和结果显示。

拟解决的主要问题

人脸微表情识别系统要实现上述预期功能,拟解决的主要问题有:

1)      准备合适的表情识别数据集,规模较大、表情类型多样、具有较高标注准确率的优先;

2)      人脸的检测、定位与跟踪;

3)      由于数据集较大且模型训练过程中需要不断的调试参数(例如特征图数量、卷积核大小等),模型训练耗时可能较长;

4)      优化神经网络模型的性能,提高表情识别的准确度;

5)      将训练好的表情识别模型与GUI图形操作界面整合到一个实时的人脸表情识别系统中;

6)      各个模式的程序算法设计实现、优化,以及保证各个模式之间能够流畅地来回切换且随时能够强制终止识别进程;提高系统运行时的稳定性、可靠性。

第一阶段:20244月至20235月中。

组内初步讨论面部微表情识别器项目的设计思路,并积极参考网上查阅的相关资料及同类产品。

第二阶段:20245月中至20248月。

团队将通过讨论及仿真尽快完成对机构的逻辑设定,并做出较为完整的产品功能系统。在此基础上做出初代产品,并经过后期实验测试对初代产品进行改造升级优化。

第三阶段:20249月至202410月。

撰写项目的研究报告与相关论文。

第四阶段:202411月至202412月。

对项目作品与研究报告进行修改与完善。

第五阶段:20251月。

撰写接替申报书、完善有关书面材料、筹备项目成果交流。

1.  与本项目有关的研究积累和已取得的成绩

1. 已选择MobileNetV2作为基本神经网络模型并搭建了平台,并对网络进行微调,以便将其应用于表情识别任务。同时使用随机梯度下降优化器(SGDM)作为训练优化器,并设置训练选项,包括MiniBatchSizeMaxEpochsInitialLearnRate等;还设置验证数据和验证频率,以便在训练过程中评估网络性能。

2. 已通过构建一个队列,检测人脸、数据扩充、人脸对齐,在把图片载入内存的过程中, ,每次从外部磁盘读取部分数据打乱后放到内存中,内存只需维护队列大小的空间,这样避免直接全部载入内存导致内存不够用,耗时长的问题。


2.  已具备的条件,尚缺少的条件及解决方法

所需条件:计算机、MATLAB R2022aVisual Studio Code开发环境、程序编写、模型测试、GUI界面绘制、系统调试等。

尚缺少的条件:缺少表情识别数据集,规模较大、表情类型多样、具有较高标注准确率的优先;

解决方法:团队将于近期开展讨论,阅读相关文献,参考同类产品优势,并通过教师实践经历对外形及辅助产品进行初步的设计加工。后续进行实验测定,以便进一步优化产品。

经费预算

开支科目 预算经费(元) 主要用途 阶段下达经费计划(元)
前半阶段 后半阶段
预算经费总额 5950.00 团队研究的开销 2950.00 3000.00
1. 业务费 5000.00 团队研究的开销 2450.00 2550.00
(1)计算、分析、测试费 300.00 实验测定 150.00 150.00
(2)能源动力费 300.00 电费 150.00 150.00
(3)会议、差旅费 600.00 实验测定 300.00 300.00
(4)文献检索费 300.00 文献参考 150.00 150.00
(5)论文出版费 3500.00 查重修改 1700.00 1800.00
2. 仪器设备购置费 550.00 实验仪器 300.00 250.00
3. 实验装置试制费 200.00 实验工具 100.00 100.00
4. 材料费 200.00 打印材料 100.00 100.00
结束