详情

基于Hrank的无人机实时目标跟踪

申报人:刘习琪 申报日期:2024-05-31

基本情况

2024年批次
基于Hrank的无人机实时目标跟踪 学生申报
创新训练项目
工学
计算机类
学生来源于教师科研项目选题
一年期
在当今时代,随着无人机技术的快速发展,无人机已经开始涉足更多领域。其中,无人机跟踪已经成为备受瞩目的新兴任务之一,其跟踪算法也逐渐成为计算机视觉领域的研究重点。与深度学习跟踪器相比,基于判别性相关滤波器(DCF)的跟踪器在无人机跟踪社区中备受瞩目,因为它们具有很高的速度。然而,这些跟踪器的精度通常远低于基于深度学习(DL)的跟踪器。为了解决这一问题,模型压缩成为了一种备受期待的方法,可以减少基于判别性相关滤波器和深度学习跟踪器之间的差异,即速度和精度之间的差异。然而遗憾的是,目前在无人机跟踪社区中,对模型压缩的研究还未引起太多关注。因此,在项目中,我们提出了P-SiamFC++跟踪器,这是第一个利用基于排名的滤波器剪枝(Hrank)来压缩SiamFC++模型的方法。我们的研究取得了显著的进展,实现了在效率和精度之间的平衡。我们的方法具有通用性,可以为未来更多关于无人机跟踪中模型压缩的研究提供启示。经过对包括UAV123@10fps、DTB70、UAVDTVistrone2018在内的四个无人机基准的大量实验验证,结果显示,P-SiamFC++跟踪器明显优于目前最先进的无人机跟踪方法。
主持广西科技基地和人才专项计划下的“基于深度图的人体检测算法研究”项目(2022-2025年)
参与了国家自然科学基金青年基金支持下的“指纹特征的统计模型及其在潜指纹和重叠指纹处理中的应用研究”(2013-2015年)
参与了美国国家标准与技术研究院(NIST)的“Measurement Science of Biometrics”项目(2012-2014年)
参与了国家“十三五”重点研发计划“网络空间安全”专项子课题项目,专注于“异构身份联盟与监管基础科学问题研究——异构身份联盟集成认证与防伪防盗技术研究”(2017-2020年)
参与了“成都大熊猫繁育研究基地项目——野生动物红外照相物种识别与传输关键技术研究”(2018-2021年)
参与国家自然科学基金项目“协同图像分解与分割的并发多任务图像处理变分方法”(2020-2023年) 
老师曾担任过多个大创项目的指导老师,对项目的申请和完成有着丰富的经验,并且能够给予理论及技术指导。李老师的研究方向为模式识别、计算机视觉、人工智能,目前主要从事目标检测和目标跟踪的研究。
区级

项目成员

序号 学生 所属学院 专业 年级 项目中的分工 成员类型
刘习琪 计算机科学与工程学院 物联网工程 2022 统筹管理项目
祝海超 计算机科学与工程学院 网络工程 2023 需求分析
龙思琴 计算机科学与工程学院 计算机科学与技术(应用) 2023 代码开发
梁天军 计算机科学与工程学院 计算机科学与技术(应用) 2023 代码调试
邹凤坤 计算机科学与工程学院 物联网工程 2023 代码开发

指导教师

序号 教师姓名 所属学院 是否企业导师 教师类型
李水旺 计算机科学与工程学院
张威 校团委、创新创业学院

立项依据

无人机(UAV),是受到世界上首台自动驾驶仪的启发,并受到越来越多国家重视的航空器。随着科技的迅速发展,人们对无人机的探索与实践取得了实质性进展,它也成为衡量国家高端制造产业水平的重要标志。与我们乘坐的传统飞机不同,无人驾驶航空器具有更小的体积、更少的起飞限制、更低廉的价格以及更低的飞行成本。由于其易于操作的特性,无人机也具有非常光明和长远的前景。如今,它不仅在军事领域有着广泛应用,在民用领域中也有许多身影。在军队中,无人驾驶航空器常被用于情报侦察、军事打击和信息对抗等领域;而在民用领域中,它更贴近人们的生活,涉及测绘、气象探测、资源调查以及防御自然灾害等方面。当然,国内外一些民用工作,如为农作物进行喷灌、火灾救援、勘测地质、以及对风景进行俯瞰拍摄等,也少不了无人机的身影。
在许多无人机应用场景中,相机传感器都是必不可少的。相较于其他传感器,相机传感器以计算机视觉为核心,能够获取更多信息,并利用这些信息实现无人机的功能。相机传感器对目标的捕捉、跟踪和检测具有重要的科研价值,这使得目标追踪成为一个充满挑战的问题。在实验中,研究变量通常设定为环境因素和背景条件等理想情况,但当相机暴露于真实场景时,复杂的情况会导致难以预测的结果,从而增加了研究的难度。例如,当目标追踪距离超过相机传感器最佳对焦距离时,导致无人机拍摄的图片分辨率降低,清晰度不足;光照条件不足会降低目标特征的识别度,容易导致相机传感器捕捉目标失败;外界风力过大会导致无人机抖动,进而影响拍摄图片的视觉效果等。无论是哪种复杂条件,都可能影响目标测量的准确性和速度变化,因此许多科研人员正在努力改善这些条件。
计算机视觉是一门综合性的学科,涉及多个领域的知识相互融合,包括数字图像处理、传感器技术、数字信号处理等。类似于仿生人类的眼睛,计算机视觉系统能够收集无人机周围环境的信息,并将这些信息传输至“大脑”——即处理器中,由处理器负责处理和做出决策。在这个过程中,目标的测量、定位、识别和跟踪是图像处理技术的基础。其中,目标跟踪技术是计算机视觉领域的重点研究方向之一,尤其在车载无人驾驶等智能系统中具有重要作用。传统的目标检测算法存在着鲁棒性较差和时间复杂度较高的问题,逐渐被深度学习所取代。深度学习技术通过构建深度神经网络,能够更准确地识别和跟踪目标,大大提高了目标检测的精度和效率。这种新型算法的引入为无人机的目标跟踪任务提供了更加可靠和高效的解决方案,推动了无人机技术的不断发展和进步。将机器视觉与人工智能技术相结合,无人机可以通过拍摄目标的照片来准确识别和跟踪目标。这不仅提高了无人机的自动化程度,还扩大了其应用市场。此外,无人机还能够自动获取大量的影像数据,并将其处理成相关的数字信息,然后传送给地面的监控人员或用户。无人机是否能够实现自主目标识别,直接影响着各行业领域的专业能力是否能够进一步提高,并为无人机视觉系统的发展提供有益方向。目前,一些国内外学者已经开发出了一些具有较高准确率的目标识别方法,并将其集成到无人机系统中。与人类视角不同,在无人机视觉下,环境变得更为复杂,目标特征信息较少,这使得提高目标识别精度成为一个巨大挑战。
近年来,随着无人机在各行各业的广泛应用,基于无人机的跟踪成为了一个全新的挑战,并且在视觉跟踪领域引起了越来越多的关注。它有着广泛的潜在应用,涵盖了农业、导航、交通、飞行器跟踪、公共安全、自主着陆、空中加油、灾难响应等领域。然而,无人机跟踪并不容易,甚至比一般的视觉跟踪更加艰难,因为它面临着比一般场景更为复杂的挑战。一方面,运动模糊、严重遮挡、极端视角和尺度变化对无人机跟踪算法的精度提出了巨大的挑战。在无人机飞行速度极快时,很可能出现运动模糊和尺度变化,导致单个摄像机曝光期间场景、目标外观和目标尺度显著变化;而严重遮挡和极端视角则更多地出现在无人机高空飞行时,从摄像机上拍摄目标时出现的现象。另一方面,有限的计算资源、低功耗要求、电池容量限制和无人机的最大载荷也对其效率提出了巨大挑战。
目前,随着技术的发展,无人机跟踪的效率成为一个至关重要的问题。由于无人机受限的资源,要克服这一限制变得异常困难,除非在其他领域取得了重大突破。因此,基于判别性相关滤波器(DCF)的跟踪器,因为快速傅里叶变换(FFT)的应用,通常被优先选择,而不是基于深度学习(DL)的跟踪器。尽管DCF-based跟踪器的跟踪精度有了很大的提高,但仍然无法与大多数最先进的DL-based跟踪器相比。最近,Cao等人提出了一种高效且有效的深度跟踪器,用于无人机跟踪。该跟踪器采用了轻量级的骨干网络,注重效率,并利用分层特征变换器实现了浅层和深层特征的交互式融合,从而实现强大的表示学习。尽管该跟踪器尚未在单个CPU上实现实时跟踪,但在效率和精度之间取得了良好的平衡,并在无人机跟踪中展现了最先进的性能。这表明,一个高效的轻量级DL-based跟踪器可能成为DCF-based跟踪器的良好替代品。因此,我们受到启发,利用模型压缩来缩小基于DCF和深度学习的无人机跟踪器之间的差距。
图一summernote-img
图一:在精度方面,将提出的方法与基于CPU的跟踪器和深度跟踪器进行比较以及CPU和GPU上的跟踪速度(FPS)。注意,P-SiamFC++(v1)是直接用在SiamFC++上的结果,P-SiamFC++(v2)是通过优化后的结果。
模型压缩是一项关键技术,常用于在低功耗和资源受限的边缘设备上部署最先进的深度神经网络,而不会太大程度地影响模型的准确性。广泛研究的模型压缩方法包括剪枝、量化、低秩逼近、知识蒸馏等。在本文中,采用了M. Lin, R. Ji,等人提出的基于排名的滤波器剪枝方法(Hrank),这种方法高效且直观,用于压缩SiamFC++模型。因此,将这种方法命名为P-SiamFC++。在本文中,提出了P-SiamFC++具有两个版本。P-SiamFC++(v1)是直接在SiamFC++上使用的结果,P-SiamFC++(v2)是通过剪枝策略的改变,优化后的结果。采用的剪枝方法非常直观且训练效率高,因为它消除了引入额外约束和重新训练模型的需要。SiamFC++基于高效的跟踪器SiamFC,并通过引入回归分支和中心性分支,在精度和速度上展现了最先进的性能。图一展示了P-SiamFC++的出色性能。据我们所知,我们是首次有效地利用模型压缩来缩小基于DCF和深度学习的无人机跟踪器之间的差距。与现有的基于CPU和基于深度学习的跟踪器相比,在效率和精度之间取得了显著的平衡。项目的贡献可总结如下:
· 据我们所知,我们是首次将模型压缩技术引入到无人机跟踪领域,从而缩小了基于判别性相关滤波器(DCF)和基于深度学习(DL)的跟踪器之间的差距。令人惊讶的是,我们提出的方法不仅提高了跟踪效率,还提高了跟踪精度。压缩模型相比原始模型的显著和惊人的增长可能会激发进一步探索这种方法的兴趣。
· 我们提出了P-SiamFC++跟踪器,利用基于排名的滤波器剪枝技术对SiamFC++模型进行压缩,实现了跟踪效率和精度之间的显著平衡。我们的方法通用、实时,并为解决UAV跟踪问题提供了新的视角。
· 我们在四个UAV基准数据集上展示了我们提出的方法。实验结果表明,我们提出的P-SiamFC++跟踪器实现了最先进的性能。 
我们的P—SiamFC ++是建立在HRank 提出的基于秩的过滤器修剪方法对SiamFC ++进行修剪的基础上的。与之前的方法不同之处在于,我们采用了块修剪比率来搜索P—SiamFC ++(v2)中的最佳比率。下面是具体情况。
summernote-img
图2:P-SiamFC++结构图。结构与SiamFC++的结构基本相同。区别在于修剪后的过滤器和特征图。请注意,后续架构由于不涉及修剪,因此这里忽略了与头部相连的部分。
如图2所示,我们的P-SiamFC++包括一个模板分支、一个搜索分支和三个部分:主干、颈部和头部。这两个分支共享相同的主干网络(即,Alexnet),并进行特征提取,其中特征提取过程用映射(·)表示。模板分支使用跟踪目标片Z(作为输入)来生成特征,而搜索分支则使用搜索区域X生成特征。这两个分支提取的特征在用于后续的分类和回归任务之前进行互相关操作。耦合特征的定义如下:
summernote-img
其中, 表示互相关运算, 表示任务特定层(“cls”和“reg”分别代表分类和回归)。需要注意的是,“cls”和“reg”的输出大小相同。分类分支的输出是 ,大小为 ,用于预测每个位置的类别;而回归分支的输出是 ,大小为 ,用于计算该位置的目标边界框。这里, 和 分别代表输出的宽度和高度。 的大小为 是指位置 的前景和背景分数的2D向量,而 的大小为 是指从相应位置到边界框的四个边的距离的4D向量。另外,我们的P-SiamFC++还包括一个中心性分支 ,大小为 ,与分类分支并行。中心性分支用于评估分类的质量,并最终用于重新加权分类得分。我们的P-SiamFC++的管道与SiamFC++的管道相同,唯一的区别在于通过过滤器修剪确定的修剪特征图。
简单来说,我们的方法利用特征图的秩作为SiamFC++架构中修剪过滤器的标准,这一方法受到了HRank技术的启发,但专门适用于无人机跟踪应用。使用秩作为修剪标准的核心思想在于它能够量化过滤器所携带的信息内容。特征图的秩越低,意味着其携带的信息越少,因此被认为是冗余的或对当前任务不太重要。在SiamFC++的背景下,每个卷积层由多个过滤器组成,这些过滤器负责从输入图像中捕获各种特征。通过计算这些过滤器生成的输出特征图的排名,我们可以评估它们的重要性。秩的计算是通过将特征图重新整形为矩阵,然后利用奇异值分解(SVD)计算其秩来执行的。这个过程既高效又提供了一种强大的测量方式,能够反映特征图内在维度与过滤器重要性之间的关系。具有最低秩的过滤器(即,对模型信息容量贡献最小的那些)将被修剪。修剪的选择过程由预先定义的修剪比率引导,该比率确定了要移除的过滤器的比例。我们的方法需要仔细平衡,以确保修剪优化模型的大小和计算需求,同时不会明显损害跟踪性能。
通过一组3-D滤波器 summernote-img,其中 表示 中的滤波器数量,summernote-img是核大小,第 summernote-img个滤波器为summernote-img 。滤波器的输出特征图由 summernote-img组成,其中summernote-img是由 summernote-img生成的, 是输入图像的数量, 和 分别表示特征图的高度和宽度。基于秩的滤波器修剪在[18]中被公式化为以下优化问题:
summernote-img
在这里,summernote-img表示遵循概率分布summernote-img 的输入图像, summernote-img表示在 summernote-img中要修剪的滤波器的数量。 summernote-img
表示滤波器 summernote-img 是否被修剪,如果是,则summernote-img,否则summernote-img 。 计算特征图的秩,这是信息丰富度的度量。已经验证,由单个滤波器生成的秩的期望对输入图像是鲁棒的,基于此,式(2)可以近似为:
summernote-img
其中t索引输入图像。当量(3)通过用特征图的最小平均秩修剪NIP滤波器来最小化。
我们现在用公式表示修剪后微调 P-SiamFC++ 的损失。令summernote-imgsummernote-img表示地面实况边界框的左上和右下坐标, summernote-img表示点 summernote-img的对应位置,则回归目标在 处的summernote-img
 由下式定义:
summernote-img
回归的IOU损失定义如下:
summernote-img
其中,LIU表示IOU损失,I(·)是由下式定义的指示函数:
summernote-img
表示在 summernote-img处的中心性得分,即summernote-img ,由summernote-img如下,
summernote-img
则中心度损失定义为
summernote-img
微调P-SiamFC++的总损失为:
其中,summernote-img是分类的交叉熵损失, summernote-img是预定义的常数来平衡损失。
修剪时间表描述了在网络层上修剪过滤器的顺序和方法。我们的修剪过程是迭代的,包括三个主要步骤:预训练,修剪和微调。
预训练:预训练是指在进行修剪或微调等进一步操作之前,首先对模型进行训练以获取初始的参数设置。对于无人机跟踪任务,我们首先对 SiamFC++ 模型进行预训练,这一步骤非常关键,因为它为模型提供了学习准确跟踪所需的鲁棒特征表示的机会。在预训练阶段,我们使用无人机跟踪数据集来训练 SiamFC++ 模型。这个数据集通常包含大量的无人机跟踪视频序列,其中每个序列都包括无人机的图像帧以及相应的目标边界框标注。通过将这些图像帧输入到 SiamFC++ 模型中,并根据目标边界框标注来计算损失函数,我们可以利用反向传播算法来更新模型的参数,使其逐渐收敛到最优状态。在预训练过程中,模型通过学习图像中的特征来理解目标的外观和运动规律,从而使其能够准确地进行跟踪。通过在大量数据上进行训练,模型可以逐渐提高其性能,并学习到对不同场景和条件下的无人机跟踪任务具有鲁棒性的特征表示。预训练阶段的目标是使模型在无人机跟踪数据集上收敛,并且学习到具有良好泛化能力的特征表示。这为后续的修剪和微调操作奠定了基础,因为一个在预训练阶段表现良好的模型,通常在之后的进一步操作中能够更好地保持其性能和稳定性。
修剪:修剪是指根据基于排名的标准,有选择地剔除整个神经网络中的部分过滤器。这个过程并不是简单地在所有层上一概而论地执行,而是经过仔细安排的。其目的是考虑到网络中各个层次的不同角色和敏感性,以确保修剪操作的有效性和可行性。在神经网络中,不同的层次承担着不同的功能和任务。例如,较浅的层次通常负责捕获图像的基本特征,比如边缘和纹理,而较深的层次则负责提取更加抽象和复杂的特征,可能会包含一些冗余信息。因此,在进行修剪时,需要根据这些层次的特性进行不同的处理,对于那些捕获基本特征的初始层,我们可能会更加谨慎地进行修剪,以确保不会丢失重要的特征信息,因为这些特征对于整个网络的性能至关重要。相反,对于那些特征表示更加抽象且可能冗余的深层,我们可能会更加积极地进行修剪,以去除冗余信息并减少网络的复杂度。修剪的目的是通过有选择地减少网络的参数量,从而使得网络更加轻量化、高效,并且能够保持或提高其性能。通过精心安排修剪操作,我们可以最大程度地减少对网络性能的影响,同时确保网络在修剪后仍能够有效地完成其任务。
微调:微调是指在修剪完成后,对模型进行进一步的训练以调整其剩余参数,以弥补修剪过程中可能引入的性能损失。在深度学习中,通常会使用微调来优化模型的性能,特别是在对模型进行结构上的改变后,如剪枝操作。修剪操作可能会导致模型的某些部分变得过于精简,失去了一些原本的表示能力,从而影响了模型的性能。微调的目的是通过反复训练模型,调整其参数,使得修剪后的模型能够重新适应数据集,提高其性能表现。在无人机跟踪领域,微调非常重要。由于无人机跟踪对模型的精度和速度要求很高,修剪后的模型可能会受到性能损失的影响。因此,通过微调,可以让修剪后的模型重新学习并适应新的数据分布,从而保证在更轻、更快的情况下仍然能够高效地跟踪无人机。
基于秩的滤波器剪枝流程如下:首先,计算每一层中任意滤波器生成的特征图的平均秩,形成秩集summernote-img 。第二,对每个summernote-img进行降序排序,得到summernote-img ,其中 summernote-img 中第 j 个顶值的索引。第三,我们根据经验确定每一层要修剪的滤波器数量 ,以便对 SiamFC++ 模型进行修剪,从而获得 P-SiamFC++。修剪后, summernote-img变为summernote-img,其中 summernote-img。最后,保留的滤波器使用经过训练的 SiamFC++ 模型中的原始权重进行初始化,然后对压缩模型 P-SiamFC++ 进行微调。 
自1917年英国首架无人机的问世以来,无人机技术已经走过了超过一个世纪的历程。在这长达百年的发展过程中,无人机的发展历史映射了人类对航空技术的无限追求与创新精神。尤其是在过去的几十年间,伴随着科技的飞速发展和社会的快速进步,无人机技术经历了前所未有的蓬勃发展。无人机的演变可以追溯到最初的简单飞行器,而如今已经发展成为包含复杂系统的先进航空器,成为现代航空工业的一个重要分支。随着无人机技术的日益成熟和应用的广泛推广,世界各国逐渐认识到无人机在军事、民用和商业等多个领域的巨大潜力和价值。为了推动本国无人机产业的发展,许多国家制定了一系列政策和法规,旨在支持和激励无人机技术的研发与应用。这些政策不仅促进了无人机技术的创新和进步,也催生了一大批专注于无人机研发的公司,这些公司在全球范围内如雨后春笋般涌现。这些无人机研发公司不仅在推动技术发展方面做出了巨大贡献,还在探索无人机在各个领域的应用方面发挥了重要作用。无人机的应用场景从军事侦察、航拍摄影,到物流配送、农业植保等,正逐渐成为各行各业不可或缺的工具。
国内的大疆公司在无人机行业中独树一帜,其推出的多款产品,例如精灵Phantom系列、御Mavic系列等,均深受市场喜爱。这些无人机不仅仅是简单的飞行工具,它们还巧妙地融合了尖端的飞行控制与图像处理技术,使得无人机仿佛拥有了“大脑”,能够通过深度学习进行自我飞行训练。借助先进的算法,这些无人机仿佛具备了超能力,能够精确地追踪、检测目标,并按预设完成定点飞行,带给用户前所未有的飞行体验。但大疆的惊喜远不止于此,其真正的创新在于自主研发的避障科技。想象一下,这些无人机能够像有自我意识一样,主动避开障碍物,它们可以在飞行时敏锐地感知四周,然后迅速做出判断和避障动作,这无疑极大地加强了飞行的安全性和稳定性。这种高科技的避障功能,不仅让用户更轻松地操作无人机,更重要的是,它为用户构筑了一道坚实的安全屏障,使得无人机在多变、复杂的环境中飞行都显得游刃有余。
在国际上,诸如Parrot、3DRobotics和AscTec等无人机研发公司一直是业界焦点。这些公司不仅在技术创新上屡屡刷新纪录,而且在产品性能和用户体验方面也实现了显著提升。以Parrot公司的AR.Drone为例,这款无人机不仅具备了自动飞行的能力,还能执行一系列高难度的特技飞行动作,其飞行技巧令人叹为观止。继AR.Drone之后,Parrot公司又推出了BebopDrone,通过将重量减轻到原来的四分之一,并搭配Skycontroller遥控设备,用户得以体验身临其境的第一人称视角飞行,开辟了飞行体验的新篇章。
在国内外无人机轻量级跟踪算法的研究领域,近年来取得了显著进展。国际上,研究焦点集中在基于深度学习的跟踪方法,例如SiamRPN和SiamFC++等算法,它们通过采用轻量级网络架构和高效的特征提取策略,实现了高精度和实时跟踪性能。与此同时,国内研究者则致力于基于判别相关滤波器(DCF)的跟踪器研究,这些跟踪器以单CPU上高效运行而著称。然而,DCF方法的精度通常不及深度学习方法。
视觉跟踪方法是计算机视觉领域中一个活跃的研究方向。现代跟踪器主要分为DCF和深度学习两大类。DCF跟踪器从最小输出平方误差和(MOSSE)滤波器发展而来,通过引入内核技巧、判别尺度估计、连续卷积、空间和时间正则化、训练集管理、深度特征、注意力、上下文以及背景信息等多种技术,实现了性能的显著提升。由于DCF跟踪器通常使用手工制作的特征,并在傅立叶域中进行计算,因此它们能够以高效的方式获得有竞争力的性能,这在无人机跟踪领域尤为重要。然而,由于手工特征的表示能力有限,DCF方法在挑战性条件下难以保持鲁棒性。
由于深度学习在多个领域取得了令人瞩目的成就,近年来,它在视觉跟踪方面的应用也展现出了显著的效果,极大地提升了众多跟踪器的精确度和稳健性。SiamFC,作为这一领域的开创性工作,创新性地将视觉跟踪视为一种相似性学习问题,它采纳了Siamese网络来评估目标和搜索图像间的相似性,从而引领了众多基于深度学习的跟踪器采用连体架构的设计思路。例如,近期,以Siam为基础的跟踪器大致可划分为两大类:基于锚点和无锚点的跟踪器。在基于锚点的方法论中,SiamRPN[别出心裁地将区域建议网络(RPN)与Siamese网络融合,进而将跟踪任务分解为分类与回归两个子任务;DaSiamRPN则推出了干扰子感知模块与高效的采样策略;而SiamMask更是新增了一个分支,用于生成像素二进制掩码。近期,SiamDW与SiamRPN++更深入地探索了网络架构,旨在进一步提升跟踪精度,然而这样的提升却以牺牲效率为代价。在无锚点跟踪器方面,SiamFC++通过引入一个全新的质量评估分支来优化分类,构建了一个简约而不简单的框架。以此为基础,SiamCAR通过重塑无锚点结构及合并多层特征,实现了出色的性能。另外,SiamBAN则探索了全新的策略来生成分类标签与回归目标。当然,除了基于Siamese的跟踪器,还有众多深度学习跟踪器是通过扩展在线判别框架来进行端到端训练的。
值得注意的是,尽管近期有更深的网络架构被开发出来以提升跟踪精度,但这些进步往往以牺牲效率为代价。相较之下,SiamFC++则以其简洁而强大的框架,特别是其中的质量评估分支,提升了跟踪精度。但遗憾的是,尽管其在GPU上表现不俗,但仍未能达到实时速度(即30 FPS)。在本文中,我们致力于运用模型压缩技术,以期提升SiamFC++在实时无人机跟踪方面的效率。
模型压缩技术,近年来,基于剪枝的模型压缩技术在国内外都受到了广泛关注和研究。国际学术界不断有新的剪枝方法提出,旨在减少深度神经网络中的参数量和计算复杂度,同时确保模型性能不受太大影响。这些方法包括但不限于权重剪枝、通道剪枝和层剪枝等,它们通过移除网络中不那么关键的部分,实现了模型的小型化和速度提升。在中国,随着人工智能技术的飞速进步,剪枝技术同样成为研究的热门领域。国内的研究人员不仅致力于探索各种剪枝方法,还在图像识别、自然语言处理等多个应用领域取得了一系列显著的成就。他们还针对中国的特定问题和数据集,提出了一系列剪枝策略和优化方法,这些方法充分考虑了中文语言的特点和国内数据的特性。尽管国内外对剪枝技术的研究已经取得了丰硕的成果,但仍面临着一些挑战和未解决的问题。例如,如何在剪枝过程中找到模型精度和压缩率之间的最佳平衡点,如何有效地确定剪枝的阈值和策略,以及如何将剪枝技术与其它模型压缩技术如量化、低秩分解等相结合,以进一步提升模型的压缩效果和运行效率,这些都是当前和未来研究的重要方向。随着技术的不断进步,我们有理由相信,剪枝技术将在人工智能领域发挥更大的作用,为模型的部署和应用带来更多的可能性。
一般来说,模型压缩的目标是在不显著降低原始模型精度的情况下实现简化模型。修剪是一种常用的神经网络压缩技术,它探索模型权重中的冗余,并尝试删除/修剪冗余和非关键权重,这涉及从训练的网络中删除神经元或整个神经元,通道或滤波器之间的连接。修剪是一种探索神经网络权重冗余并去除非关键权重的技术,包括移除神经元或其连接。修剪技术自20世纪80年代开始应用,但随着深度神经网络的发展和在资源受限环境中的部署,其重要性日益凸显。修剪流程通常包括预训练、修剪和微调三个阶段,涉及修剪结构、比例、标准和时间表等主题。修剪结构分为非结构化(权重)和结构化(过滤)修剪,其中结构化修剪由于权重规则排列,更容易实现加速。修剪比例的调整可以通过预定义比率或基于正则化的方法实现。修剪标准用于选择要修剪的权重,常用的有权重大小、滤波器范数和稀疏性等。修剪调度决定了网络稀疏度达到目标值的过程,可以选择一步到位或逐步进行。逐步修剪可能优于一次完成的方式,因为它提供了更多训练时间,但后者在训练中更为高效。
总的来说,修剪在目前仍然是一个开放的问题。最近提出的HRank是一种有效且高效的过滤器剪枝方法,它使用每层特征图的秩作为剪枝标准,并且以一次性方式进行调度,从而无需引入额外的约束或重新训练,大大简化了剪枝的复杂度。我们利用这种方法在这项工作中,以实现我们的目标模型压缩。
未来研究方向预计将集中在开发能够在效率和精度之间取得平衡的轻量级跟踪算法。特别值得注意的是,探索模型压缩技术的潜力,以减轻基于深度学习的跟踪器的计算负担,同时保持高精度。其他有前景的方向包括使用解纠缠表示学习和自注意机制来提高特征表示的有效性和跟踪精度。
综上所述,无人机Hrank跟踪领域正迅速发展,为了满足实际应用的需求,需要持续的研发努力。通过探索新的算法和技术,研究人员可以在无人机跟踪的效率和精度方面继续突破可能的界限,为空中监视、搜救和其他关键任务开辟新的机会。 
在这项研究中,我们首次采用基于排序的滤波器剪枝技术(Hrank),以缩小基于DCF和DL的跟踪器之间的差距,从而在无人机跟踪领域做出了重要贡献。我们提出的P-SiamFC++(v1)和P-SiamFC++(v2)成功地平衡了效率和精度,在四个公共无人机基准测试(UAV123@10fps、DTB70、UAVDT和Vistrone2018)中取得了显著的成果。这种方法不仅可以提高跟踪的效率,而且令人惊讶的是,还能提高跟踪的精度。特别是,我们提出的P-SiamFC++(v2)将基线SiamFC++的模型大小减少到原始模型的三分之一以下,从9.66M减少到3.05M,并将平均精度从75.5%提高到78.8%,增长了3.3%。我们相信,我们的工作将引起更多关于无人机跟踪中模型压缩的关注,为该领域的进一步发展提供了新的思路和方法。
在这项研究中,我们专注于采用基于排名的滤波器修剪方法来压缩基线SiamFC++。然而,未来的工作将探索更多的滤波器修剪方法,以进一步提高跟踪器的效率和精度。我们将研究其他可能的修剪标准,以便更好地确定哪些滤波器应该被剪掉,以及哪些应该被保留。此外,我们还计划尝试其他基线跟踪器,并评估我们的修剪方法在这些跟踪器上的适用性和效果。另一个备受关注的研究方向是探索一种具有单一全局剪枝比的有效滤波器修剪方法。这个方法的提出意味着我们可以摆脱对复杂分层或分块剪枝率的依赖,转而采用更简单、更直接的方式来实现模型的剪枝。通过引入单一全局剪枝比,我们可以在整个模型中同时应用相同的剪枝率,而不必区分不同层或块之间的剪枝比例,从而减少了计算复杂度和实现难度。这种方法的引入将使滤波器的修剪过程更加简单和高效。由于不再需要针对每个层或块单独确定剪枝比率,我们可以更快地实施修剪策略,并且减少了实施过程中可能出现的错误。这将为研究人员提供一个更便捷、更有效的工具,以优化模型并提高跟踪算法的性能。通过这些努力,我们期望能够进一步推动无人机跟踪领域的发展。通过探索新的修剪方法和策略,我们可以为跟踪算法的设计和实现提供新的思路和方法。这将有助于开发出更加高效、精确的跟踪器,从而为无人机跟踪任务提供更好的解决方案,并促进相关技术的不断进步和创新。
 
技术实现路径:
本研究首先涉及无人机跟踪数据集的搜集与预处理工作,确保数据集适用于后续的训练与评估阶段。接着,我们将实施全局滤波器修剪策略,并结合自注意模块,以构建并训练我们所提出的轻量级跟踪器。在四个广泛认可的无人机跟踪基准上,我们将开展广泛的实验活动,以量化我们提出的跟踪器的效率和精度指标。此外,我们将与最先进的基于深度学习(DL)和基于判别相关滤波器(DCF)的跟踪器进行对比,以验证我们方法的有效性。我们还将分析所提出的跟踪器在不同挑战性场景下的计算效率、精度和鲁棒性,包括遮挡、尺度变化和运动模糊等情况。最后,我们将采用迁移学习技术对跟踪器进行微调,以增强其在新型跟踪场景下的适应能力。
拟解决的问题:
我们提出了一种创新的轻量级跟踪器,该跟踪器集成了全局滤波器修剪和自注意模块,旨在提升基于DL的无人机跟踪算法在效率和精度方面的表现。通过全局滤波器修剪,我们能够在不牺牲跟踪精度的情况下实现更高的模型压缩率。据我们所知,本研究是首个将模型压缩技术应用于无人机跟踪领域的项目,这一举措有望缩小基于DCF和基于DL的跟踪器之间的差距。我们发现,这种模型压缩方法不仅提高了跟踪效率,还意外地提升了跟踪精度,这一发现可能会激发对该领域进一步研究的兴趣。我们的方法采用基于秩的滤波器修剪来压缩SiamFCC++模型,实现了跟踪效率和精度之间的显著平衡,并且具有通用性和实时性,为无人机跟踪问题提供了新的解决思路。我们计划在四个无人机跟踪基准上展示我们方法的性能。
预期成果:
我们预计本研究将成功开发一种新型的基于Hrank无人机跟踪器,该跟踪器能够在效率和精度之间实现理想的平衡。我们将在四个流行的无人机跟踪基准上对所提出的跟踪器进行全面的评估,并与其他最先进的跟踪器进行对比。通过本研究,我们期望深入理解全局滤波器修剪和自注意模块对基于DL的无人机跟踪器效率和精度的影响,并探索互信息最大化在解纠缠表示学习中提高基于DL的无人机跟踪算法的潜力。我们计划将我们的研究成果投稿至2025年的计算机视觉与模式识别会议(CVPR)并且计划在相关领域发表八篇高水平学术论文,申请五个软著,三个专利。 
2024.5-2024.9
完成数据开发的前期准备工作。 1查阅数据库的原理和实现方法,为代码的编译做准备。
2对现有无人机跟踪系统进行调研,了解目前主流技术和解决方案。收集用户需求,明确无人机实时跟踪系统的功能和性能要求。
2024.10-2024.12
模型选择与设计 1确定适用于训练和评估的数据集,并获取相应的数据,对数据进行预处理。
2评估不同轻量级深度学习模型的性能和适用性,选择最合适的模型作为基础。设计针对无人
机跟踪任务的模型结构和优化策略,考虑计算资源和性能的平衡。
2025.1-2025.2
模型训练与优化 1使用选定的数据集对模型进行训练,并进行迭代优化。
2探索模型压缩、修剪和量化等技术,以提高模型的轻量级性能。
2025.3-2025.4
系统集成与验证 1将训练好的模型集成到无人机实时跟踪系统中,并进行系统级测试。
2对系统进行验证和性能评估,确保其满足用户需求和预期性能。
2022.4-2022.5
完成项目结题的准备。 1撰写项目报告和技术文档,总结研究成果和经验教训。
2在相关学术会议或期刊上发表论文,分享项目的研究成果和创新。 
以下为项目负责成员与本项目有关的研究积累与成果:
团队已经入驻桂林理工大学大学生创新创业基地。团队成员学习了图像处理等有关知识,并且学校图书馆购买了知网、Web of Science等多种外文期刊和数据库,方便使用IEEE、Elsevier、Springer等科研数据库资源,能满足开展项目研究的需要。


指导老师在此领域已经发表论文十余篇;本项目目前用于可用于实验的服务器十五台,主机二十余台,拥有TiTan X显卡三十张,Tesla P100显卡十张,可以进行充足的实验。 

经费预算

开支科目 预算经费(元) 主要用途 阶段下达经费计划(元)
前半阶段 后半阶段
预算经费总额 7500.00 3800.00 3700.00
1. 业务费 2500.00 800.00 1700.00
(1)计算、分析、测试费 1000.00 500.00 500.00
(2)能源动力费 0.00 0.00 0.00
(3)会议、差旅费 0.00 0.00 0.00
(4)文献检索费 500.00 300.00 200.00
(5)论文出版费 1000.00 0.00 1000.00
2. 仪器设备购置费 4500.00 2500.00 2000.00
3. 实验装置试制费 500.00 500.00 0.00
4. 材料费 0.00 0.00 0.00
结束