详情

农民工规模现状分析及未来趋势预测系统

申报人:卢正松 申报日期:2024-05-31

基本情况

2024年批次
农民工规模现状分析及未来趋势预测系统 学生申报
创新训练项目
工学
计算机类
学生自主选题
一年期
自改革开放以来,中国城市发展迅速,为满足建设劳动力的需要,大量农民涌入到城市中去。随着时间的推移,农村的劳动力越来越少,城乡之间的发展差距越拉越大。农民工的迁移成为了影响城乡发展的重要因素,如果能对农民工的流动情况进行相关的预测,就可以据此对城乡的发展作出更好的规划。根据农民工的流动状况,构建一个相关农民工的流动分析及预测模型,可以对农民工规模现状进行分析,对未来流动趋势进行预测,以此来协助城乡发展规划。
参加一项国家自然基金项目。
提供了相关材料及解答相关研究出现的难点。
校级

项目成员

序号 学生 所属学院 专业 年级 项目中的分工 成员类型
卢正松 计算机科学与工程学院 网络工程 2022 项目开发
蓝家炉 计算机科学与工程学院 物联网工程 2022 技术支持
熊洪熙 计算机科学与工程学院 网络工程 2021 项目分析
黄文静 计算机科学与工程学院 网络工程 2022 版面设计
张添乘 计算机科学与工程学院 人工智能 2022 文献查找

指导教师

序号 教师姓名 所属学院 是否企业导师 教师类型
陈宫 计算机科学与工程学院

立项依据

        近年来,城市迅速发展,城镇化规模不断扩大。但同时也带来了城市与城市之间,尤其是城市与农村之间发展不平衡的一系列问题。随着农村人口的大量流出,农村劳动力不断减少,农村出现了空心化的现象,农业发展因此陷入滞后。农民工是农村经济发展的主体,农民工的流动成为了影响城乡发展的重要因素,因此研究农民工的流动情况和未来的流动趋势具有重要意义。在党的十八大以来,随着乡村振兴战略的实施,为扶持和发展农村经济,必须了解农民工的流动状况以及做出相关的预测,以此对农村经济做出更好的规划。

        此次设计的系统目的就是为了对农民工的规模进行相关的数据分析以及对未来的变化趋势进行一个相关的预测,以更好地了解农民工流动规模的动态变化趋势。研究农民工城乡就业情况及其影响因素,对科学引导农民工群体合理流动,促进城镇化进程的顺利推进及推动乡村振兴具有积极作用。基于所设计的分析及预测系统分析,能够了解中国农村的发展趋势,为未来的政策制定和战略规划提供了重要参考。此外,此预测系统可以推广应用到其他如公共卫生、城市规划和环境保护等其他领域,在社会、经济、教育和医疗等多个领域都具有重要的应用价值和广阔的发展前景。

        为了精准分析和预测农民工规模现状和流动趋势,需要对大量复杂数据进行全面收集、清洗、处理和分析。通过统计分析和大数据分析,可以实现对农民工规模和流动趋势的精确建模和预测,其中包括数据挖掘、数据预处理、特征提取、回归分析、时间序列分析(Time-Seriess Analysis)和深度学习算法的应用。通过这些技术手段,可以深入了解农民工流动规律及其影响因素,并做出全面、系统的未来预测,为政策制定提供科学依据。详细的技术手段如下:

        数据采集:利用爬虫数据收集技术和网页内容分析算法从国家统计局网站获取农民工规模现状数据,并从其他相关数据源(如社交媒体、新闻报道、地方政府公开数据等)进行多渠道数据采集。

        数据清洗:利用数据清洗工具对采集到的数据进行清洗,处理缺失值、异常值和重复数据,保证数据质量。

        自然语言处理技术(NLP):利用NLP技术分析文本数据,对文本数据进行标注,提取与农民工规模和影响其因素的相关关键词和主题。并提取有用信息,从中分析出影响农民工流动的主要因素。

        主题挖掘(LDA模型):使用LDA模型进行主题挖掘,从大量文本数据中提取主题,识别影响农民工规模变化的关键因素。

        数据管理与整合:基于和鲸社区平台,开发数据管理系统,整合多渠道数据资源,确保数据的统一管理和便捷调用。

        回归分析:构建多元线性回归模型,对影响农民工规模的因素进行定量分析,评估各因素的影响程度。

        时间序列分析:利用时间序列分析方法,分析农民工规模的历史变化规律,捕捉长期趋势和周期性变化。

        深度学习算法(LSTM模型):使用LSTM模型对农民工规模进行动态预测,捕捉数据中的长期趋势和季节性变化。

        回测与优化:利用历史数据对预测模型进行回测,验证模型的预测能力和误差水平。根据回测结果,优化调整模型,提高预测精度和稳定性。

        预测系统构建:整合数据采集、清洗、处理、分析和预测的各个环节,形成一个完整的分析和预测系统。

        数据可视化工具:利用数据可视化工具,对现状分析结果及预测结果进行可视化处理,使数据分析结果更直观、易懂。

                          summernote-img

        1.国外研究现状

        在国外,农民工流动和规模的研究较少专注于类似于中国的农村到城市迁移,而更多集中在发展中国家和地区的内部迁移模式。例如,拉丁美洲、非洲和亚洲的一些国家在过去几十年中都经历了显著的农村到城市迁移潮流。

        研究表明,发展中国家内部的农民工迁移通常受到经济、发展不平等和自然灾害等多重因素影响。例如,印度和巴西等国家进行了大量关于农村到城市迁移的实证研究,这些研究通常利用统计数据和经济模型来分析迁移模式和经济影响。

        同时,在美国和欧洲等发达国家,虽然农业人口迁移已经不再是主要问题,但研究人员依然采用先进的数据分析方法,如多元回归、时间序列分析和机器学习等,来研究其他类型的劳动力市场动态。这些方法对中国研究农民工流动同样具有重要借鉴意义。

        可以直观感受到的是,在美国和德国等国家,农业机械化和自动化程度较高,农村劳动力需求较低,因此城乡发展差距较小。这些国家的研究主要集中在农业机械化对劳动力市场的影响、政策支持和技术进步等方面。

        2.国内研究现状

        在国内,农民工流动和规模的研究具有较强的现实意义。通过对农民工流动和规模的研究,可以全面掌握农村劳动力的分布和流动趋势。这不仅有助于农村经济的发展和城市政策的优化,还对实现城乡协调发展和社会资源的合理配置具有重要的指导意义。

        根据国家统计局的统计数据,中国的农民工总量近年来持续增长。研究通常关注农民工的规模、年龄结构、性别比例、受教育水平和收入状况等基本特征。相关研究指出,农民工以青壮年为主,男性多于女性,受教育水平相对较低,收入水平虽有提高但仍低于城市居民。

        同时,国内研究多通过实地调研、问卷调查和统计分析等方法,探讨农民工流动的主要原因,如经济机会、城乡收入差距、生活成本和公共服务等因素。研究发现,经济驱动是农民工流动的主要原因,家庭和政策等也是重要的影响因素。

        由于耕地分散、农业现代化起步较晚,中国城乡发展差距较大。许多研究集中在分析这种差距的形成原因及其对农民工流动的影响。政府在促进城乡协调发展方面的政策措施,如乡村振兴战略和新型城镇化政策,也成为研究热点。

        近年来,随着大数据技术的发展,研究者开始利用大数据平台和机器学习模型来分析和预测农民工流动趋势。和鲸社区等数据平台提供了丰富的数据资源和分析工具,推动了基于数据的研究。

        3.发展动态:

        国内外关于农民工规模的研究逐渐呈现出多学科交叉的趋势,结合经济、社会、地理学和计算机科学等学科的理论和方法,进行更加全面和深入的分析。

        同时,随着数据科学和人工智能技术的不断进步,研究方法和工具不断更新,为农民工流动的分析和预测提供了更高的精度和效率。特别是机器学习和深度学习模型在时间序列预测中的应用,为动态预测提供了更为有效的手段。

        1.数据挖掘与定量分析结合

        本项目利用LDALatent Dirichlet Allocation)模型从大量文本数据中提取主题,为农民工规模变化的方向和影响因素提供新颖的识别方法。LDA模型能够从非结构化数据中识别出潜在主题,揭示农民工流动背后的关键因素和趋势。在主题提取的基础上,利用多元线性回归模型对这些影响因素进行定量分析。通过这种方法,研究结果不仅具有定性洞察(通过LDA模型提取主题),还得到定量支持(通过回归分析),使分析更为全面和深入。

        2.动态预测能力

        通过LSTMLong Short-Term Memory)模型对农民工规模进行时间序列预测,能够准确捕捉数据中的长期趋势和季节性变化。LSTM模型在处理时间序列数据时具有显著优势,能够学习和记忆长期依赖关系。这种动态预测能力为农民工提供更为准确和及时的就业信息,引导他们更合理地流动,减少盲目流动带来的资源浪费和社会问题。同时,LSTM模型为政策制定者提供了前瞻性的数据支持,帮助他们更好地应对未来的变化,制定更加科学和有效的政策。

        3.多维度数据整合

        通过整合来自不同渠道的多维度数据,例如农民工规模现状、未来发展趋势、宏观经济指标、行业发展情况、社会舆情等情况,可以全面分析影响农民工规模的各个方面。通过对各类数据的系统整合与分析,能够得出更为全面的研究结果和政策建议,有效推动城乡协调发展和乡村振兴战略的实施。

        4.前沿技术应用

        项目中广泛应用了自然语言处理(NLP)、LDA模型、多元线性回归、时间序列分析和深度学习(LSTM)等前沿技术。结合这些技术手段,能够实现数据的高效处理和精准分析。前沿技术的应用不仅提高了研究的科学性和技术水平,还提高了研究成果的准确性、使研究成果更具前瞻性。这些技术手段的综合应用为农民工流动规律及其影响因素的研究提供了强有力的支持。

                                              summernote-img

        1.技术路线:

        (1)数据收集和预处理:

        数据整合:整合和鲸社区平台提供的数据集、国家统计局统计数据、社交媒体数据、新闻报道等多渠道数据,确保数据的全面性和多样性。

        数据清洗:对收集到的数据进行清洗,处理缺失值、异常值、重复数据等,保证数据质量。

        文本数据标注:对文本数据进行标注,标注出与农民工规模和影响因素相关的关键词和主题。

        专家指导:与指导老师交流沟通,在历史经验的基础上根据项目目标提出创新点,确保研究方法和技术手段的合理性和科学性。

        (2)基于LDA模型的主题挖掘:

        主题提取:使用LDALatent Dirichlet Allocation)模型进行主题挖掘,从大量文本数据中提取出影响农民工规模的主要问题和潜在因素。

主题分析:对挖掘出的主题进行分析和解释,初步了解影响农民工规模变化的主要因素,为后续定量分析提供依据。

        (3)基于多元线性回归的定量分析:

        数据建模:基于LDA模型提取的数据,构建影响农民工规模的回归模型。

        回归分析:使用多元线性回归模型进行拟合,定量分析各变量对农民工规模的影响程度,量化各因素对农民工规模变化的贡献。

        (4)基于LSTM的动态预测:

        数据准备:构建包括历史农民工规模数据及其影响因素的测试数据集。

        模型训练:使用LSTMLong Short-Term Memory)模型对时间序列数据进行训练,捕捉数据中的长期趋势和周期性变化。

        未来预测:利用训练好的LSTM模型对未来农民工规模进行预测,分析未来变化趋势,提供精确的预测结果。

        (5)模型和预测系统整合:

        系统集成:将各个模型的训练结果整合到一个系统中,确保数据流的顺畅和结果的一致性。

        可视化展示:使用可视化工具展示预测结果及现状分析结果,提供直观的分析工具,使研究结果易于理解和应用。

        系统优化:利用历史数据进行回测,验证模型的预测能力和误差水平,进行模型优化调整,提高预测精度和稳定性。

        2.拟解决的问题:

        (1)利用构建的数据集和LSTM模型,全面分析农民工规模的影响因素和变化趋势,揭示农民工流动的规律性和季节性变化。

        (2)通过LDA模型和多线性回归模型,从大量数据中挖掘出影响农民工规模的主要因素,并定量分析各因素对农民工规模变化的具体影响程度,提供详细的定性和定量分析结果。

        (3)整合多种数据源,包括农民工规模现状、未来发展趋势、宏观经济指标、行业发展情况、社会舆情等,提供全方位、多角度的农民工规模及其影响因素的分析结果。基于分析结果提出相应的解决方案和政策建议,助力政府和相关部门制定科学合理的政策。

        3.预期成果:

        (1)完成数据收集,整理出涵盖多维度的完整数据集。基于数据集撰写农民工规模现状及变化趋势报告和影响因素报告,提供详实的数据支持和分析结果。

        (2)完成LDA模型、多线性回归模型、LSTM模型的创建和训练,并利用这些模型对农民工规模的未来发展趋势进行预测,提供高精度的动态预测结果。

        (3)将项目的研究成果,包括研究背景、方法、结果及政策建议,向政府部门和社会公众进行展示。通过报告、数据可视化和其他展示手段,直观展示分析及预测结果,提供参考依据,助力政策制定和城乡协调发展。

1.202458-2024520日。通过各种渠道获取信息,队伍成员之间交流获取到的信息,确定研究课题方向。完成大学生创新创业计划申报书以及相关材料的填写,并在20号之前将材料交给相关的负责人。

2.2024521-2024610日。收集有关分析及预测系统的文献资料,理解系统的构建过程。在对构建系统具有一定的认识之后,制定项目的实施计划,包括确定完成项目所需的技术支持、项目实施的基本路线、队员间的工作分配。完成项目的基本安排之后,正式启动项目研究。

3.2024611-20248月。项目开发初期,确定并构建系统开发所需模型,根据研究项目的特点搭建相关框架。

4.20249-202412月。项目开发中期,完成系统框架的大部分构建,实现系统的基本功能,如数据的采集和分析等。

5.20251-20253月。项目开发后期,对分析及预测系统进行测试。分析可能出现的问题,并结合实际情况拓展新功能。

6.20254月。提交最终成品,附上系统开发流程、使用说明、商业计划书、测试报告等相关文件。

(1)了解了中国城乡人口结构现状、以及中国农民工面临的社会问题,对所要研究的项目和方向具有一个深刻的理解。

(2)收集了有关分析及预测系统的有关信息,了解了许多分析及预测系统的建立过程。在和鲸社区平台等了初步认识了各种数据分析模型的应用。

(3)基于LDA主题模型对文本数据进行过建模分析,以及使用模型似然比检验结果、拟合优度检验方法等评估模型的表现。

(4)基于时间序列数据的LSTM模型训练和预测,进行过农民工规模的预测。

(1)已具备的条件:完成了LDA模型、多线性回归模型、LSTM模型的初步构建,后续可以在此基础上继续发展。

(2)尚缺少的条件:缺少对农民工规模现状影响因素的定量分析数据;缺少对所收集数据的量化与细分处理;以及缺少对模型的规模化训练。

(3)解决方法:通过爬虫技术继续获取各大社交媒体中关于农民工城乡就业的相关内容,并对抓取到的数据进行清洗和细化分类,组成较大规模的数据集。根据数据集对模型进行大量训练,以得到更加准确的结果。

经费预算

开支科目 预算经费(元) 主要用途 阶段下达经费计划(元)
前半阶段 后半阶段
预算经费总额 5000.00 项目支出 2450.00 2550.00
1. 业务费 2500.00 实验业务 950.00 1550.00
(1)计算、分析、测试费 800.00 分析数据和撰写分析结果 300.00 500.00
(2)能源动力费 100.00 能源消耗 50.00 50.00
(3)会议、差旅费 300.00 市场勘察 200.00 100.00
(4)文献检索费 500.00 文献查找 400.00 100.00
(5)论文出版费 800.00 出版论文 0.00 800.00
2. 仪器设备购置费 1000.00 相关设备购买 700.00 300.00
3. 实验装置试制费 500.00 购买装置 300.00 200.00
4. 材料费 1000.00 购买素材 500.00 500.00
结束