最新刊期

    2025年第11卷第2期

      十周年寄语

    • 《大数据》期刊发展中的二三事 AI导读

      杜小勇
      2025, 11(2): 1.
        
      266
      |
      82
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 86967562 false
      更新时间:2025-03-15
    • 《大数据》十周年寄语 AI导读

      朱扬勇
      2025, 11(2): 2.
        
      208
      |
      93
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 86967543 false
      更新时间:2025-03-15

      专题

    • 专题:大模型与知识图谱 AI导读

      2025, 11(2): 3-4.
        
      361
      |
      555
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 86967843 false
      更新时间:2025-03-15
    • 知识增强的中文金融大模型研究 AI导读

      程大伟, 贾仁军, 李江彤, 丁志军, 蒋昌俊
      2025, 11(2): 5-18. DOI: 10.11959/j.issn.2096-0271.2025021
      摘要:金融行业长期以来面临海量市场数据与信息的处理难题。当前,大语言模型在通用文本理解任务上取得了显著进展,但在专业性更强的中文金融领域还有较大的提升空间。针对当前大语言模型在处理专业领域文本任务上的不足,提出基于知识增强的继续预训练和监督微调的两阶段训练方法,并改进了训练数据的组织形式和训练范式,从而提升模型在复杂金融场景下的性能。最后,通过实验验证了提出的知识增强方法在大模型训练中的有效性。  
      关键词:知识增强;大语言模型;金融时序预测   
      862
      |
      555
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 86967683 false
      更新时间:2025-03-15
    • 代码大语言模型赋能的知识图谱关键技术综述 AI导读

      李紫宣, 白龙, 任韦澄, 苏淼, 刘文轩, 陈磊, 靳小龙
      2025, 11(2): 19-28. DOI: 10.11959/j.issn.2096-0271.2025022
      摘要:传统知识图谱技术在将用自然语言表达的人类知识转化为用形式化语言表达的知识图谱再加以利用的过程中仍面临诸多挑战。近年来,代码大语言模型具备了同时理解自然语言与形式化语言并将两者进行转化的能力,有望为新一代知识图谱技术的发展带来重要突破。因此,综述了代码大语言模型在知识图谱中的运用。首先,从知识图谱构建、推理以及问答3个方面,对代码大语言模型赋能的知识图谱关键技术进行了体系化梳理;其次,围绕上述3个方面,对现有相关技术进行了较为详细的介绍;最后,对代码大语言模型赋能的知识图谱关键技术进行了总结与展望。未来基于编程语言的知识表示有望在知识图谱上实现更加高效、自动且复杂的操作,实现知识编程。  
      关键词:知识图谱;代码大语言模型;大语言模型   
      1023
      |
      328
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 86967612 false
      更新时间:2025-03-15
    • 基于知识图谱和大语言模型增强的推荐系统研究 AI导读

      王敏, 高晓影, 汪诗蕊, 向阳
      2025, 11(2): 29-46. DOI: 10.11959/j.issn.2096-0271.2025026
      摘要:推荐系统的核心是用户和商品,用户与商品之间的关系可抽象为图结构,因此图神经网络在推荐领域具有广泛应用。但基于图的推荐交互数据较稀疏,严重依赖于编号信息和图结构信息,忽略了与用户和商品相关的有价值的文本信息,表征信息较少。同时,隐式反馈数据中存在一定的噪声和偏差,为推荐系统理解用户行为与偏好带来挑战。为了解决这些问题,提出了一种基于知识图谱和大语言模型增强的推荐系统。知识图谱可以提供商品的结构化信息,使模型能学习商品之间的潜在关系,理解用户行为和偏好。大语言模型具备非常出色的生成与理解能力,可以通过提示工程技术,深入分析并挖掘文本信息,推理获取商品和用户画像特征。所提模型分别将这些辅助信息增强的特征编码,并对表征进行增强以与图神经网络获得的ID表征对齐,完成下游推荐任务。实验结果证明,本文提出的系统可以全面地表征用户和商品,具有较好的性能。  
      关键词:大语言模型;知识图谱;推荐系统;表征学习   
      1664
      |
      1225
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 86967800 false
      更新时间:2025-03-15
    • 基于知识增强大模型的电催化剂设计 AI导读

      王露笛, 陈鸣, 崔文娟
      2025, 11(2): 47-54. DOI: 10.11959/j.issn.2096-0271.2025028
      摘要:作为实现可持续碳循环的重要手段,开发高性能的电催化剂是未来可持续发展的关键,而推荐具有创新性的有价值制备方案是提升电催化开发效率的有效手段之一。基于电催化领域的科技文献,邀请领域专家进行知识体系的建设与知识抽取,形成电催化剂领域知识库。此外,利用相关文献数据对通用大语言模型进行微调与知识增强,共同实现面向目标产物、材料类别和调控方法类别的制备方案推荐,辅助电催化剂的设计。实验表明,知识增强大模型推荐的制备方案的有效性和创新性都有一定的提升。  
      关键词:电催化剂;知识增强;大模型   
      472
      |
      784
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 86967685 false
      更新时间:2025-03-15
    • 基于生成式AI的药物重定位研究 AI导读

      龚后武, 金敏
      2025, 11(2): 55-72. DOI: 10.11959/j.issn.2096-0271.2025030
      摘要:针对当前药物重定位研究药物适用症预测数量固定、无法全面揭示药物潜在适应症的问题,提出了生成式AI的药物重定位模型GenDrugShifter。该模型由图注意力神经网络和Transformer Decoder模块组成,能够进行端到端的药物重定位。该模型以InChI格式表示的药物分子结构为图注意力神经网络的输入,使用自监督方法学习药物活性分子结构和药物适应症之间的潜在联系,通过自回归的方法输出药物的适应症。西药重定位实验结果表明,GenDrugShifter在预测性能上优于其他4种先进药物重定位方法。GenDrugShifter能够更全面地揭示药物潜在的适应症,具有优越性和可靠性。临床数据进一步证明了其在实际应用中的有效性。  
      关键词:生成式AI;药物重定位;大语言模型;人工智能;药物发现   
      405
      |
      249
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 86967734 false
      更新时间:2025-03-15
    • 贾子琦, 王健宗, 张旭龙, 瞿晓阳
      2025, 11(2): 73-90. DOI: 10.11959/j.issn.2096-0271.2025023
      摘要:随着人工智能的发展,具身智能和任务规划逐渐成为研究热点。传统任务规划方法在面对不可预测环境时缺乏灵活性,而大语言模型凭借其强大的语言理解和多模态能力,为智能体提供更全面的任务规划方案,为解决这一问题提供了可能性。综述了基于大模型的智能体任务规划方法,涵盖了单智能体与多智能体情境下的不同策略,并探讨了几种代表性框架及其在实际应用中的表现与潜力。具体而言,分别介绍了端到端规划、分阶段规划、动态规划等单智能体大模型任务规划方法,以及集中式规划、分布式规划和混合式规划等多智能体大模型任务规划方法,并分析了这些方法如何结合强化学习、多模态感知等技术来优化规划过程。此外,讨论了基于大模型的具身智能任务规划的特点、局限性以及存在的挑战,并展望了未来的发展方向。本研究旨在为设计更加灵活、适应性强的下一代具身智能系统提供有价值的参考。  
      关键词:具身智能;任务规划;大语言模型   
      1083
      |
      428
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 86967663 false
      更新时间:2025-03-15

      研究

    • 语言模型增强的引文网络连边因子挖掘 AI导读

      王慜懋, 赵洪科, 吴李康, 焦之贤, 黄振亚
      2025, 11(2): 91-106. DOI: 10.11959/j.issn.2096-0271.2025025
      摘要:GNN可以有效聚合图结构数据中邻近节点的信息以学习节点表征,在引文网络数据挖掘领域展现出了巨大的潜力。然而,现有的大多数GNN在捕获连边信息的驱动因子方面缺乏深入探索,这限制了对节点间复杂关系的深入理解和解释。例如,不同论文之间的引用关系通常由各种研究主题驱动,尽管已有研究尝试通过整合LLM的强文本理解和生成能力来丰富节点与连边的特征表达,但这些方法仍未能有效挖掘连边信息隐含的驱动因子。鉴于此,提出了一个创新的框架——语言模型增强连边因子挖掘,旨在以插件形式提高各种图神经网络对连边关系建模的区分度,探究其在引文网络链接预测场景下的应用价值。粗粒度因子挖掘通过为LLM设计结构化信息提示文本,从引文网络图中提取出显式的类别相关连边因素。细粒度因子挖掘利用K-means聚类算法从图文本数据中捕捉更细致的语义主题级别连边因素。为了验证所提框架的有效性,在3个公开数据集上进行实验。实验结果表明,语言模型增强连边因子挖掘框架在提升各类图神经网络模型性能方面具有显著优势。  
      关键词:大语言模型;图神经网络;连边因子挖掘;链接预测;引文网络   
      204
      |
      219
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 86967661 false
      更新时间:2025-03-15
    • 有限标签下的非平衡数据流分类方法 AI导读

      李艳红, 李志华, 郑建兴, 白鹤翔, 郭鑫
      2025, 11(2): 107-126. DOI: 10.11959/j.issn.2096-0271.2025018
      摘要:数据流分类是数据流挖掘的重要研究内容,其核心任务是从实时到达的数据流中快速捕获概念漂移,并及时调整分类模型。极限学习机具有训练速度快和泛化性能好的优点,然而目前基于极限学习机的数据流分类方法很少可以同时处理数据流中常见的多类非平衡、概念漂移、标签成本昂贵的问题。为此,提出了一种有限标签下的非平衡数据流分类方法。该方法定义了预测概率差值与信息熵相结合的样本预测确定性度量,提出了不确定性标签请求策略;定义了基于类不平衡比率和样本预测误差的样本重要性度量;提出了基于概念漂移指数的分类器的更新与重构机制。在6个人工数据流和3个真实数据流上的对比实验表明,本文提出方法的分类性能优于已有的6种数据流分类方法的分类性能。  
      关键词:数据流分类;多类非平衡;极限学习机;概念漂移;标签成本昂贵   
      158
      |
      358
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 86967586 false
      更新时间:2025-03-15
    • StabilizeNet:用于缓解时间序列非平稳性的新型框架 AI导读

      安俊秀, 万里浪
      2025, 11(2): 127-139. DOI: 10.11959/j.issn.2096-0271.2025019
      摘要:时间序列预测在现代生活中广泛应用于众多领域,其重要性日益凸显。非平稳性是影响时间序列预测准确性的主要问题之一。时间序列数据的统计特性随时间变化,导致从历史数据中学习的规律难以被稳定地应用于未来预测,从而增加了预测的难度和不确定性。针对该问题,提出了一种新型框架StabilizeNet,旨在减少时间序列数据的非平稳性。该框架包括中心化和尺度变换、线性变换及逆序变换3个部分,通过引入可学习的归一化线性变换矩阵,优化数据的信息保留,并增强模型对时间序列动态的捕捉能力。与先进的时间序列预测模型Informer、SCINet、Pyraformer、FEDformer和Crossformer相比,StabilizeNet在多个数据集上展现出有效性和优越性。此框架为时间序列预测提供了一个新的预处理手段,有助于提升时间序列预测模型的预测性能。  
      关键词:时间序列预测;非平稳性;归一化   
      219
      |
      204
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 86967541 false
      更新时间:2025-03-15
    • 面向权属治理的分布式数据空间架构模型研究 AI导读

      孙金烨, 郭树行
      2025, 11(2): 140-151. DOI: 10.11959/j.issn.2096-0271.2025029
      摘要:当前,我国有关权属治理的顶层制度有待体系化完善,并且存在交易机制不健全、数据流通共享水平较低等问题,阻碍数据要素市场化进程,抑制其价值充分释放。基于上述背景,首先,从价值网理论、生态协同理论、架构者理论和金融信托理论4个视角探究了跨领域数据流转的权属治理理论基础;其次,结合分布式架构理论和动态能力理论,创新性地提出了面向数据授权运营商的基于跨领域协同视角的分布式数据空间架构模型;最后,结合交通数据流通场景开展应用探究。分析结果表明,该架构模型能够有效指导跨领域场景应用,使不同维度数据通过叠加产生放量的增益价值,并优化权属配置,提升数据市场交易的有序性。  
      关键词:数据要素流通;跨平台数据协同;分布式数据空间;数据权属治理   
      265
      |
      353
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 76441963 false
      更新时间:2025-03-15

      应用

    • 面向恶劣天气的航班延误Stacking集成预测模型 AI导读

      孙玥, 丁建立
      2025, 11(2): 152-166. DOI: 10.11959/j.issn.2096-0271.2025012
      摘要:天气因素作为影响航班延误的首要因素,对航班延误预测有重要影响。面向恶劣天气,对航班延误时长进行多分类预测,并针对传统单一模型预测精度低、稳定性差等问题,提出一种基于Stacking的航班延误集成预测模型,融合航班数据与天气数据特征,采用LightGBM、XGBoost等多个异质分类器作为基学习器,SVM作为元学习器,构建堆叠式的双层集成学习框架。为验证模型有效性,构建多个单一模型与集成模型进行比较。实验结果证明,Stacking集成预测模型性能最优,总体准确率达到95.25%,F1分数达到0.9527。  
      关键词:航班延误预测;Stacking集成学习;多模型融合;恶劣天气   
      197
      |
      874
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 86967538 false
      更新时间:2025-03-15
    • 生态环境大数据背景下环境治理的路径优化研究 AI导读

      李祎恒, 吴嘉慧
      2025, 11(2): 167-176. DOI: 10.11959/j.issn.2096-0271.2025024
      摘要:生态环境大数据作为新质生产力的重要组成部分,有助于推动环境治理高效化、科学化、精准化,实现环境治理向智能化转型。然而,将生态环境大数据应用于我国环境治理实践仍面临诸多现实问题:一是缺乏数据利用相关的法律规范,妨碍了数据利用,导致数据调用困难;二是生态环境大数据安全技术保障不足,引发数据失真和数据泄露等安全风险;三是算法监管制度不完善带来算法歧视,破坏我国环境治理生态。为解决上述现实问题,提出加强立法、技术保障和监督管理三方面的优化措施,通过加强数据基本法律制度建设,加强隐私保护、区块链等数字安全保障技术的研究以及健全算法监管方式等措施,纾解生态环境大数据应用过程中面临的问题,为实现环境治理现代化打下坚实基础。  
      关键词:生态环境大数据;环境治理;数据安全;区块链;算法监督   
      253
      |
      285
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 86967542 false
      更新时间:2025-03-15

      论坛

    • 数据产品定价策略:独占式与非独占式定价 AI导读

      徐艺轩, 吴冰
      2025, 11(2): 177-187. DOI: 10.11959/j.issn.2096-0271.2025017
      摘要:从数据交易实践来看,数据交易定价机制尚未成熟。探究“独占式定价”与“非独占式定价”对交易各方的影响,丰富了学术界对数据交易的研究,为数据产品提供方制定实际定价策略提供参考。以数据规模和数据产品价格为变量,构建经济学模型,考虑价格歧视及交易市场各方的相互影响,对比分析“独占式定价”与“非独占式定价”两种数据产品的定价方式。研究发现,在数据产品交易市场中,数据产品提供方应根据市场活跃度调整定价策略。市场活跃度低时,“独占式定价”可剥夺消费者剩余;市场活跃度高时,“非独占式定价”因边际成本低而利润高。同时,数据产品提供方应重视产品质量,满足市场需求,以获取更高利润并推动市场健康发展。忽视市场变化、产品质量、市场需求将导致利润流失和市场发展受阻。  
      关键词:数据产品;独占式定价;非独占式定价;价格歧视   
      280
      |
      220
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 86967588 false
      更新时间:2025-03-15

      专家视点

    • 数据财政的非税收入及其分配机制实践探索 AI导读

      谢波峰, 朱扬勇
      2025, 11(2): 188-192. DOI: 10.11959/j.issn.2096-0271.2025027
        
      381
      |
      259
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 86967590 false
      更新时间:2025-03-15
    0