最新刊期

    2025年第11卷第6期

      十周年寄语

    • 《大数据》编委 AI导读

      在人工智能领域,专家建立了深度学习体系,为智能技术发展提供新方向。
      向阳
      2025, 11(6): 1.
        
      9
      |
      3
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 134147863 false
      更新时间:2025-11-15

      专栏:公共数据产权

    • 基于地方政府政策文本的公共数据授权运营模式对比分析 AI导读

      据最新报道,地方政府正积极出台政策,探索公共数据授权运营模式,以促进数据有效利用和政策效能发挥。
      吕正英, 王浩然, 贺一舟, 吕守军
      2025, 11(6): 2-17. DOI: 10.11959/j.issn.2096-0271.2025083
      摘要:公共数据作为数据要素的重要组成部分,其运行模式具有多样性。作为公共数据授权主体的地方政府,相继出台政策探索公共数据授权运营模式。通过对公共数据授权运营政策文本的分析发现,当前公共数据授权运营是公共数据开发利用的主要模式之一,但各个地方的侧重点各有不同。研究认为:应鼓励各地探索“混合授权模式”,加大数源部门制度激励,鼓励公共数据入场交易,促进公共数据的有效利用和发挥授权运营政策效能。  
      关键词:数据要素;公共数据;授权运营;模式对比;政策分析   
      33
      |
      8
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 114470103 false
      更新时间:2025-11-15
    • 在数据要素×领域,专家分析公共数据流通交易对用数门槛、成本和水平的影响,并提出对策建议,助力数据产业生态繁荣。
      董思怡
      2025, 11(6): 18-27. DOI: 10.11959/j.issn.2096-0271.2025086
      摘要:“数据要素×”作为一种需方用数视角,与公共数据开发利用相互依赖、彼此促进。从“数据要素×”视角理解公共数据开发利用,聚焦“公共数据产品和服务场内交易”,从要素属性、供需匹配和效应发挥3个方面,分析公共数据进场流通交易对用数门槛、用数成本和用数水平的影响。进一步,结合数据流通交易领域的现有实践与研究,重点从发展可信数据空间、健全评价评估机制、培育流通交易服务生态3个方面形成对策建议,并进行未来展望,以助力用数活力更好释放、数据产业生态更加繁荣。  
      关键词:公共数据;数据要素×;进场流通交易;价值释放   
      56
      |
      23
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 115682801 false
      更新时间:2025-11-15

      论坛

    • 全球大模型开源战略的动因、影响与应对策略探析 AI导读

      全球AI巨头加速开源布局,降低创新壁垒,开源风险成短期议题。
      谭俊, 程莹, 刘志鹏
      2025, 11(6): 28-34. DOI: 10.11959/j.issn.2096-0271.2025089
      摘要:阿里巴巴、深度求索(DeepSeek)的开源路线引发全球开源浪潮,欧盟在巴黎人工智能行动峰会明确释放支持开源发展的信号,谷歌、微软纷纷开源前沿多模态模型,OpenAI同样释放将开源大语言模型的信号。总体来看,全球领先大模型企业纷纷加快开源布局,有利于降低AI领域创新壁垒,但开源风险成为短期重要未决议题;开源助力抑制美国拉大技术代差,欧盟借此寻求技术自主权,我国开源大模型出海机遇与挑战并存。对此,建议我国筑牢开源生态根基,构建安全可靠的产业体系,把握国际开源技术扩散的窗口契机,进一步拓宽人工智能技术与规则的海外输出路径。  
      关键词:人工智能治理;开源生态;产业出海   
      15
      |
      1
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 134147914 false
      更新时间:2025-11-15
    • 算力经济综合指数:理论内涵与评价分析

      李双杰, 杜春香, 王慧娟, 张馨予
      2025, 11(6): 35-46. DOI: 10.11959/j.issn.2096-0271.2025078
      摘要:作为数字经济的新形态,算力经济对推动数字经济高质量发展具有重要作用。为推动算力经济健康平稳发展,必须对算力经济的理论内涵进行深入分析,并构建衡量算力经济发展水平的统一标准。基于技术经济学视角,解析算力经济形成机制,界定其概念内涵与特征要素,构建涵盖基础设施、数字应用和高质量发展三维度的算力经济综合指数评估体系。结果表明,算力经济已成为带动数字经济发展的核心驱动力,但各地区算力经济发展不均衡,总体可以分为全面领先型、突破进取型和蓄势追赶型三大梯队。建议各地区可以围绕基础设施建设、应用繁荣、高质量发展3个方面持续发力,共同推动我国算力经济产业进一步成熟壮大。  
      关键词:算力经济;数字经济;高质量发展;综合指数   
      46
      |
      27
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 109257396 false
      更新时间:2025-11-15

      应用

    • 构建企业级人工智能高质量数据集:方法与路径 AI导读

      在人工智能领域,专家提出了数据集质量评估方法,构建了高质量数据工程体系,为我国数据集建设提供政策建议。
      姜春宇, 白玉真, 刘渊, 王超伦
      2025, 11(6): 47-56. DOI: 10.11959/j.issn.2096-0271.2025088
      摘要:当前,我国人工智能数据集面临质量评估方法缺失、能力建设体系不明确等挑战。梳理了人工智能数据集的构成和分类,结合结构化数据质量评估,提出一套人工智能数据集质量评估方法,并基于产业实践,提炼出企业高质量人工智能数据工程体系与能力建设路径。最后给出了我国建设高质量数据集的政策建议。  
      关键词:人工智能数据集;数据质量评估;人工智能数据工程   
      68
      |
      22
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 126195408 false
      更新时间:2025-11-15
    • 人工智能大语言模型数据集现状和充实对策研究 AI导读

      在人工智能领域,专家深入研究国内外大语言模型数据集,分析我国面临的挑战,提出对策建议。
      胡晓女, 李涛, 李姗姗
      2025, 11(6): 57-71. DOI: 10.11959/j.issn.2096-0271.2025085
      摘要:人工智能大语言模型训练数据通常具有数据规模大、数据质量高、数据类型丰富等特点。当前,国内数据资源虽然丰富,但优质中文大语言模型训练数据仍然稀缺,中文大语言模型训练数据的数量与质量,与全球领先国家的仍存在一定差距。基于国内外公开数据集、典型通用大语言模型数据集的情况,深入研究对比国内外大语言模型数据集的相关情况,分析我国大语言模型数据集发展面临的挑战和问题,提出充实人工智能大语言模型数据集供给的对策建议。  
      关键词:人工智能;大语言模型;数据集   
      10
      |
      2
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 134147916 false
      更新时间:2025-11-15

      研究

    • 大语言模型长文本推断优化技术综述 AI导读

      在大语言模型长文本推断领域,专家全面回顾优化技术,提出了模型、计算和系统优化方法,有效提升性能,为未来研究指明方向。
      陶伟, 王健宗, 张旭龙, 瞿晓阳
      2025, 11(6): 72-94. DOI: 10.11959/j.issn.2096-0271.2025067
      摘要:随着大语言模型技术的快速发展,其处理长文本输入的需求日益增加,但长文本推断面临内存消耗大和时延高的问题。为提高大语言模型在长文本推断中的效率,对现有优化技术进行了全面回顾和分析。首先,揭示了影响效率的三大关键因素:一是庞大的模型体量,二是具有二次计算复杂度的注意力机制操作,三是自回归式的解码策略。这些因素共同制约了模型的整体性能表现。随后,提出了一种分类方法,将优化技术分为模型优化、计算优化和系统优化,并详细介绍了量化、稀疏注意力、算子融合等关键技术。研究结果表明,这些优化技术能有效提升长文本推断的性能。最后,展望了未来研究方向,强调了进一步优化大语言模型长文本推断的重要性,以满足不断增长的长文本推断需求。  
      关键词:大语言模型;长文本推断;模型优化;计算优化;系统优化   
      25
      |
      22
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 109257920 false
      更新时间:2025-11-15
    • TDQE:一种面向深度学习的文本数据质量评估方法 AI导读

      在语言模型领域,TDQE评估方法通过Dropout生成随机子网络和文本相似匹配模型,全面衡量文本数据质量,性能优于主流算法。
      罗春旭, 熊海旭, 叶雅珍, 丁滟, 宗世泽, 熊贇, 朱扬勇
      2025, 11(6): 95-107. DOI: 10.11959/j.issn.2096-0271.2025073
      摘要:文本数据质量作为语言模型性能的重要影响因素,其评估方法对模型训练效果具有决定性作用。针对现有文本数据质量评估方法存在的计算成本过高与评估指标不全面的问题,提出了一种面向深度学习的文本数据质量评估方法TDQE。具体而言,TDQE利用文本摘要生成模型的Dropout生成一系列随机子网络,得到数据样本嵌入表示,捕获数据样本的语义一致性,用于评估样本的鲁棒性;利用文本相似匹配模型计算数据样本与其文本摘要之间的匹配度,用于评估样本的准确性;设计加权鲁棒性与准确性指标,用于衡量文本数据质量。在公开数据集上,将TDQE与主流训练数据质量评估算法进行对比实验,实验结果表明TDQE的性能优于对比算法。  
      关键词:深度学习;文本数据;数据质量;质量评估   
      42
      |
      23
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 111999072 false
      更新时间:2025-11-15
    • 基于图像分类规划学习的视觉故事生成模型 AI导读

      在视觉故事生成领域,专家提出了IC-PLVS模型,通过图像分类和规划学习,提升了故事生成效果。
      王元龙, 张宁倩, 张虎
      2025, 11(6): 108-122. DOI: 10.11959/j.issn.2096-0271.2025076
      摘要:视觉故事生成旨在通过解析和整合一系列给定的图像,创作出逻辑连贯、情节流畅的故事。现有的解决方案大多直接处理图像信息,虽引入了主题分析、知识图谱等方法,但在图像信息的处理上存在视角单一、弱化故事生成过程、缺乏结构化设计等问题。针对上述问题,提出了一种基于图像分类规划学习的视觉故事生成模型(IC-PLVS模型),引入图像分类和规划学习方法,将图像划分为人、动物、食物、自然景观、建筑、室内场景、其他7个类型,并针对每个类型设定对应的问题,利用视觉问答预训练语言模型生成设定问题的答案,完成规划设计,从而引导视觉故事生成。模型分为4个阶段:第一阶段从图片中提取视觉信息;第二阶段利用预训练语言模型进行分类,并引导规划信息生成;第三阶段更新数据集词汇信息;第四阶段融合以上阶段生成的视觉和规划信息,完成视觉故事生成任务。在公开数据集VIST上验证所提模型的效果,与现有模型COVS相比,其在BLEU-1、BLEU-2、CIDEr、Distinct-3、Distinct-4和TTR指标上分别提升了2.07%、4.29%、0.44%、1.78%、0.91%和1.07%。  
      关键词:视觉故事生成;图像分类;规划学习;视觉问答   
      32
      |
      14
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 126196918 false
      更新时间:2025-11-15
    • 融合多分组归并的券商数据Shuffle和数据倾斜算法 AI导读

      在证券行业,针对大数据计算中的Shuffle操作和数据倾斜问题,专家提出了基于用户关系的多分组归并算法MGMA,有效提升计算效率,降低资源消耗。
      曹亚坤, 唐小勇
      2025, 11(6): 123-142. DOI: 10.11959/j.issn.2096-0271.2025074
      摘要:在证券行业,用户数据处理和分析是核心技术,对业务决策和风险控制具有重要的影响。然而,证券公司庞大的用户数据规模和复杂的数据关系导致大数据计算面临Shuffle操作和数据倾斜问题。现有的Shuffle和数据倾斜优化方法或依赖于硬件升级,或存在领域局限性,难以针对性解决该问题。为此,基于证券行业用户数据的特点,提出了一种基于用户关系的多分组归并算法(multi group merging algorithm,MGMA)。该算法通过有效分组和优化处理策略,显著提升计算效率,并降低计算资源消耗。实验表明,相较于无优化对照组,MGMA算法的数据倾斜率为20%,内存占用为72%,计算用时为61%,且上述3项指标均优于其他4种对比优化方法。  
      关键词:Shuffle操作;数据倾斜;预处理;券商数据   
      16
      |
      43
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 111999042 false
      更新时间:2025-11-15
    • 深度图表示学习:方法、应用与挑战 AI导读

      图表示学习领域取得重要进展,专家全面综述了图表示学习方法,为解决图结构和特征捕捉问题提供解决方案。
      张旭龙, 瞿晓阳, 肖春光, 王健宗
      2025, 11(6): 143-165. DOI: 10.11959/j.issn.2096-0271.2025066
      摘要:图表示学习是近年来的一个重要研究领域,旨在生成能够准确捕捉图结构和特征的向量表示。这些向量在节点分类、链接预测和异常检测等下游任务中发挥着至关重要的作用。全面综述了图表示学习方法,将其分为传统的图嵌入方法和基于图神经网络(GNN)的方法;讨论了这些类别中的技术,包括矩阵分解、随机游走、图卷积网络和图Transformer;此外,深入探讨了GNN在异构图嵌入中的具体应用,涵盖了静态和动态方面,包括节点分类、链接预测和推荐系统等;最后分析了图表示学习的挑战和未来发展方向,包括可扩展性和动态性等。  
      关键词:图表示学习;图神经网络;图嵌入;异构图;深度学习   
      49
      |
      3
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 109257984 false
      更新时间:2025-11-15
    • 基于改进YOLOv8的矿井复杂环境小目标检测算法 AI导读

      在煤矿安全领域,研究人员提出了改进的YOLOv8模型,有效提升了安全帽检测精度,为矿井安全监测提供了新方案。
      彭森, 张珂珂, 杨一群, 魏巍
      2025, 11(6): 166-181. DOI: 10.11959/j.issn.2096-0271.2025075
      摘要:针对煤矿井复杂环境中因图像灰暗模糊、低照明导致小目标难以检测和误检等问题,提出了一种改进的YOLOv8模型用于煤矿井下安全帽佩戴检测,以提高检测精度。首先,在YOLOv8的主干网络中引入了SPD-Conv卷积层,增强了小目标的特征提取能力。然后,再将SPPF替换为SPPFCSPC模块,进一步增强多尺度特征信息。最后,在颈部网络中引入了注意力机制CoTAttention,以提高对关键特征的关注度。在矿井下图像数据集CUMT-HelmeT上进行训练和测试的结果表明,改进后的Model3模型相比原始YOLOv8n模型,在F1、P、R、mAP50、mAP50-95这5个关键指标上分别提升了9.08%、17.7%、3.8%、3.5%、1.9%。这些改进显著增强了模型在低照明、灰暗模糊条件下对小目标的检测能力,有效减少了漏检误检情况的发生。与YOLOv10-X模型相比,改进后的YOLOv8-X模型在F1、P、R、mAP50、mAP50-95方面分别提升了6.23%、4.7%、7%、3.9%、1.8%,进一步验证了改进模型在煤矿井下复杂环境中的检测性能优势。  
      关键词:YOLOv8;SPD-Conv;SPPFCSPC;注意力机制   
      200
      |
      37
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 112353938 false
      更新时间:2025-11-15
    0