最新刊期

    2025年第11卷第1期

      专栏

    • 数界先声,十载华章 AI导读

      郑纬民
      2025, 11(1): 1.
        
      243
      |
      216
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 81059118 false
      更新时间:2025-01-15
    • 专栏:人工智能数据治理 AI导读

      2025, 11(1): 2.
        
      263
      |
      169
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 81059113 false
      更新时间:2025-01-15
    • 面向人工智能的数据治理框架 AI导读

      李继峰, 张成龙, 刘鑫, 陈劲宇, 张津铭, 毕超
      2025, 11(1): 3-20. DOI: 10.11959/j.issn.2096-0271.2025004
      摘要:数据对人工智能的开发应用具有至关重要的作用,这已成为工业界和学术界的共识。基于人工智能与数据的互动关系,以及以数据为中心的开发实践,提出面向人工智能的数据治理框架,包含源数据治理、预训练数据治理、评测数据治理、微调数据治理、推理数据治理和运维数据治理6个方面,每个方面都有其重点任务和技术。同时,深入分析ChatGPT、Ziya2和能源领域部分人工智能模型的数据治理案例和成功经验,以验证该框架的有效性。结果表明,该框架在提高人工智能模型性能、优化数据管理流程等方面具有积极作用,对面向人工智能的数据治理的理论和技术创新具有参考价值。  
      关键词:人工智能;源数据治理;预训练数据治理;评测数据治理;微调数据治理;推理数据治理;运维数据治理   
      980
      |
      495
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 81058966 false
      更新时间:2025-01-15
    • 基于图的异构数据集成方法研究 AI导读

      黄跃珍, 杨芬, 田丰, 张承业, 李雨婵
      2025, 11(1): 21-35. DOI: 10.11959/j.issn.2096-0271.2025002
      摘要:企业各部门对数据施行分散管理,烟囱式的系统建设使数据散落在异构数据库中,异构数据给当前数据集成工作带来了系列挑战。为解决企业异构系统数据汇聚融合的问题,提出一种基于图的端到端的数据集成框架。首先,根据关系型数据模型的主外键关系将表和字段的实体关系构建成网络图,将表名和字段名称分别看作图中不同类型的实体。然后,将构建的图输入图神经网络,经过图卷积得到图中各节点的向量表征,基于节点向量可计算任意所需匹配的两个图的节点映射关系。完成图中表和字段的对齐后,再将不同字段值标准化,即将每个单元格的值映射为标准值。最后,将以上结果工程化为数据库可执行的查询语句,从而实现异构数据融合。在企业内部的真实数据上进行验证,实验结果表明,文中所提框架能提高数据集成的开发效率,且该模型不受业务领域限制,具有较强的移植性。  
      关键词:数据集成;数据融合;异构数据;模式匹配;实体对齐;图神经网络   
      425
      |
      395
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 81058899 false
      更新时间:2025-01-15
    • AIGC独创性标准的构建 AI导读

      李祎恒, 张峥
      2025, 11(1): 36-44. DOI: 10.11959/j.issn.2096-0271.2025003
      摘要:随着生成式人工智能技术的普及,AIGC著作权的问题凸显。传统“工具论”和“贡献论”下的独创性标准适用于AIGC时尤显不足,必须构建更具可操作性的独创性标准。通过对著作权法的立法价值进行分析和对现行法律的规范进行研究,结合国内外司法案例的实证研究,提出“决定论”下独创性标准的构建。应当立足人类中心主义,坚持著作权主体的唯一性,将劳动投入作为权利基础,并引入英美法系因果关系理论,将人类对作品的呈现结果决定和创作过程控制作为充分必要条件。由此,“决定论”在对象、标准、法律、事实、因果关系上是自洽的,并能指导实践。  
      关键词:人工智能;AIGC;独创性标准;决定论   
      746
      |
      589
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 81058792 false
      更新时间:2025-01-15
    • 专栏:大数据与人工智能教育 AI导读

      2025, 11(1): 45.
        
      181
      |
      140
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 81059109 false
      更新时间:2025-01-15
    • 吕一清, 吴云峰
      2025, 11(1): 46-55. DOI: 10.11959/j.issn.2096-0271.2025005
      摘要:数字时代下经管类分析课程需要进行与时代相适应的教学改革,特别是将Python编程与大数据分析等新兴技术融入课程体系。通过对“Python经济金融大数据分析”课程的教学研究,发现现有课程存在内容过于理论化、考核方式单一化、缺乏对学生综合应用能力的培养等问题。为此进行了系列改革,如课程内容的更新与优化、教学方法的创新等。通过改革前后的问卷调查与考核对比发现,这些措施的实施有效提升了学生的编程能力和解决实际问题的能力。该教改方案对数字时代下相关课程改革具有参考意义。  
      关键词:Python编程;教学改革;大数据;经济管理   
      563
      |
      993
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 82080710 false
      更新时间:2025-01-15
    • 面向大数据专业人才培养的数字化案例资源构建 AI导读

      彭岩, 王洁
      2025, 11(1): 56-68. DOI: 10.11959/j.issn.2096-0271.2025007
      摘要:随着大数据产业的蓬勃发展,大数据相关专业的教育受到广泛关注。然而,实践教学与真实应用场景的分离成为大数据专业人才培养的一大挑战。为了解决这一问题,探讨了大数据专业核心课程数字化案例库的建设及其融入实践教学的创新方法,提出了构建系统化、系列化的数据资源案例库的路径。案例库构建采用动态分层设计,完整呈现大数据处理流程,支持动态扩展,旨在有效进行大数据相关专业的实践课程建设和实践教学,为大数据专业人才实践能力培养赋能。以高风险人口心脑血管疾病数字化案例为例,阐述了案例资源与理论教学融合的课程模式与课程实施过程。通过与国家级数据中心的合作,实现实践教学与真实应用场景的紧密结合。案例资源的建设将提升大数据专业学生的理论素养和实践能力。  
      关键词:数字化案例;大数据专业;实践教学;动态分层设计   
      339
      |
      779
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 81058819 false
      更新时间:2025-01-15
    • 基于华为MRS平台的大数据实践课程探索 AI导读

      辛宇, 李国庆, 钱江波, 严迪群
      2025, 11(1): 69-78. DOI: 10.11959/j.issn.2096-0271.2025006
      摘要:针对大数据实践教学中存在的大数据集群环境搭建、环境管理、组件兼容与硬件维护等教学难题,以华为MRS大数据平台为实践教学平台进行课程探索。论述了MRS大数据平台教学的优势,提出了“学、练、践、思”的改革思路,即理论教学、实验教学、综合实践、课程评价,并从知识体系、实验教学、综合实践任务、课程考核方式等方面介绍了教学改革的实施过程。该课程已在华为“智能基座”产教融合协同育人基地开展示范教学,有效提高了学生在大数据技术方面的自主研发能力与创新思维能力。  
      关键词:华为MRS平台;大数据教学;课程改革   
      250
      |
      376
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 81058790 false
      更新时间:2025-01-15

      研究

    • 大模型时代下的存储系统挑战与技术发展 AI导读

      冯杨洋, 汪庆, 舒继武
      2025, 11(1): 79-91. DOI: 10.11959/j.issn.2096-0271.2025001
      摘要:大语言模型(简称大模型)在文本和视觉处理等复杂任务中表现出色,受到工业界和学术界的广泛关注。大模型的训练与推理高度依赖于GPU算力,而GPU的显存容量有限且属于易失性存储介质,难以满足大模型在训练和推理过程中的存储需求。深入分析了大模型时代下存储系统面临的挑战:一是大模型的数据呈现高度碎片化特征,且大模型数据语义稀疏化显著,这降低了存储系统的利用率;二是大模型训练与推理对数据的读写带宽需求高,但异构存储介质间的数据传输通信开销大,这增加了利用异构存储介质扩展GPU显存的难度;三是大模型训练过程中的容错需求高,但直接使用以CPU为中心的容错技术会带来高昂的开销。针对上述挑战,从数据管理、存储扩容和数据容错3个方面总结了现有的解决方案。最后,展望了未来大模型时代存储系统的发展趋势。  
      关键词:大模型;存储系统;数据管理;存储扩容;数据容错   
      420
      |
      441
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 81058901 false
      更新时间:2025-01-15
    • 面向互联网数据互操作的授权技术综述 AI导读

      李颖, 李晓东, 费子郁, 彭博韬
      2025, 11(1): 92-116. DOI: 10.11959/j.issn.2096-0271.2025008
      摘要:互联网数据互操作可实现数据跨域互联和交换,其中授权是保障数据权属和安全的关键技术之一。数据跨域流通的复杂性对授权技术提出了更高的可用和可信要求,亟须面向互联网数据互操作展开授权技术研究。首先,简述授权技术的基础概念和知识,分析互联网数据互操作对授权提出的技术要求;其次,从信任机制、权限模型、策略管理3个方面分析现有授权技术能力;最后,针对现有授权技术能力的不足,提出一些潜在的研究问题,旨在为后续研究提供思路和参考。  
      关键词:数据互操作;跨域数据交换;授权协议;信任机制   
      220
      |
      393
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 81058817 false
      更新时间:2025-01-15
    • 沙尘图像视觉增强技术综述 AI导读

      司亚中, 张旭龙, 杨帆, 王健宗, 程宁, 肖京
      2025, 11(1): 117-134. DOI: 10.11959/j.issn.2096-0271.2025009
      摘要:沙尘图像视觉增强技术旨在提高沙尘暴天气下成像设备捕获数据的视觉感知清晰度,以辅助高级视觉算法提高从数据中获取关键特征的能力。随着沙尘天气出现频次的增多,沙尘图像视觉增强技术逐渐成为图像处理领域的研究热点,在遥感勘测、无人驾驶、智慧交通等人工智能相关行业有着十分广泛的应用前景。为了更好地了解当前沙尘图像处理领域的研究进展,详细阐述了基于传统技术的沙尘图像增强算法和基于大气散射模型的沙尘图像复原算法,总结了基于数据驱动的沙尘图像重构算法,对当前公开数据集的构建进行了细致的研究和分析,并简单梳理了图像增强领域常用的评价指标。最后对所述内容做出总结,指出当前研究中存在的困难,并对未来沙尘图像增强技术的发展方向进行了展望。  
      关键词:图像增强;沙尘图像;计算机视觉;深度学习   
      304
      |
      309
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 81058786 false
      更新时间:2025-01-15
    • 基于时间序列的非周期预测模型 AI导读

      曹建文, 委兴宝, 杨裔, 李彩虹, 赵文清
      2025, 11(1): 135-149. DOI: 10.11959/j.issn.2096-0271.2025010
      摘要:在实际应用中,纯周期性的数据相对罕见,大多数数据往往表现出非周期性特征,难以通过简单的周期性变化进行预测或描述。而单一神经网络在处理非周期性时间序列时往往面临过拟合、长时依赖捕获困难、非线性关系捕获有限等问题。为了有效地对非周期性时间序列进行预测,基于Informer模型提出了ILTNet模型。ILTNet模型结合线性预测(AR模型)和非线性预测(Informer模型与循环跳跃组件),能有效捕获长期依赖关系。实验证明,与LSTNet、Informer、AR以及GRU模型相比,ILTNet模型在非周期时间序列预测上表现出显著优势。例如,在Exchange Rate数据集上,ILNet模型相对于LSTNet模型,在步长为96和128时将RSE分别降低了0.0333和0.0277,相对于Informer模型在所有步长下,RSE均有显著降低,尤其是在步长为96时将RSE降低了0.2877。  
      关键词:多变量;时间序列预测;卷积神经网络;LSTNet;Informer   
      314
      |
      573
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 76441815 false
      更新时间:2025-01-15
    • 基于云边多数仓架构和代价预测模型的查询调度 AI导读

      高叙宁, 杨松, 李明哲, 张岩峰
      2025, 11(1): 150-166. DOI: 10.11959/j.issn.2096-0271.2025011
      摘要:随着云计算和大数据的发展,传统的本地数据仓库面临着扩容困难、数据处理效率低下的问题,由此云边架构的数据仓库应运而生。该架构的数据仓库分布在云中心和边缘端,使数据存储和处理更加灵活,在保证查询效率的前提下,为数据安全、数据隐私和跨地域数据共享等业务提供支持。设计基于云边多数仓的调度框架,集成以机器学习技术为核心的查询代价预测模型,实现了在多个查询粒度上的云边协同执行和云边择优执行,提高了系统的整体性能和查询效率。此外,提出了有利于查询代价信息增强的多特征融合和特征筛选方法。此调度框架和优化算法在SSB和TPC-DS数据集上均表现出显著的性能提升,为云边多数仓架构下的数据仓库查询调度提供了有效的解决方案。  
      关键词:云边多数仓;调度框架;查询代价预测;随机森林;特征筛选   
      171
      |
      263
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 81058865 false
      更新时间:2025-01-15

      论坛

    • 生成式人工智能的算法伦理难点分析与探索 AI导读

      施敏, 杨海军
      2025, 11(1): 167-174. DOI: 10.11959/j.issn.2096-0271.2025013
      摘要:自2022年下半年以来,生成式人工智能技术和产业快速发展。聚焦生成式人工智能技术所用的生成式算法,结合相关法规规范,提出“生成式算法三定律”伦理原则。结合其技术特点,对实践中存在的伦理难点开展分析,并初步探索并提出解决框架。  
      关键词:生成式人工智能;大语言模型;生成式算法;算法伦理   
      657
      |
      754
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 81058789 false
      更新时间:2025-01-15

      专栏:信息技术应用创新:系统与软件

    • 图模融合:人工智能系统事实表达和逻辑推理增强 AI导读

      杨娟, 沈游人
      2025, 11(1): 175-190. DOI: 10.11959/j.issn.2096-0271.2025014
      摘要:知识图谱通过图结构组织和表达实体关系,为机器理解和推理提供了基础,但推理能力受限于覆盖范围和人工规则。大模型展现了强大的语义理解和生成能力,但缺乏对符号知识的有效利用和可解释性。近年来,学术界和产业界致力于探索知识图谱与大模型的结合,以融合两者优势,构建更强大且可解释的人工智能系统。首先,梳理了知识图谱与大模型融合的研究现状,重点介绍了两种技术融合在事实表达和逻辑推理增强方面的主要研究成果,包括基于知识图谱的预训练语言模型、基于大模型的知识图谱表示学习以及二者融合的推理方法。然后,对产业界当前图模融合的主流技术路线和应用场景进行了介绍。最后,对图模融合未来的发展方向进行了展望,并且提出两者融合是人工智能的重要发展方向之一。  
      关键词:知识图谱;大模型;图神经网络;机器推理;预训练;注意力;图表示学习   
      408
      |
      385
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 81059048 false
      更新时间:2025-01-15

      专家视点

    • 数据要素市场与数据产品市场 AI导读

      2025, 11(1): 191-195. DOI: 10.11959/j.issn.2096-0271.2025015
        
      482
      |
      231
      |
      0
      <HTML>
      <网络PDF><WORD><XML><Meta-XML>
      <引用本文> <批量引用> 81059107 false
      更新时间:2025-01-15
    0