1. 中国人民大学信息学院,北京 100872
2. 数据工程与知识工程教育部重点实验室(中国人民大学),北京 100872
[ "杜小勇(1963-),男,博士,中国人民大学信息学院二级教授、学术委员会主任、博士生导师,中国人民大学校长助理,数据工程与知识工程教育部重点实验室(中国人民大学)主任。兼任教育部科学技术委员会信息学部委员,国家重点研发计划“云计算与大数据”专家组成员,中国计算机学会常务理事、教育工作委员会主任、数据库专业委员会主任,《大数据》期刊副主编,全国信息技术标准化技术委员会大数据标准工作组副组长等。曾担任中国人民大学信息学院院长,国家“863”计划数据库重大专项专家组组长,国家“863”计划软件重大专项专家组成员等。先后获得国家科技进步奖二等奖,北京市科技进步奖一等奖,教育部科技进步奖一等奖,中国计算机学会科学技术奖一等奖等奖项。" ]
[ "陈跃国(1978-),男,博士,中国人民大学信息学院教授、博士生导师,中国计算机学会高级会员,数据库专业委员会委员,大数据专家委员会通讯委员。主要研究方向为高性能大数据分析系统和语义搜索。主持国家自然科学基金重点项目1项。广东省科技应用重大专项1项,近年来在SIGMOD、SIGIR、ICDE、AAAI、TKDE、WWW等国际重要会议和期刊上发表论文20余篇。" ]
[ "范举(1984-),男,博士,中国人民大学信息学院副教授、硕士生导师,中国计算机学会会员,数据库专业委员会委员,主要研究方向为大数据分析、数据集成与众包计算。先后在SIGMOD、VLDB、ICDE、TKDE等国际重要会议和期刊上发表论文30余篇。担任国际重要会议SIGMOD 2020、VLDB 2018/2020的程序委员会委员。" ]
[ "卢卫(1981-),男,博士,中国人民大学信息学院副教授、硕士生导师,中国人工智能学会智能服务专业委员会委员。近年来主要从事数据库基础理论、大数据系统研制等相关领域的研究,先后在SIGMOD、VLDB、ICDE、SIGIR、AAAI、VLDB Journal、TKDE等国际重要会议和期刊上发表论文30余篇,主持和参与多项国家自然科学基金项目。" ]
网络首发:2019-05,
纸质出版:2019-05-15
移动端阅览
杜小勇, 陈跃国, 范举, 等. 数据整理——大数据治理的关键技术[J]. 大数据, 2019,5(3):2019020-1.
Xiaoyong DU, Yueguo CHEN, Ju FAN, et al. Data wrangling:a key technique of data governance[J]. Big Data Research, 2019, 5(3): 2019020-1.
杜小勇, 陈跃国, 范举, 等. 数据整理——大数据治理的关键技术[J]. 大数据, 2019,5(3):2019020-1. DOI: 10.11959/j.issn.2096-0271.2019020.
Xiaoyong DU, Yueguo CHEN, Ju FAN, et al. Data wrangling:a key technique of data governance[J]. Big Data Research, 2019, 5(3): 2019020-1. DOI: 10.11959/j.issn.2096-0271.2019020.
数据是政府、企业和机构的重要资源。数据治理关注数据资源有效利用的众多方面,如数据资产确权、数据管理、数据开放共享、数据隐私保护等。从数据管理的角度,探讨了数据治理中的一项关键技术:数据整理。介绍了以数据拥有者和直接使用者(行业用户)为核心的数据整理的关键技术,包括数据结构化处理、数据质量评估及数据清洗、数据规范化、数据融合与摘取、数据整理的发布共享等。最后,针对加强数据整理方面的研究提出了一些思考。
Data is an important resource for governments
businesses and institutions.Data governance focuses on many aspects of effective use of data resources
such as data asset
data management
data sharing
and data privacy.A key techniquedata wrangling-in data governance from the perspective of data management was explored.The key technologies of data wrangling based on data owners and direct users-industry users were emphasized
including data structure processing
data quality assessment and data cleaning
data normalization
data fusion and extraction
data publishing and sharing
etc.Finally
some thoughts on strengthening the research on data organization were put forward.
HELLERSTEIN J M , HEER J , KANDEL S . Self-service data preparation:research to practice [J ] . IEEE Data Engineering Bulletin , 2018 , 41 ( 2 ): 23 - 34 .
HEER J , HELLERSTEIN J M , KANDEL S . Data wrangling [M ] // Encyclopedia of big data technologies 2019.[S.l.:s.n] . 2019 .
LI G L , ZHENG Y D , FAN J , et al . Crowdsourced data management:overview and challenges [C ] // The 2017 ACM International Conference on Management of Data,May 1419,2017,Chicago,USA . New York:ACM Press , 2017 : 1711 - 1716 .
DOAN A H , ARDALAN A , BALLARD J R , et al . Toward a system building agenda for data integration [J ] . IEEE Data Engineering Bulletin , 2018 , 41 ( 2 ): 35 - 46 .
宋晓宇 , 王永会 . 数据集成与应用集成 [M ] . 北京 : 中国水利水电出版社 , 2008 .
SONG X Y , WANG Y H . Data integration and application integration [M ] . Beijing : China Water and Power PressPress , 2008 .
ABEDJAN Z , CHU X , DENG D , et al . Detecting data errors:where are we and what needs to be done [J ] . Proceedings of the VLDB Endowment , 2016 , 9 ( 12 ): 993 - 1004 .
BOHANNON P , FAN W F , GEERTS F , et al . Conditional functional dependencies for data cleaning [C ] // 2007 IEEE 23rd International Conference on Data Engineering,April 15-20,2007,Istanbul,Turkey . Piscataway:IEEE Press , 2007 : 746 - 755 .
CHU X , ILYAS I F , PAPOTTI P . Holistic data cleaning:putting violations into context [C ] // 2013 IEEE 29th International Conference on Data Engineering (ICDE),April 8-12,2013,Brisbane,Australia . Piscataway:IEEE Press , 2013 : 458 - 469 .
CHU X , MORCOS J , ILYAS I F , et al . KATARA:a data cleaning system powered by knowledge bases and crowdsourcing [C ] // The 2015 ACM SIGMOD International Conference on Management of Data,May 31-June 4,2015,Melbourne,Australia . New York:ACM Press , 2015 : 1247 - 1261 .
YAKOUT M , BERTI-ÉQUILLE L , ELMAGARMID A K . Don’t be scared:use scalable automatic repairing with maximal likelihood and bounded changes [C ] // The 2013 ACM SIGMOD International Conference on Management of Data,June 22-27,2013,New York,USA . New York:ACM Press , 2013 : 553 - 564 .
REKATSINAS T , CHU X , ILYAS I F , et al . HoloClean:holistic data repairs with probabilistic inference [J ] . Proceedings of the VLDB Endowment , 2017 , 10 ( 11 ): 1190 - 1201 .
0
浏览量
2630
下载量
0
CSCD
关联资源
相关文章
相关作者
相关机构
京公网安备11010802024621