资讯

鹏城AI靶场助力大规模高质量中文语料数据集安全开放

2022-09-02 15:52:07

数据作为数字经济的核心生产要素，只有将各地区各个领域间数据要素流通交易起来，才能够充分释放数据要素价值。

鹏城实验室率先开放大规模高质量中文语料数据集（鹏程·盘古语料数据集-1.1TB高质量中文语料数据、一带一路多语言语料数据集-1TB高质量多语言语料数据），研究人员可在鹏城AI靶场上安全使用数据，但无法带走数据。若用户不愿上传自身数据到鹏城AI靶场，可通过鹏城众智协同计算平台AISynergy使用本地语料数据与鹏城AI靶场数据进行联合训练或微调。

鹏城AI靶场是基于方滨兴院士提出的“数据不动程序动、数据可用不可见、分享价值不分享数据、保留所有权释放使用权”隐私保护新理念，由鹏城实验室新型网络部平台所研发的数据要素流通交易新型基础设施平台。

鹏城AI靶场提出了一个模型加工场的方法，其基本思想是要构造一个可信的执行环境，这个可信的执行环境不完全等同于传统的可信执行环境TEE。传统的可信执行环境是强调计算环境可信，不会被攻击。鹏城AI靶场把一些人为的因素放在里面，把社会工程因素放在里面，以构建一个安全可控的区域。这个安全可控包括人员可控，能落实责任制。如在政府部门或者国企里构造一个安全可控区域，再通过“数据不动程序动”“数据可用不可见”的方法来保证隐私。

在鹏城AI靶场架构中，数据拥有方需要把数据放到模型加工场里，数据所有者可以决定数据是否能够被平台所使用。

鹏城实验室网络智能部高效能云计算所团队与鹏城AI靶场团队联合研制了具有大规模语料数据安全保护功能的鹏城众智AI协同计算平台AISynergy 2.0版，可完成跨多个计算集群的协同计算作业，实现基于中国算力网（C2NET）的全新计算范式和数据隐私安全分布式业务场景，如跨域大模型协同训练与微调、多中心模型聚合、多中心联邦学习等。以下是典型应用场景介绍：

典型场景1：AI靶场上开放语料数据，用户可直接使用或上传数据到AI靶场完成联合训练场景

研究团队从Common Crawl、电子书、百科全书、新闻等广泛的资源中收集了大量的原始数据。

在此基础上，对数据进行多重过滤和清洗，确保处理后的数据具有高质量和多样性。经过复杂的预处理，得到大规模高质量中文语料数据集，这些语料数据集经过预处理后具有重要数据价值，但由于很难保证其中没有涉及敏感或安全隐私的数据内容，直接开放具有较大风险。

通过AI靶场，研究人员可安全使用这些语料数据，但无法带走数据，实现数据不流出，充分发挥语料数据价值，助推自然语言处理等基础研究的协作快速发展。

请参考示例：

【如何上传您自己的语料到靶场，与盘古部分语料进行联合训练？】

【多语言mPanGu,单机、多卡+单方、多方数据协同训练场景】

典型场景2：AI靶场上语料数据与第三方本地自有数据开展协同计算场景

若研究人员有自有语料数据，但不愿将自有数据上传至AI靶场，可以通过协同计算的方式进行训练。研究人员在AI靶场和本地分别进行模型训练，通过协同计算平台AISynergy，可完成跨多个智算中心的协同计算作业，实现多中心数据价值利用最大化及协同计算应用赋能新范式。

请参考示例：

【如何不上传您自己的语料数据，使用您本地的计算环境与鹏城AI靶场进行远程联网协同训练？】

AI靶场通过调试环境与运行环境分离体系架构以及仿真数据生成、隐私保护前提下的调试等创新技术，确保数据所有权和使用权分离，可以让更多的数据提供方敢于将其数据安全托管，让更多的数据使用方能够充分挖掘真实场景真实数据。

目前AI靶场依托以鹏城云脑为枢纽节点的中国算力网提供的强大算力资源，通过构建可信数据空间，以张榜打靶方式将数据安全开放，进而筛选具有核心竞争力的AI团队, 实现数据应用集智创新。

AI靶场目前已有力支撑了“2022年猛犸杯国际组学数据创新大赛”“昂楷杯第一届数据安全竞赛”“广东省网络安全协会数据挖掘大赛”、“深圳企业高质量发展评价指标体系”、 “腾景AI经济预测”等多个重要领域的数据安全开放。

鹏城AI靶场

大规模高质量中文语料数据集安全开放开源社区

启智社区，确实给力

资讯

鹏城AI靶场助力大规模高质量中文语料数据集安全开放