黄铁军《坚持开源开放原则,筑成新一代人工智能》

演讲者:黄铁军,OpenI技术委员会主席

演讲速记(根据现场演讲整理,未经演讲者确认)

    各位早上好!我稍微系统地给各位汇报一下OpenI的背景和进展的情况。
    中国的人工智能发展是有国家的体系化的一个推进的安排,具体来说就是2017年7月20号发布的《新一代人工智能发展规划》,这是国务院发的一个文件。在这个文件里面,大家关注比较多的就是中国在2020年人工智能要达到与世界先进水平同步,2025年要达到世界领先水平,2030年总体达到世界的领先水平。但是怎么实现这样一个目标,媒体上报道的并不多。事实上达到这个目标的路线,在规划里面也是有的,因为这个规划文件很长,今天我不展开讲这个规划,这里面讲了中国推进人工智能的四条原则:科技引领、系统布局、市场主导、开源开放。这16个字告诉了我们怎么实现刚才这样一些战略目标。具体今天说到其中一个原则,就是开源开放。中国的人工智能发展,并不像有人想象的,我们要组织多少团队,在一些方向上领先,这也是一种路线,但是这是不全面的,如果说全面的话,开源开放的原则下,大家一起来共同建设一个体系化的AI技术体系,这才是我们要达到目标的一个更重要的布局。所以今天我们要落实的就是这样一个原则,按照这样的原则的基本思想指导下进行。
    在2017年7月20号发布了《新一代人工智能发展规划》,7月23号就成立了新一代人工智能产业技术创新战略联盟。这个联盟给自己赋予了一个使命。当然联盟本身是在科技部,在国家的指导下成立的。你要做什么?千头万绪,可以说联盟产学研资用各方面的事情都可以用,都应该做,但是最核心的是抓什么东西,怎么把这些工作组织起来,我们当时成立的时候就很明确,新一代人工智能产业连们所有的核心工作就是建设人工智能的开源开放平台,用这个平台来把刚才说的产学研资用各方面的社会力量汇聚在一起,来支撑国家新一代人工智能规划的落实。
    (见PPT)这个图看着比较粗糙,这是2017年7月23号画的,当时刚刚开始,但是基本思想很清楚。
    在2017年11月15号,科技部举办了新一代人工智能重大项目第一次的启动会。实际上这是一个部际联席会,不光是科技部,而是在整个国家的科技体制改革和创新体系领导小组组织下举行的会议,由科技部牵头组织,在这个会上我代表联盟做了汇报,汇报的核心思想就是联盟支撑国家规划落地的核心工作叫“一体两翼”,体就是新一代人工智能开源开放平台,两翼是各种工作组和推进组。
    在今年6月份,科技部有一本期刊《前沿科学》报道了我们国家新一代人工智能的进展,当时跟我约稿,我写了一篇文章,我今天的题目也是来自这篇文章,叫做“坚定开源开放原则,筑成新一代人工智能”。因为经过了差不多两年的进展之后,大家对中国的人工智能怎么发展有很多的讨论,到底是开放还是封闭,到底是开源还是回到封闭的老路上去,大家有不同的看法。我用这个词的意思就是坚定开源开放原则,不仅是开源开放,而且要更开放,这是当时定的原则,我们不能说两年之后国内外形势有一些变化,我们就退缩了,不应该这样,应该更坚定地做开源开放。而且开源开放不仅仅是一个机制,它就是建成新一代人工智能最重要的一套推进的体系,它本身就是一套技术体系。所谓中国新一代人工智能,到2025年、2030年大家想象的人工智能是什么,当然这里面有一些科技的亮点,有一些重大的成果,但是它首先是一个整体,是一个技术的体系,这个体系才是新一代人工智能,它不是几个闪光的点,它是像一个城市一样,是一套坚实的体系。
    为什么要这么做?当时分析了这么几个点:第一是为什么要做开源开放,有很多的理由,我认为最重要的理由有两个,一是只有通过开源开放的方式,才能把技术的辐射性发挥出来,才能把国家的投入、社会的投入,以及大家的智慧,能发挥最大的效应,这是显然的。我们不能再走回一个公司做一个产品,自己保密,靠一件一件产品盈利的老路上。二是AI跟别的技术不同,AI是一个难以透彻理解的技术,在AI之前所有的技术,包括我们的算法系统,是可以理解它背后的原理和过程的是完全可控的,但是AI具有难以透彻理解的特性,它越发展,挑战越大。就像今天的深度学习工作得很好,大家就说我们要研究它可理解、可解释,就变成了一个理论问题。因为不知道为什么工作那么好,但是它的性能很好,大家在实践中就去用。这样一种现象在未来不管什么样的AI新的方法模型,还会持续下去,因为它是智能的,智能是一种功能,是一种现象,它背后的机理的理解,是在我们探索智能科学和技术过程中要永远面对的一个问题,这样一个技术在现实中应用,因为存在一个不能透彻解释的特性,你还让老百姓去用,你还不开放,然后你自己说这是一个黑箱子,这是一个模块,只有我自己知道,你用吧。大家敢不敢放心去用?所以如果从理论上做不到可解释、透彻地理解它,至少我们在技术上要做到开放,让大家心里清楚这里面没有暗藏什么东西,它只是一个技术,技术有这么一个属性,我们科学家可以去解释它、探索它,但是技术上绝对不能再封闭,封闭的东西是不可能有生命力,让大家广泛使用的。
    第二是如何做好开源开放,就是开源快速的组织问题,实际就是要联合在一起,某种程度上要放弃一部分个体与企业的商业利益,而让大家能够分享,能够共享、共建,发挥最大效应。这个思维方式在开源社区大家是比较认同的,但是在整个社会领域,特别是在中国现在这样的状态下,大家对开源可能用的多,贡献的相对少,还是要大家一起来持续推动。
    第三是以开源开放提升创新质量。开源开放以前也存在,但是以前的开源开放和科技创新之间的关系通常是两张皮的,这种两张皮的现象,希望通过AI这样一个新的领域,能够结合在一起。事实上我们讲科研,确实有很多高水平的研究团队在努力地做创新工作,但是确实也有一部分团队是拿项目作为目的,而不是以研究创新作为目的的,这种现象在中国也不少见,我们希望通过开源的方式,把这一类的项目淘汰下去,不是为研究而研究,一定要做有意义、有价值的研究,一定要开放。去年新一代人工智能重大科技项目,以及今年马上要发布的重大科技项目的指南都很明确地提到,特别是搞理论研究的,必须要开源。你本来就是一个无人区或者是号称前沿的探索,你不告诉别人你在做什么,等到几年之后交个报告,就说自己做得怎么样,这是有问题的。现在是一个开放的时代,你一开始就应该打开这个过程,我们通过开源开放实际上是在提升创新质量,真是一流的研究,你不怕大家去知道、了解,甚至去参与、贡献。只有那些自称很好,事实上没有什么东西的研究,才不敢开源开放。我们也希望通过这种方式,特别是通过跟科技部和相关政府部门,在做后续国家项目的推进过程中,国家出的钱,或者是地方政府出的钱,公共资金做的东西,你有什么理由要把它封闭在自己手里?你愿意自己做,不愿意用公众的钱,那没问题,你爱做什么就做什么,你既然拿公众资金,你就应该开源开放,通过这种方式把那些低水平重复的工作、把那些没有实质性创新的工作淘汰掉,来实现更高质量的创新,这也是我们要坚持开源开放的一个很重要的理由。
    在国家新一代人工智能重大科技项目的部署中,本身软件、硬件的体系就是很重要的一部分,它也是连接研究团体社区和开发应用,以及全社会的一个很重要的渠道,这条原则会在未来十多年的科技创新2030重大科技项目中不断地贯彻下去。所以大家做开发并不仅仅是传统的做一个操作系统或者代码的开发,它跟我们AI的研究结合得越来越密不可分。
    (见PPT)这就是刚才讲的“一体两翼”,这个图就比7月23号那个图跟好看一点了,但是基本思想是一样的。
    在去年新一轮人工智能重大科技项目的落实中,还有一个词大家在媒体上也看到过,叫“开放创新平台”,由5家企业承担了国家新一代开放创新平台,这5家企业是:百度、阿里、腾讯、讯飞、商汤,大家从不同的方向推动创新。开放创新肯定不等于开源,并不是说这些企业做的所有的东西都要开源,但是他们也要开放,形成产业链,但是其中一部分是开源的,虽然一开始的时候有的是开源,有的不开源,但是随着它往下发展,他们其中有一部分,特别是公共部分是要开源的。为什么要开源?他们相互之间要打通,要合作,要为社会整个人工智能的发展提供公共的平台。除了这些领头企业之外,全世界做开源的企业,包括做研究的机构非常多,你怎么让这些机构能够深度地介入到这样一个开放创新过程?你一点都不开源,怎么可能做得到?除非你是一个垄断一切的企业。但是我们今天没有这样的企业能够垄断一切,它都是这个社会创新的一个节点、一个部分,所以它一定程度上一定是要开源的。这些开源的部分和我们刚才讲的开源会形成一体,就像一个热带雨林一样,有的树比较大,有的植物相对比较小,但是最终的根系是连接在一起,在一个共同的生态里生长。
    为了做好这件事情,2018年3月31号联盟组织了OpenI许可证,当天就发布了,这个许可证本身的一些政策也一直作为讨论的对象在讨论,今天我们还会有一个新的颁布,今天不是发布,是在进行中,大家感兴趣的可以参与它的维护和更新。
    从2018年3月31号发布许可证到今天,不到两年的时间里面,联盟组织了大量的工作,开了很多会,我就不一一说了,今天是一系列会议中最大规模的会议。
    (见PPT)这都是我们在进行的一系列的活动。
    我们现在是一个开源开放的社区,在这个社区里面我们有一套体制,有一套运行的机制,总体来说我们这是由会员组成的一套体系,这里面包括核心成员、高级成员、普通成员和合作伙伴。谁是高级、谁是核心,这就以贡献论英雄,大家在建设这样一个平台和构建这个社区的过程中,你的领导力是逐渐体现出来的,单位的贡献也是逐渐累积,大家都看得到的,根据这些贡献逐渐形成我们的领导的体系。
    保障这套体系背后的就是一些规则、文件和大家形成的共识,现在体系化的系统也已经建立起来了。
    我今天是代表技术委员会来跟大家作报告,技术委员会已经做了很多背后的技术讨论。我在北大工作,更多的是搞研究,做一些科研方面的事情,一开始为了把这件事情推动,所以我先牵头组织。我们技术委员会的曾炜是鹏城实验室的,马艳军来自百度,黄之鹏来自华为,余岳是国防科大,刘祥龙来自北航,曹祥来自微众。我们这些委员是第一届委员,目的是把工作先做起来,我们是根据前期的工作坐支的委员会,我希望后面有更多的贡献之后,我们会逐渐的一个一个被替代掉,将来大家凭贡献来进入这个技术委员会,第一批委员是为了先把这个事情做起来而启动的。
    从今年1月27号筹备这个技术委员会,讨论OpenI背后技术的重要技术问题开始,我们正式的会议已经开了5次,进行了十几次讨论,多数是通过视频会议的方式,因为大家来自全国不同的地方、不同的单位,很难集中在一个会场,通常都是采用视频会议来进行讨论。1月份开了第一次会议,后来又举行了几次重要技术问题的讨论会议,7月份是我们的第二次会,其实上半年也开了好多会,7月19号开的是第二次正式的会议,在这次会议上把我们的技术架构建立起来,9月份的会上我们讨论了生态,怎么去建好一个开源的生态。最近这两次会,一个今天的大会,另外一个是关于激励机制怎么建立起来的讨论。
    第一届技术委员会成员主要是来自贡献比较多的单位,包括鹏城实验室、智源、北大、国防柯达、华为、百度和微众银行,还有其它的单位也在做贡献。(见PPT)下面这些Logo是贡献比较多的单位。
    (见PPT)这是6月份确定的,也正在支撑OpenI运行的技术体系。我们可能跟大家通常理解的开源有区别,OpenI既不是像github那样支持各种各样开源项目的管理平台,又不是一个具体类似TensorFlow这样的开源框架,它是围绕AI的一批开源项目,而且这些开源项目不仅仅是要管理,支持大家在线开发,它还要运行。它不是一般的代码开发,机器编译运行就可以了,OpenI还需要强的算力支持一个大的模型运行。所以我们在建立这个体系的时候,基础设施就不仅仅是通常的云计算或者是自己的机器就可以了,而是要有一个基础的系统,这个基础的系统包括两个方面,(见PPT)蓝色的部分是训练平台,算力很强的,你有一个大模型,它也能给你很快算出来,橙色的部分是运行的,通常大家理解的云设施。目前提供算力最大的是来自鹏城实验室的云脑1号、2号。通常你要是开发一个AI的模型,是在深圳计算的,现在也有一些设施,但是联网、分布式调度正在进行中的,会在全国各地陆陆续续上线,提供更多的计算能力。华为云是我们用的开发体系,因为大家都是在全国各地,在各个单位参与开发,通过华为云来提供支撑服务。
    另外我们这个开源本身也在做新硬件,刚才说的都是用成熟的硬件做的,但是新的人工智能的基础硬件、开源的芯片也是我们开源体系的一部分,当然这还在起步阶段,正在进行,希望有一天它能够成为支撑我们整个体系运行的重要的组成部分。
    (见PPT)这是9月25号开始的OpenI开源芯片的项目,这是一个层次,偏基础设施的层次。中间层次是软件环境,包括三个方面,一是运行环境,就是为AI的训练提供的基础的软件环境,章鱼、珊瑚这本身是开源项目,同时它也是支撑我们运行的两个重要的项目。还有开发环境,就是启智、磐石和华为软开云构建的环境,大家可以在上面上载、调试代码。还有一个是数据环境,因为AI特别是大数据类的AI,需要很多数据的共享、交换和分布式的训练,我们有一个数据协同环境,这是6月18号上线的,叫做OpenI纵横,它自身也是一个开源项目,同时它支撑OpenI数据方面的任务。最上层是大家熟悉的开源框架,比如机器学习的框架飞桨,这是百度贡献的框架,还有视频的开源项目,后续还有一系列的项目。
    大家看我们过去一两年时间构建的平台,主要是底下的基础设施,它本身又是开源的,大家可以对这些基础的东西不断地更新、贡献,使得这个平台越来越强大,当然我们也欢迎更多的开源项目出现。
    章鱼智能资源管理系统、珊瑚是异构资源集群的调度,群体化协同创新开发的启智磐石项目,联邦学习数据管理的OpenI纵横项目,基于深度学习的视频编码的海参项目,人工智能开源芯片海藻项目、深度学习的框架飞桨,以及飞桨上深度学习的可视化,还有强化学习,这是我们目前已经上线的主要项目。
    整体我们有一个社区,这套社区体系基本上是完整的,也希望大家在未来的工作中继续完善这样一个体系,促进更多的开源项目的培育、孵化、成长。
    刚才讲了启梦计划,实际上是激励,也是近期技术委员会讨论的一个很重要的任务,就是怎么来更好地激励大家,支持大家开源开放的工作。以前开源很多的动力,来自于志愿者,大家天生就愿意做这件事情,也来自一些企业的支持。既然新一代人工智能是国家支持的重要组成部分,所以这个支持范围比传统的更广泛,包括刚才提到已经提供支持的鹏城实验室等等核心成员单位,可能几天之后就会有国家科技部、发改委的支持启动。这些国家的力量、企业的力量、社会的力量怎么作用到贡献者,这就涉及到怎么激励大家,激励也是社区建设的一个重要的组成部分,我们刚才说的都是源头,这些资源来了,比如说国家的项目来了,有这些核心单位牵头启动,最终它要落实到一个一个贡献者身上,这就是所谓的激励计划,这套体系正在建立过程中,我们希望真正的能够让这些愿意支持开源的资源用到对开源支持的技术人员的身上,这就是启梦计划的一个基本的想法。当然贡献大和小,怎么去衡量,我们在社区里边建立这套体系之后,刚才讲的这些资源就可以按照这些贡献去匹配和落实到位。
    开源许可证从去年3月份发布之后,到现在一直在讨论,因为它是一个法律性很强的规则,尽管篇幅很长,但是它决定了我们将来这些代码怎么用,将来商业化使用是不是存在一些约束,以及大家贡献怎么来更好地体现,这样一些最核心的权益,这也是社区里面在讨论的很重要的组成部分,到今天为止有一个2.0的Alpha版,在这两天的会议期间大家也可以就这个问题进行讨论,后续有更多的时间,还可以讨论。
    主要的基本思想,我们的许可证不像以前仅仅是对代码的管理,在云计算的时代,并不是把代码拿去开发一个产品,很多本身就是服务,所以在这个时代怎么来做好开源的管理非常重要。
    总结一下,从当初把开源作为一个联盟的核心工作,到现在已经把整个体系建立起来了。这里面大家能看到一系列开源的项目,中间的开源就是驱动我们整个联盟运行的核心力量。还有一个是标准,今天没有时间展开讲,但实际上标准是三个月举行一次,现在已经是开了第7次会,马上就要开第八次标准的会。我们开源的有些关键的技术、关键的接口需要跟包括非开源的接口进行互联互通的时候,就要通过标准的方式去做了。联盟是国家团体标准的制定单位,也是国家标准,我们做的团体标准可以通过绿色通道上升为国家标准。这是国家标准委给我们的一个责任,这两个结合在一起,会对将来的产业整个生态发挥一个重要的作用。 联盟工作组、推进组,这些方面也做了很多的推动工作。
    这套体系建立起来以后,我们一个社区,我们从底下的理论、技术、体系,这是传统的国家和地方的项目支持的,中间就是开源开放平台,包括平台本身,以及我们的社区体系,上面有一套治理体系,比较偏软性的,但是这也是我们长期发展的一个很重要的基础,希望为中国的人工智能发展,为全世界的人工智能发展构建一个良好的生态。
    开源开放,共建共享,久久为功,这是一个长期的任务,希望通过我们这样一个体系为中国人工智能2030世界领先做出我们的基础性的贡献。