王坚:计算驱动的科学发现与科学创新

计算驱动的创新将重新创造21世纪的一切。计算由计算密集型、数据驱动和基于模型三部分组成。从物理和语义的角度来看,计算都在迅速发展,其中云计算将发挥至关重要的作用。相对于以前的假设驱动的方法,数据驱动的发现是一种新的研究范式。基于模型的研究为科学研究提供了新的方法。

感谢CCF理事长梅宏院士、CNCC2023大会主席孙凝晖院士提供机会让我来到这里,我感到很激动。令我更激动的是,我今天遇到了几位把我带到这个领域的老师——赵沁平和高文老师,正是因为这些前辈的帮助才让我从心理学专业进入了云计算领域。

CNCC对我来说,有很特殊的意义。我第一次参加CNCC是在2009年的天津,当时也作了特邀报告,那次报告是我第一次认真地和很多人讲在接下来十年我要好好地做云计算,后来这个特邀报告被整理成了一篇文章,刊登在CCCF上,这大概是我为做云计算立下了一个“字据”。

让我印象更深的是,我在大家的支持下担任了CNCC2010的大会主席。CNCC2009 有600余人参加,当时大家说这个大会应该至少有一千人参加才对。我与时任 CCF秘书长杜子德打赌,说我当大会主席的时候会有超过一千人参加,结果 CNCC2010的参会人数确实超过了一千。那么今天现场有多少参会者呢?数量是很“惊人”的,这就是十几年的变化。

计算与电气化

回到话题的起源——计算驱动的科学发现和创新。在这之前,科学发现和创新是被什么驱动的?在20世纪最后一年,美国工程院做过一个关于“20世纪最伟大的技术发明是什么”的调查,第一项是“Electrification”——电气化(见图1)。大家会感到怀疑:电气化到底算不算一个技术发明?因为它实在太普遍了。今天室外阳光明媚,而我们在一个完全由人工照明的环境里开会,如果没有电气化这是无法实现的。

图1 20世纪最伟大的技术发明成果

图1中罗列了其他一些技术发明,如激光、互联网、计算机,但这些发明都排在电气化之后。这意味着如果没有电气化,图中的很多发明可能都不会存在。电气化带来了后面所有的变革,这对人类社会意义非凡。

整个20世纪是被电驱动做创新的世纪。1882年,电第一次作为公共服务被提供的时候,世界就发生了一次巨大的变化。电作为一种公众服务,是爱迪生倡导的。尽管是交流电替代了他提供的直流电成为电作为公共服务的最终标准,但是那时的爱迪生还发明了配电板等电力设施中最初的、最基本的概念。回过头来看这件事:电气化使全世界的城市发生了一次天翻地覆的变化,推进了城市的进步。

今天我们为什么要讲数据驱动?就是想通过电气化的例子来思考,计算能不能像电一样,扮演一个对社会发展起到推动作用的角色。如果将计算和数据放到更大的视野来看,我们究竟要改变什么?

这里有三个关于城市的数据:城市占了地球不到3%的面积,容纳了大约60%的人口(到2025年城市可能会容纳80%的人口),所有城市消费了超过70%的世界能源。

从发展的角度来看,我们面临的挑战可能比大家想象的要更大、更紧迫。图2是我从《IBM智慧城市愿景》(A Vision of Smarter Cities)中摘取的数据,距今有十几年了。这个数据表明,一个城市中有35%以上的水资源是被漏掉的,而面对这种浪费,我们是无能为力的。

图2 水资源分布情况(摘自《IBM智慧城市愿景》)

这个问题并没有随着技术的发展被逐渐解决。在某个国家的调查中,2018年,该国的自来水网络中,有46%的水被漏掉,该国当时的目标是到2021年能够把漏水量比例降到38%;即便到2030年,这个比例预计仍然高达25%。水资源的浪费程度是多么惊人!因此,我想用水资源的例子说明:从绿色或是从可持续的角度看来,我们面临的挑战可能是超出大家想象的。

这些问题的产生与电气化紧密相关。图3展示了碳排放量发展的过程:人类的碳排放量是在1950年以后随着电气化的大规模普及,以一个接近指数的曲线提升上来的。是科技和创新的发现使人类消耗自然资源的能力被极大地提升了,造成了今天这样的碳排放量水平。

图3 城市碳排放量发展过程

面向未来,在2050年前后我们要达到碳中和水平的碳排放量,这要求我们在接下来的二三十年里,用更短的时间、更快的速度把碳排放量降下来,这个问题的答案就是数字化。

计算和数字化的关系,就是电和电气化的关系。这就是我今天为什么会谈到计算驱动的科学发现和创新,计算驱动的科学发现和创新使我们有机会在2050年前后把碳排放量降到今天希望的碳中和水平。

计算驱动

计算驱动的创新将在21世纪这一百年里重新发明所有的事,包括城市在内。计算(computing)这个词含义很丰富,在今天人工智能环境的语境下,计算一词有三个互相关联的组成部分:计算密集型(computational intensive)、数据驱动(data driven)和基于模型(model based)。

计算密集型

谈到计算密集型,大家就会想到超算(见图4)。有一个非常普遍的规律——计算规模随着时间而快速增长,这个规律最后被大家总结为“摩尔定理”,用来描述计算是怎么发展的。计算的发展速度超过了任何一个其他领域的发展速度。

图4 超算中心规模的发展历程

早期集成电路只有2个晶体管,英特尔(Intel)在20世纪70年代初生产的第一代芯片只有2000个晶体管,2010年的GPU卡GTX 580有3亿个晶体管,如今GPU卡H100有800亿个晶体管,这个发展速度是惊人的,计算的物理基础发生了一次非常大的变化。

此外,周以真(Jeannette Wing)教授在2006年提出计算思维(computational thinking)——通过计算逐渐改变人们的思维。计算这个概念值得深思,而中文里只有“计算”这一个词汇很难反映出它的内涵和外延。

同样,2017年,戈登·贝尔(Gordon Bell)在演讲中提到:云服务能够逐渐支持高性能计算。当计算发展到一定程度的时候,关于云的思考就会被自然地提及。

数据驱动

关于数据驱动,大家比较熟悉的是《第四范式——数据驱动的科学发现》这本书。有一个扮演重要角色的人——吉姆·格雷(Jim Grey),他是个具有传奇色彩的人,这本书是在他身后出版的。他生前的最后一次演讲就是关于数据驱动。

一个非常基本的问题是:在数据驱动以前的科学研究是用什么来驱动的?很多的科学发现或者思想其实是靠假设驱动的,所以我今天想说明一个观点:数据驱动不只是用数据证明或解决已有的假设,数据在科学发现中最重要的作用是帮助产生新的假设。我们到了新的科学发现的阶段:过去传统的科学研究是靠假设驱动的,今天我们又有了数据驱动科学的发现。这是我们能感受到的根本性变化。

在一些学科发展过程中有一些实际的有趣例子可以诠释这个看似抽象的说法。1948年,那时的人类还不知道从外太空看地球是什么样的,英国天文学家弗雷德·霍伊尔(Fred Hoyle)在那年说过:“一旦有人从外太空拍摄一张地球的照片,一种前所未有但无可辩驳的全新观念就要诞生。”1972年,人类第一次在太空中为地球拍了照片(见图5),叫蓝色星球(the Blue Marble)。澳大利亚化学家威尔·史蒂芬(Will Steffen)表示:“这张照片让我们从根本上认识到,应该把地球当作一个整体来研究。”这张人类第一次给地球自身拍的照片改变了我们的很多想法,这是数据驱动的一个好案例。

图5 人类历史上拍摄的第一张地球照片

如果大家关注地球系统科学这一学科的演进就会发现,这个学科与3条主轴相关:第1条主轴说明地球系统科学的形成和一些学术机构有关,第2条主轴说明这与一些重要的研究有关,在第3条主轴中我们发现地球系统科学的诞生与地球的这张照片也是紧密相关的(见图6)。

图6 地球系统科学的演进(The emergence and evolution of EarthSystem Science January 2020 Nature Reviews Earth & Environment1(1):54-63)

哈勃望远镜对深空拍摄的照片(见图7)后来被天文学家称为“Taking pictures of nothing”,这一点深深地打动了我——对我们曾经没有认知的地方拍摄的照片,为我们带来了对宇宙的全新认识。这就是为什么说这是一个数据驱动而不是一个假设驱动的科学创新发现的时代。其实在天文望远镜第一天被发明的时候我们就处于这样的状态——并不是因为我们知道太阳系是什么样的,而是因为望远镜观测到太阳系的数据以后,才让我们慢慢清楚了这个系统是怎么工作的。“Taking pictures of nothing”就是指得到数据让我们深深改变了对很多事情的看法。

图7 哈勃望远镜对深空拍摄的照片

基于模型

回到模型与人工智能的话题:1947年,艾伦·图灵(Alan Turing)在伦敦提出了人工智能,今天的人工智能和那时的人工智能相比,方法论和假设都是不一样的,核心在于我们到了一个基于模型的时代。图8展示的AI发展历程截至2020 年,而ChatGPT在2022年底突然火爆。我们仔细回看这张图就会发现,很多年以前大家已经将模型收敛到了GPT上,只是当时并没有意识到这会彻底地改变我们对这个学科领域的认识。这么说来,GPT因为ChatGPT在2022年年底火起来,是后知后觉的,也许应该更早火起来。

AI的发展历程

计算机学科从业者非常骄傲的一件事是ImageNet在过去推动了很多事的发展,现在有人把它当作一个非常重要的思考方式和做研究的方式。未来的研究要基于平台,而ImageNet本身就是平台的重要代表,也是集计算(computational)、数据(data driven)和模型(model based)三位一体的载体,而最初大家只是简单地将它想象成一个数据集。

当AlphaFold2问世时,有报道称“这是生物学的ImageNet时刻”。什么叫“生物学的ImageNet时刻”,对我来讲就是GPT+——能够把理论框架收敛到集中的一个方法上。

接着就有了最近英伟达(NVIDIA)首席执行官黄仁勋(Jensen Huang)的那句话——“ChatGPT是人工智能的iPhone时刻”,听起来与之前那句话颇为相似,随后发生的事情大家都看在眼中。大模型来临的时代,黄仁勋又讲了一句话:“英伟达推出生成式人工智能核超级计算云服务。”人工智能和超级计算将如何被大家使用,最后还是要回归到云的服务,这个结论和戈登·贝尔的猜想在2023年的今天慢慢吻合起来了,人工智能与2009年我开始做的云计算融合在了一起。今天来看,自己能在这个领域我感到非常幸运,因为计算可以变成一个非常重要的产业。这个产业就像当年的电一样还会有很长的生命周期,这既是云计算的幸运,也是计算的幸运。

原始创新

今天大家讲到A100、H100芯片,很多人觉得无能为力:“没有这些东西,我是不是不能做任何事情?”然而归根结底,所有的创新都是人创造的。2006年有人第一次在GeForce 7800 Ultra图形卡的GPU上运行了卷积神经网络(CNN)算法,比在CPU上快了4倍。当时世界对他做的这件事没有任何感知,我已经忘了做这件事情的人了。当时的这张卡既没有被禁运,也不是只有少数人才买得起的卡,而是一张在中关村所有的网吧里都有的图形卡。这个我们都记不起名字、有些对不起的人,为我们打开了一个天地。

2012年,多伦多大学的学生埃里克斯(Alex)和伊利亚(Ilya,现为OpenAI的首席科学家),用了两张GTS580的GPU卡在当时的ImageNet比赛中获得了冠军。虽然只使用了2张当时每一个实验室的学生都有的图形卡,但他们的智慧开启了一个新的世界——GPU成为深度学习的必选项。这个后来成为工业界标准的做法,实际上是这两个学生创造的。这两个年轻的学生定义了今天人工智能应该用什么样的技术框架来做,学生的创造力是无穷的。

过去这些年发生了很多事情,从Deep Blue(1997),到AlphaGo(2016),再到ChatGPT(2022),每一次都发生了技术变革,在接下来的十年,这种变革会因为计算的驱动而继续发生下去。所谓计算的驱动就是计算密集型、数据驱动和基于模型的完美结合。创新也不是一天成就的:2004年的技术架构上造就了今天大家都趋之若鹜的一卡难求的状况。所以这里可以看到原始创新的重要性,我相信今天是我们愿意重现2004年那一代学生所创造出来的事情的时刻,所有的事情不是结束了,而是刚刚开始。

来源:中国计算机学会 2023-12-15,本文根据CNCC2023特邀报告整理而成。
作者:王坚,CCF杰出会员。中国工程院院士。之江实验室主任、阿里云创始人。

Leave a Reply

Your email address will not be published. Required fields are marked *