龚克:让生成式人工智能成为人类的好帮手

对于生成式的AI,到底成熟不成熟,能不能用?风险在哪里?是做事的帮手还是作弊的枪手?是应该按下加速键还是按下暂停键,对它到底怎么看?

2023年9月20日上午,在2023世界公众科学素质促进大会之专题论坛“促进公众理解人工智能”上,中国电子学会副理事长、世界工程组织联合会前任主席,中国新一代人工智能发展研究室执行院长,南开大学原教授龚克了题为《让生成式人工智能成为人类的好帮手》的主旨演讲,以下为演讲内容:

我们知道人工智能发展到去年的11月30号,发生了一个比较重要的事情——ChatGPT的推出。在不到一周的时间里,它的用户达到了100万,不到两个月的时间达到1亿用户。ChatGPT最初出现的时候,给人们带来的超乎意想好的体验,使得大家对这件事产生了好多困惑,盛赞者有之,担忧者有之,不屑者也有之。刚才王娟谈到的,一批名人主张把它先停下来,因为它可能对我们会有威胁。那么对于生成式的AI,到底成熟不成熟,能不能用?风险在哪里?是做事的帮手还是作弊的枪手?是应该按下加速键还是按下暂停键,对它到底怎么看?这些我想谈谈我自己的看法,不对的地方请大家指正。

首先,我们来看一个事实,生成式的人工智能已经来了。我们从这边看到我昨天问文心一言科学素质是什么意思?科学素质与科学普及什么关系?还是挺靠谱的一个回答。美国有关部门做了一个统计,分别按照不同的区域,比如亚太地区,我们看到常规性使用人工智能的,包括在工作中使用,在工作之余使用,在工作和工作之余都使用,这三类人加在一起超过41%,同样在北美也超过41%,如果加上偶尔使用就更大了。从不同的行业来看,金融部门用得最多,技术、媒体也是用得最多的,等等,男性比女性要用得更多一些。年轻人81年以后出生的年轻人也用得非常多。在任何时候都用的是5%,在工作上用的22%,工作以外24%,加起来超过一半的使用。而且这个是在迅速的发展之中,这是基本的事实。不是说你一些人主张停下来就可以停下来。

从趋势上来看,从人类呕心沥血到男耕女织,从马车到汽车到火车,从人工的生产线到自动化的生产线,从算盘到手摇的计算机,到大型计算机,所有技术进步,没听说过有人反对,其他的都有人反对,蒸汽机出现的时候工人们去砸发明者的家,但是都打磨技术的进步。用中央政治局学习的时候总书记的话来讲,从社会发展史看,人类经历的农业革命、工业革命、正在经历信息革命,工业革命拓展了人类体力,而信息革命则增强了人类脑力,这次信息革命引领的力量是人工智能。我们知道现在人类创造工具正在从体力到脑力帮助我们人类,我们从体力来讲,我们最早为什么要有铁锹?是因为它比我们手强。所以我们人类用自己创造的工具超越我们人类自身的能力,这不是现在才有的事,历来就是这样,但是过去主要是替代我们的体力劳动,增强拓展人类能力。今天我们必须认识到,信息革命就是拓展我们脑力,如果不愿意拓展的话,不是跟人工智能作对,是跟整个信息作对。现在实际上人工智能帮助我们从低级的脑力劳动解放出来,从这个意义上去看,我们应该拥抱生产力的进步。

第一个问题,什么是生成式人工智能?这个生成式人工智能是相对于判别式的人工智能而言的,我们最早接触人工智能,图像识别,这是猫还是狗,是做判别的。人工智能跟判别不同,是生成的,可以根据自然语言绘画中的提示或者提问来自动生成出一个答案,和搜索不一样,搜索是利用关键词把简单的网页推给你,它是在这些网页训练的基础上来生成一个新的内容。生成内容可以用人类思维的所有符号来呈现,可以用自然语言文本来呈现,可以用图像来呈现,可以用视频,可以用音乐,可以用软件的代码,这就是我们现在说的所谓人工通用智能的概念,所谓通用指的不是一种形式而是多种形式的。现在人家叫通用人工智能,我自己翻译应该认为人工通用智能。现在我们中文翻译成了GAI,人工放在前头是强调人工的重要,所有这些东西是人工制造的。

我们现在仅在中国,到昨天为止的统计148种已经公开了的各种生成式的大模型,这是比较典型的一些。快速的产品迭代给我们提供了知识产品的半成品,这个概念非常重要,不是直接给我们提出最终的知识产品,我们使用者尽量明白,如果让它写文章的话,它给我们提供了一个初稿。要在这个稿子上经过反复地加工和引导,才能形成最终产品。如果我们简单地把它当作终产品,依赖它的话,不是它的错,是使用者的错。

我们现在做一个例子,昨天刚刚结束的在天津举办的全的职业技能大赛,我让它介绍一下职业技能大赛,请介绍一下第二届职业技能大赛。答:是人力资源和社会保障部主办的,天津市人民政府承办的职业技能大赛,是中国历史上规模最大、项目最多等等等等。看出来感觉怎么样?很通顺,也挺靠谱。仔细看一看,有错。四类职业分类是六类,这是基本事实错误。而且六类里面有两大赛道,一个是世界的选拔赛,一个是中国的精品赛,这六类是对世界选拔赛的,而且这里列举四类,有两类没列举的,恰恰是今年特别突出的两类,创意与时尚、信息与通讯。说它欠佳,叫最受欢迎的十大绝技等等。这些反映出,如果我们仔细推敲的话,我们就需要在半成品的基础上指出它的错误,告诉它不是四类它会改成六类,你列出各类,它会给你列出来,所以你会引导它补充信息,迭代改进,最后帮你形成很好的介绍。

下面这个问题它到底是怎么工作的?为什么从半成品我们可以一步步引导它?大体上来分,第一步是解题,就是解你提问的题是什么意思。把提示语里面的词语分成小的token,根据以前所训练的模型里头,看你这些词语的模式和它训练的模式跟哪些词语同时出现的概率特别高,它把同时出现的那些东西做成它可能的答案,它估计在上下文里概率最高的时候下一个词应该是什么词,这样编出一个答案来。在这个基础上它把这套词语转换成可读的文本,如果你要的是画,它根据你的意思画出来。或者你还可以进一步提示它,工笔画的,或者是写意的,都可以按照你的提问的提示来给你转换成一个可读的文本,这个文本不限于文本。然后要做件事,就是过滤,对可读的文本经过一个护栏内容过滤,叫作价值对齐,比如说你现在让它造一个关于某人的谣言,是不可以的。它一看造谣这事不干,它会告诉你,我是一个人工智能工具,我不可能从事不实信息之类的,这叫价值过滤。

我们还要做一个迭代,迭代以上部分,替换掉一些词的时候,看它的概率是不是能够提高,如果概率提高的话就会把这个词替换过来,直至最后的响应完成。最后是润色,比如在答案的开头加上当然,是的,对不起,这样人类常用的词,让你听起来可读性更强、更自然。这就是它基本的生成过程,但这里最重要的步骤在于它把提示词以及跟提示词相关的概率识别出来,找到哪些是问,哪些是可能的答,反复地做这个,这是它非常关键的一步。

所以这里头就变成了一个提示工程非常重要的一个工程,正确提示,引导它给出你所需要的正确回答。这是非常重要的一步。你现在去找招聘的网站,包括微软招聘,这个变成新的工作,你甚至可以请将来提示师按照你的意图帮你去做这样的工作,这就是生成式人工智能它的提示和结果的非常密切的关系,因为它是根据你提示的那些token去判断你的概念模式,然后用输出和你的输入求得联合概率最高,这样生成的结论,所以你提示的内容比较丰富,用语比较准确是非常重要的。并不是简单地随便一问,它就能得到一个好的答案。

其实我们说到生成式人工智能,这不是今天才有的,从个世纪50年代就有拿计算机编歌,就有让它做翻译,经过这么多年的发展从小规模的专家知识,到浅层次的机器学习到深度的机器学习到大模型,我们突然发现只有在大模型的时候,人工智能的能力发生了一次突变,这次突变很多人叫作涌现,至于为什么说涌现,现在还没有说那么清楚,但是我们确定看到了确实是大模型造成这样的结果,这个模型参数的突变发生在哪里?我们这里看到,从ChatGPT3到1750亿参数和以前相比,大幅度提升。我们现在常用的ChatGPT就是在ChatGPT3.5的基础上出来的,今年的3月底OpenAI又发布了ChatGPT4,据说它比这个又提高了100倍,达到了100万的量级。我们在网上做了一个搜索,这个是我们看到从ChatGPT1是1.2亿的参数,用了40T的数据来进行训练。到ChatGPT2,15亿的参数,还是40T的训练数据。但是到了ChatGPT3,突然涨成了1750亿的参数和万亿量级的数据来进行训练。这是一个突变。我们从3到4,又是一个突变。数据量的大突变来自这里。为什么要用这么大的数?模拟的是一个脑,我们人工的神经网络,我们每一个小圆圈是一个神经元,每一条线是一个突触,把这些神经元给连接起来,在这个连接过程中,每一个神经元所做的功能都是一样的,连接后面一个神经元得到所有前面神经元给它的输出变成输入,这个输入是一个加和,但是加权的加和,权是不知道的,我们训练决定这个权重,我们用已知图、文本来进行训练,决定权重。如果我们知道一个一元二次方程的通解,我们知道通解上有几个参数,我们用试根法,用几个数据试,结果对以后就把参数定下来,我们知道任意复杂的参数可以用复列,可以展成多项函数,我们知道所有的函数,我们不知道系数,我们用序列的办法是可以把所有的信息量给训练出来的。我用这个作为一个不太准确的类比来看,我们用大量的已知的输入和输出,来训练这个模型的时候可以决定训练所有的参数,人工智能在工作的时候,并不需要再像计算机一样到存储器里面存储记忆,它像我们大脑一样,所有的知识都存储在这些参数上面。所以参数的大小是非常重要的。

训练出这么多的参数就需要非常高的数据,我们用10的9次方Byte做一个数据,我们实际上不仅要看到参数大,要训练这些参数的数据更大,所以大数据的数据依赖性是非常严重的,而这些数据所需要的算力也是不得了,据报道ChatGPT3的训练用了1200万美元,不是公司公布的,网上报的。ChatGPT4比ChatGPT3大了100倍,数据量和参数量都明显提高了,会用多少钱?可想而知,是非常贵的。所以我们现在就需要非常大的算力,这里展示的是彭城实验室的彭城云脑,是我们国家第一个百亿亿级的,18次方的算力平台,使用的是华为芯片,是中国自主的算力平台,世界上也是比较重要的。像文心一言最早大模型都是在这里面训练出来的。没有这样的算力,没有这样的数据是出不来这样的大模型的。

为什么它一定要大呢?我们来看,因为我们要仿照人脑,我们知道比较小的做脑科学研究的是果蝇,有25万神经元,1000万突触。而我们人类有860亿神经元,有150万亿的突触连接这些神经元。我们人类的记忆在这些突触里面,所以我们现在神经元网络就是靠这些东西。

我们来看从猕猴、恒河猴,这是猩猩、黑猩猩到人类,突触和神经元越来越多,这就是我们说为什么要大,小了是不行的,是记不住这么多知识,也不能形成这种逻辑的。但是光靠大也是不行的。我们看这个。非洲大象,比人类多得多,但不比人类聪明,所以仅仅靠参数多并不能解决所有的问题。

从ChatGPT里面,我们从tokeneization等等,有一系列的技术,这些技术不是今天才有的,大约在2018年就出现的,但是这些技术组合在一起出现ChatGPT3是综合的应用,这里特别要提到一下word embedding,它是怎么懂这个word,比如说一个苹果树,它并不知道什么是苹果树,它是把它变成一个矢量,这个矢量有好几位,多元的一个矢量,每一位表达,比如说它是动物还是植物,它是人造物还是自然物,是长在树上的植物,还是地底下的植物,每一个01代表它的性质,这时候它就会把树和花,在多维矢量比较靠近的东西聚焦在一类,会把狗、猫、鼠变成一类,把跳跃、跑步等动作变成一类,这些实际上是所谓的语义表达,我们知道语义表达首先要多维,另外语义是多义的,比如我们讲英文bank,是河岸还是银行?看上下文,上下文越长含义越准确,这就需要大数据,需要非常长的token,这就是我们今天遇到的一些问题。所以你用比较长的提问,容易让它理解你到底问什么样的东西。所有这些,越长的句子越能够帮助它把握正确的含义。

最后我们还要给它做一个输出过滤,这些技术都不仅仅靠大获得的,还有一个非常重要的,就是人工反馈,我跟人工智能讲一个问题,我可以反馈你说得不对,好像是六类,他马上会告诉你,确实是六类,你让它再重写等等,它会越来越准确。人类反馈可以把人类的知识和价值观输入到里面,这是非常重要的进步。

我们还需要关注,现在有了预训练大模型以后,我们人工智能的工作不是从数据开始来训练模型,我们可以已经开放的训练好的预训练大模型开始,再利用自己标准的数据,包括我们的知识,来做模型的微调,这样一来我们整个预训练的模型将会变成智能社会的一种基础设施,变成公共服务,这样就降低了我们人工智能应用的门槛。因为大模型需要大量的数据,需要大量的算力,这不是小公司能够有的。但是我们小公司有我们特定服务的特定数据,我们有特定的标准和知识,在这个基础上使得我们智能化的速度将会加快。

还有一个认识是特别重要的,刚才我们谈到的,生成式的内容是基于概率来的,它理解了输入的概率组成了一个句子是输出,输入和输出联合分布最高的就是它选择的那个结果,所以是基于概率的,那么好,既然是基于概率的不可能100%正确的。比如让它写清华校歌第一段,它编了一个,胡编了一个。现在已经有改进,这是我大概一个月之前做的。因为这些词,你比如说百年、清华、学子、书香、校园,确实跟清华有关系,它把它组合起来挺高,这是基于的概率,如果我们给它更多的输入,比如1931年写词的,可能会更好。

我们要使用生成式人工智能作为它的使用者是需要一定的能力和素质的,刚才顾雁峰在致辞中讲到的人工智能的素质是我们当前社会科学素质一个方面。我们首先要做事实的审视,我们要做逻辑的审视,做伦理的实事,做美学的审视,才能把这个工具用好。

我们的问题就是,既然出错,那么它的风险是什么?这是OpenAI说的,不是我们说的。尽管ChatGPT4在今年5月份,功能强大,但是它有类似于早期ChatGPT模型的局限性。最重要的是它仍然不是完全可靠的,它会产生幻觉,并出现推理错误。在使用语言模型输出时,尤其在高风险的上下文中应格外小心地使用精确的协议程序,比如人工审查、以额外的上下文作用基础来进行审视,或者完成避免高风险下的应用。举个例子,你比如让它写一个主题教育的总结,它不给你写。最后给你过滤掉。

所以要和特定场合相匹配,这个就告诉我们,对它是不可完全信任的,它给我们提供的是一个半成品,我们需要掌握必要的知识和能力,去完成它最终的结果。

这里是它的技术瓶颈,分辨率不够高,对数据的依赖,泛化的能力,等等。从社会角度来讲,人们担心它产生内容是否符合我们人类价值观,公平、包容、平等、保护我们的隐私,不泄露企业国家个人的机密,而且不至于引起更大的发展差距。我们知道如果说我们过去发展的差距来讲,是两类造成的,一类是资源的差距,一类是能力的差距,现在随着太阳能相对比较均匀的资源,更多体现在能力的差距,数能力体现在滥用,比如造谣。怎么办?深度创新、完善治理。这里包括要夯实它的科学知识,实现算法的可解释。实现它的风险可预测,可评估。第二是还要加强隐私的计算,让数据安全地流动。第三要发展类脑计算,来减少数据的依赖。最后要实现数据+知识双驱动的人工智能,现在我们基本上是一个数据驱动的人工智能,通过数据和知识来嵌入人类的价值观,最后我们要完善技术标准,让这些技术标准不仅仅写在纸上,而且是可检验,可认证的。

从治理上来讲,我们要贯彻UNESCO提出来人工智能伦理建议,实施以伦理为基础的治理,这是非常重要的理念。我们治理的基础在守住人类的伦理共同的价值观,我们改革创新的精神来实现有利于人工智能生产力发展的促进式的治理。我们知道人工智能是新的生产力,新的生产力要有新的生产关系跟它相匹配。我们要发展基于风险分类的治理,比如说李开复讲,我们让它去先写小说,写科幻故事,害处也不是很大。如果让它写政府工作报告,让它做十五五规划,那应该会出很大的错。我们要发展针对使用者、开发者、服务者、管理者的全员治理,这是我们非常重要的观点。我们研究院提出来的。我们现在对生成式人工智能不仅对它的模型,训练的数据要做规范,我们对它使用者也需要基本的规范。我们要发展人工智能国际合作。这里面简单展示一下,UNESCO关于人工智能的四个环节,第一个原则是符合你的目的就够了,不是要为了技术而要技术。特别提出来了认识和素养,认识和素养是使用者的认识和素养,而不是人工智能具的认识和素养。

最后我们得出一些结论,这个生产力已经来了,怕没有用的,主动训练、驾而驭之。现在我们非常重要的,这种使用人工智能的能力是我们这个时代应有的能力应有的素质。

第二条,我们不能阻挡它的发展,但是我们可以引导它的发展。现在要为人工智能立心,使之为人类服务。

第三要推动人工智能的深度创新,特别是要在有效、安全、可信,光说些道德条款是没有用的,道德信条是重要的,但这些信条是要通过技术手段落地的。所以当前我们要推动生成式人工智能从聊天到变成产品,向这个方向发展,以上是我初步的想法。谢谢各位!

来源:科普中国(中国科协科普工作官方微平台)

Leave a Reply

Your email address will not be published. Required fields are marked *

© HowXidea 2023 | WordPress Theme: Annina Free by CrestaProject.