大模型时代的技术观
2023-09-11
2022 年 11 月发布的 ChatGPT,让 AI 掀起了新的科技风暴。比尔盖茨认为 ChatGPT 代表的生成式 AI 是 1980 年以来他遇到的第二个革命性技术,而第一个革命性技术是 Windows 的诞生。我曾认为 GPT 仅仅是一个玩具型技术,用于写诗、写歌词。我更关注对比学习下的预训练技术在图(Graph)领域的研究。最近半年来,接收了更多关于 ChatGPT 及其伙伴(如 CLIP、StableDiffusion)后,我想 GPT 这类的基础模型可能真的会对未来产生深远的影响,我理解了为什么许多人将 ChatGPT 的发布称为是人类的“iPhone 时刻”。仅以最近的观察,谈谈我认为这一波大模型浪潮可能带来的变化。
AI 平权
李敬泽在其访谈中提到:“我们低估了五四新文化运动巨大的、根本的革命性。文言文是人上人之间的话,是对人下人设置壁垒。咱俩是秀才,咱俩说话仆人听不懂,这是根本的文化设置和社会设置。在这个意义上,五四是要改掉文言文的。不干掉我们怎么能成为一个召唤起全民族、全体人民的现代国家?”
李敬泽讲的是文化的革命,类比看看技术的革命又何尝不是如出一处?从计算机语言的发展来看,最开始的机器语言,到汇编语言,到 C,再到 Python,每一次基础语言的更迭都让更大的群体享受到了技术的权利。而这一次,大模型带来的是最直白的自然语言。你可以用日常说话的文字给 AI 提出指令,从而得到你要的文字(ChatGPT)、代码(Github Copilot)、图片(DALLE2)、视频(DeepVoice)、音频(DeepFake)等。
这是一次 AI 对人类权利平等化的革命,对教育乃至社会分工必然造成巨大的影响。对我们这些已经在社会上充当专业螺丝钉角色的人来说,又是一次挑战和诱惑。挑战的是,你的专业技能将很容易被大模型平替掉;而诱惑的是,对于一个有系统性想法的人,给他搭上大模型技术,他就能成为 One-Man-Army(一个人就是一支队伍)。以一家互联网公司的分工来看,当前典型的分工是技术、产品、运营、设计、市场,当你带上 MidJourney 就可以自己做设计,带上 ChatGPT 可以生成代码,所以一个产品经理可能就能把事情都干完!在一些大型公司(比如阿里),常常还会把技术细分为前端、后端、算法、数据、测试等岗位,我认为未来极有可能只剩下 Engineer 的岗位,而没有其他细分了,为什么数据工程师不能搞算法、不能做前端?
AI 归一
讲到 AI 对技术的革新,分享我的两个观察:
一、Transformer 已成为几乎所有 AI 领域(Text, Vision, Audio,Graph)的首选编码器。在 2017 年 Google 提出 Transformer 之前,AI 领域虽然都用机器学习、深度学习方法,但不同领域(如视觉、自然语言)有各自的“武器”:如计算机视觉更喜欢用卷积神经网络(CNN),一度发展到 AlexNet、ResNet 这样的深度模型;自然语言处理更偏向于循环神经网络(RNN),发展出 LSTM、GRU 等复杂的模型;Graph 领域则扩展了 CNN 为 GCN,利用 Message-passing 的方式提升了一系列图模型和图任务的表现。当年武林,各自繁荣。如今,我们发现在绝大多数领域的核心任务上(这里值得写一篇综述),只要你有足够的算力和数据,Transformer 变成了首选,不需要复杂的模型设计。研究人员从卷模型到卷数据和算力,最终大家发现 Transformer 可能不是性价比最高的模型,但一定会是表现最强的模型。
二、基础模型将成为机器学习、数据挖掘、信息检索领域的统一方向。以前的 AI 算法研究,大多是围绕一个定义好的封闭任务来提升能力,如 NLP 在翻译、情感理解、词性标注,CV 在图像分类、目标检测、人脸识别等,现在这些任务都可以被统一的大语言模型或者多模态大模型“一站式”解决,特别是 NLP 领域,在 ChatGPT 出来后已经被宣告「NLP 已死」。我最关注的 3 个科学家,Jure Leskovec、Jie Tang、Jiliang Tang,原来都是从事 Graph 和 Network 研究,近年来都开始转向基础模型的开发、或者用基础模型做领域应用。
综上,我给自己,也给从事算法研究的同仁一个建议和提醒:1)不要给自己的研究领域设限,未来的AI将是多模态的,不存在 CV/NLP/IR/Graph 这样的单一方向了。2)不要做只懂算法的人,尽量让自己成为多面手(比如用 GPT 写写前端),未来将不存在算法应用工程师这样的职位。