OpenAI 现已经成为全球人工智能领域的追击目标。
继谷歌献上「Bard」后,中国科技圈也开始沸腾,原本苦哈哈的自然语言处理科研团队,如今成了大家的香饽饽。一场关于资本与人才的竞争已经拉开。
「打造中国版 ChatGPT」,在王慧文的英雄帖中传出,一传十、十传百,成为中国 AI 从业者的共同目标。
然而,无论近日来关于 ChatGPT 的讨论有多火热,我们都要直视一个残酷的现实:在追击 OpenAI 的这场竞技中,最终能攻上光明顶的团队并不多。
一方面是成本高昂,「炼」大模型的资金只是打造 ChatGPT 的入场券;另一方面,则是能训练大模型的人才有限。大模型是 OpenAI 打造 ChatGPT 的技术基石,能否找到适合的人,也极为关键。
大模型必然是一个产学研合力的方向,ChatGPT 的入局者要想取胜,不仅要有顶尖科学家,还需要有对政商环境有理解、有经验的运营团队,也要有在资本市场有号召力、愿意 All in 的明星创业者加入。
本篇旨在从学术研究的角度出发,对国内各大潜在力量在这一波 ChatGPT 竞赛中的位置进行盘点。
1 高校力量:清华一骑绝尘
在一众高校中,清华大学的位置当属最前。
清华是国内自然语言处理领域(NLP)的学术研究重地,其 NLP 的研究历史深厚, 研究队伍庞大,有唐杰、孙茂松、刘知远、黄民烈等知名学者坐镇,他们近年在语言大模型领域的工作十分突出。而且,各大厂的大模型领头人中,也有多位是清华子弟,如京东集团副总裁何晓冬、华为云人工智能领域首席科学家田奇等。
梳理下来,清华系追赶这一波 ChatGPT 的潜在力量主要有三支:一是知识工程实验室(KEG),由李涓子和她的弟子唐杰带队;二是自然语言处理与社会人文计算实验室(THUNLP),学术带头人为孙茂松,团队主力刘知远是其门下高徒;三是交互式人工智能课题组(CoAI),由朱小燕及其学生黄民烈共同领导。
清华唐杰
在上一波炼大模型热潮中,清华大学计算机系教授唐杰是最突出的学术代表之一。2020 年,他聚合北京高校,领衔研发了智源研究院的「悟道」1.0 和 2.0 大模型。
![]()
唐杰
同时,唐杰也是一个十分注重产学研结合与大模型生态建设的学者。2019 年,依托明星产品AMnier 和知识工程实验室的技术成果,唐杰与李涓子带领成立了智谱 AI。现公司团队有唐杰的多位学生,都是参与「悟道」2.0 的主力。
唐杰是数据挖掘方向出身,李涓子则是知识图谱方向著名学者,这决定了智谱 AI 做大模型的特色是“数据+知识”。去年,智谱 AI 发布了双语千亿大模型 GLM-130B,并以开源开放的形式供研究机构或个人免费下载使用。
![]()
GLM-130B 采用了 KEG 实验室在 2021 年提出的 GLM 模型架构,在多个任务上性能优于 OpenAI 的 GPT-3 模型。通过模型量化技术,唐杰团队还提高了模型的易用性,降低了计算成本,GLM-130B 可在一台 A 100 或 V100 服务器上进行推理。
此外,唐杰团队还与多家大企业建立交流与联系,支持企业开发大模型,比如阿里的 M6。唐杰的学生杨植麟是 NLP 创业公司循环智能的联合创始人,也参与了华为“盘古”大模型的研发工作。
据内部人员透露,目前智谱 AI 已经在研究类 ChatGPT 产品,将于近两个月内推出。
清华孙茂松、刘知远
从 NLP 的学科方向上看,清华系中最为“根正苗红”的一支是孙茂松、刘知远团队。
清华大学自然语言处理与社会人文计算实验室(THUNLP),是国内最早开展 NLP 研究、且极具影响力的科研单位。实验室于 20 世纪 70 年代末成立之初,由中国 NLP 开山人物黄昌宁带领,ACL Fellow 孙茂松是他的学生,刘知远则是孙茂松的学生。
![]()
孙茂松(左)、刘知远(右)
THUNLP 在 NLP 领域积累深厚,曾于 2015 年发布中文诗歌生成系统「九歌」,基于大量人类创作诗歌进行训练,在学界和业界引起广泛关注。
在语言大模型方面,孙茂松、刘知远团队从 2018 年跟进预训练范式,2019 年初发布了 ERNIE 语言模型(与同时期百度版 ERNIE 同名),之后研发了 CPM 模型,是智源研究院「悟道·文源」的前身。
孙茂松、刘知远及其门下毕业的学生,在 NLP 和大模型领域已孵化了多个公司。包括涂存超于 2017 年创立的幂律智能,专注于 NLP 在法律领域的应用;岂凡超于 2022 年成立的深言科技,致力于以自研中文大模型构建工业级中文信息处理引擎。
另外还有曾国洋去年创立的面壁智能,专注于大模型加速与应用落地,公司团队为「悟道·文源」的主干成员。他们联合 THUNLP 与智源研究院语言大模型技术创新中心发起了 OpenBMB 开源社区,推出了 CPM-Live 百亿中文大模型直播训练项目,以及大模型全流程加速工具。
在 ChatGPT这一波中,THUNLP 一脉的优势在于其 NLP 学术成果多,且有大模型的研发经验,挑战在于工程化和商业化。
聆心智能黄民烈
ChatGPT 作为一个聊天机器人,其背后有对话系统技术做支撑,在这一方向上,清华大学交互式人工智(CoAI)课题组的研究十分突出。
CoAI 由朱小燕和她的学生黄民烈坐镇。黄民烈是对话式人工智能领域的专家,著有《现代自然语言生成》一书,此前也参与了智源「悟道」大模型的研发。
![]()
黄民烈
黄民烈也是清华系学者中下场创业的一员,他于 2021 年创立了「聆心智能」。基于大模型和对话系统的研究基础,黄民烈选择了心理咨询聊天机器人赛道。2022年,他的团队推出了一个名为「AI 乌托邦」的交互机器人,用户可以定制 AI 角色,与机器人进行深入对话。
作为国内为数不多有实力训练大模型的团队之一,黄民烈在近日完成 Pre-A 轮融资后称,相比 ChatGPT,他们更希望将「聆心智能」定位为「中国的 Character AI」——在文本生成的基础上,为用户提供情感的陪伴。据了解,其团队在心理健康领域已积累海量优质训练数据,模型参数量超 30 亿。
2 大厂系
在国内互联网大厂中,在大模型方面领先的第一梯队包括百度、阿里、京东与华为。除此之外,这一波宣布入场研发 ChatGPT 的互联网公司还有腾讯、字节跳动、快手、360、科大讯飞、网易等。在军备竞赛般的 ChatGPT 研发中,大厂的钞能力无疑占有绝对优势。
有行业人士评价,目前 360 在内的一些大厂在类 ChatGPT 技术上的各项指标只能达到略强于 GPT-2 的水平,与当前的 ChatGPT 相比尚有代差的落后,在语言大模型上属于赤手空拳上阵(如快手、科大讯飞、网易等),所以,类 ChatGPT 测试版的推出时间以及实际效果均存在重大不确定性。
百度文心大模型
在自然语言处理领域,百度是一众大厂中技术积累历史最长的一个。
百度文心大模型的研发由 CTO 王海峰带队。在「文心一言」项目中,王海峰也是担任总指挥,另有核心成员吴甜(百度集团副总裁、飞桨平台研发领衔人物)与吴华(百度技术委员会主席、百度翻译技术团队创始人之一)。
![]()
王海峰
百度是国内最早深耕预训练模型研发的团队之一,2019 年就发布了中文效果超越 BERT 的 ERNIE 1.0 和 2.0 模型;2021 年 7 月发布的 ERNIE 3.0, 在 SuperGLUE 上超越了GPT-3;同年发布的“鹏程-百度·文心”(ERNIE 3.0 Titan)则是首个知识增强千亿级大模型。
![]()
“知识增强”是文心系列所走的技术路线,即引入语言知识和世界知识等,从大规模知识图谱和海量数据中融合学习,以提升大模型的学习效率和可解释性。
2021 年,百度还推出一款名为 PLATO 的对话机器人,模型基础是百亿参数对话生成大模型 PLATO-XL。
百度的优势在于其丰富的搜索语料数据,深耕 AI 研究多年的用户数据,并有百度飞桨深度学习平台、自研芯片加持。
微软与谷歌激烈开战之后,百度是国内最早宣布其研发类 ChatGPT 产品(「文心一言」)计划的团队之一。内部人员透露,其产品形态或为独立入口,或效仿微软 Bing、与百度搜索入口联通。
阿里通义大模型
阿里巴巴达摩院从 2021 年入局大模型,参与了智源研究院「悟道·文汇」大模型的研发,后推出纯文本预训练语言模型 PLUG(270亿参数),完全参照 GPT-3 的架构,集语言理解与生成能力于一身,水平接近 GPT-3。
达摩院原智能计算实验室成员杨红霞(已于去年离职)与清华唐杰团队合作研发的 M6 多模态大模型系列,参数也从百亿升至十万亿。
在现任达摩院副院长周靖人的主导下,达摩院于去年 9 月推出了目前阿里大模型成果的集大成之作,即“通义”大模型。
![]()
周靖人
「通义」大模型首次统一了模态、架构和任务,其背后的技术支撑是统一学习范式 OFA。
![]()
去年,为推进中文大模型的开源生态建设,达摩院还推出了 AI 模型开源社区「魔搭」(Model Scope),在业界引起巨大反响。
日前,达摩院已确认其正在研发基于「通义」大模型的阿里版 ChatGPT,除了文本生成外,还具备绘画功能。据了解,其类 ChatGPT 产品将和钉钉深度结合。
京东言犀大模型
京东从 2020 年开始研究 AI 文本生成,用以支持京东商城商品页面描述的生成。有消息透露,京东商城页面中,20% 的产品介绍都是由 AI 团队用 NLP 技术生成。期间,由于 NLP 技术的整体消沉,研发受阻,但后来京东又重新重视,推出了言犀大模型。
2018 年从微软离开加入京东的何晓冬,是现任京东集团副总裁、京东 AI 研究院执行院长,也是如今京东大模型研究团队的带头人。
![]()
何晓冬
2021 年,他与原京东 AI 掌门人周博文(已于 2021 年 11 月离职)带队,在京东言犀篇平台上研发了领域性模型 K-PLUG。该模型与京东的电商场景紧密结合,从电商领域特定知识中学习,能够自动生成商品文案。
![]()
京东目前还没有千亿级参数的大模型,K-PLUG 也只有 10 亿参数,但这次京东云言犀平台也宣布入局,将推出 ChatGPT 产品「ChatJD」,且强调其“产业版”色彩。
华为盘古大模型
华为的计算资源为其研究大模型提供了天然优势。
华为从 2020 年开始布局大模型,带头人是田奇(IEEE Fellow、国际欧亚科学院院士)。
![]()
田奇
2020 年 3 月,他加入华为云担华为云人工智能领域首席科学家,同年夏 GPT-3 问世之后,他就立即组建团队,开始了盘古大模型的研发。华为因此成为 2020 年最早参与大模型竞赛的大厂之一。
基于昇腾 AI,与鹏程实验室、循环智能合作,华为于 2021 年 4 月发布了「盘古」系列大模型,包括 中文语言、视觉、多模态、科学计算四个大模型。
盘古 NLP 大模型是业界首个千亿级生成和理解中文大模型。在预训练阶段就学习了 40 TB 的中文文本数据,包括细分行业的小样本数据。在模型结构上,盘古采用 Encode 和 Decode 的架构,保证了其在生成和理解上的性能。
![]()
华为有千亿模型的研发经验,也有强大的计算资源,但这次其发声甚少,尚未明确是否会研发类 ChatGPT 产品。
3 学术初创派
ChatGPT 带来的这一波 AI 商业化热潮有着极高的技术壁垒,同时也给了科学家们下场创业的巨大机遇。
如澜舟科技创始人周明、IDEA 研究院讲席科学家张家兴、西湖心辰蓝振忠、衔远科技创始人周伯文等人,都是学术初创派的代表。
对他们而言,要在未来的 ChatGPT 商业战中取胜,还需要补强工程化和市场运营的能力。就像张家兴和蓝振忠,已经在为他们的研发团队寻找一个 CEO。
此外,我们还能观察到两种入局模式:一种是以强大的技术能力为基础,去弥补商业化方面的短板;另一种是商业化经验丰富的大佬下场,吸引技术人才来组队。
最终哪种模式能走得更成功,我们拭目以待。
澜舟科技周明
在上一轮大模型堆参数的潮流正当火热之时,周明独辟蹊径,为其初创公司澜舟科技选择了一条轻量化大模型的路线。
2021 年 6 月,周明成立澜舟科技,在紧接着的 7 月,他的团队就发布了十亿参数的「孟子」模型,效果可比肩千亿大模型。
这是周明在学术界和产业界两开花的结果。
![]()
周明
周明是NLP 领域极具影响力的华人科学家之一。他于 1991 年从哈工大博士毕业,是百度 CTO 王海峰的同门师兄弟,哈尔滨工业大学教授、NLP 泰斗李生的高徒。博士期间,周明曾研制出中国第一个中英翻译系统。
毕业后,周明先是进入清华大学任职任教,并在 1999 年被微软亚洲研究院(MSRA)创始院长李开复挖走,2001 年起担任 NLP 组主任,后升任微软亚研副院长。
在 MSRA 期间,周明在 NLP 技术的产业化上成果颇多,他参与带队的 ACL 顶会论文超过百篇,相关技术还应用到了 Windows、Office、Azure、微软小冰等世界级产品中。
2020 年,周明决心以一种新的方式寻求学术界与工业界的合作,就结束了在微软工作的 21 年生涯,加入了李开复创办的创新工场人工智能工程院,担任首席科学家,并开始孵化一个创业团队,最终成立澜舟科技。
据官方消息,澜舟科技将凭借其类 ChatGPT 底层技术的语言大模型,与拥有海量数据的中文在线合作,打造国产 ChatGPT。周明团队是会继续走轻量化模型路线,还是转向做千亿级以上大模型来作为技术支撑,尚不得知。
衔远科技周伯文
2022 年,周伯文回到学术界,加盟清华大学,担任电子工程系长聘教授、清华大学惠妍讲席教授,以及电子系协同交互智能研究中心主任。
同时,周伯文还是一个新创业者。2021 年底,他卸任京东集团高级副总裁,离职创立了衔远科技。
![]()
周伯文
周伯文是中国科学大学少年班毕业,博士在科罗拉多大学波尔德分校就读。毕业后他进入 IBM 工作,曾任 IBM Research 人工智能基础研究院(AI Foundations)院长、IBM Watson Group 首席科学家、IBM 杰出工程师等。2017 年,周伯文加入京东,出任京东集团副总裁,负责京东的 AI 研究。
NLP、多模态、人机对话等都是周伯文深耕多年的领域。他提出的自注意力融合多头机制的自然语言表征机理后来成为Transformer架构的核心思想之一,还提出了 AIGC 领域的两个自然语言生成模型架构与算法。2020 年,他当选 IEEE Fellow。
在周伯文看来,ChatGPT 的核心进展是人的协同和交互学习的提升而非模型变大,而且,ChatGPT 未来必将演变成多模态,这也正是他领导的协同交互智能研究中心的重点研究方向。
而在衔远科技,周伯文也已经实现了一些 AIGC 的应用,如使用生成式人工智能加速以消费者和市场为中心的实时创新、提升 sku 创新成功率。
IDEA 研究院张家兴
粤港澳大湾区,除了鹏城实验室、腾讯,大模型的玩家还有一个,即 IDEA 研究院(全称「粤港澳大湾区数字经济研究院」,由沈向洋等知名 AI 科学家在 2020 年创立。
IDEA 研究院的大模型负责人是张家兴,他也是一位从 MSRA 走出的 AI 科学家。
![]()
张家兴
张家兴于 2006 年从北京大学电子系博士毕业,师从侯士敏(现北大电子系教授)。毕业后,他先在百度待了一段时间,后加入微软的 Bing 搜索团队,与周靖人有过合作。之后在 MSRA ,张家兴从事系统方向的研究,并从 2012 年转向深度学习。
2014 年,张家兴加入阿里 iDST(达摩院前身)团队,一年后又去往蚂蚁金服,带领 NLP 技术团队,将对话机器人应用到金融场景。2020 年,张家兴受 360 数科 CEO 吴海生的邀请,加入 360 数科任首席科学家,只待了一年半便离开。
在 MSRA 院长周礼栋的推荐下,张家兴加入了 IDEA研究院,担任讲席科学家,负责认知计算与自然语言研究中心。
张家兴团队在 AIGC 这一波中一直较为领先,他主导研发了「封神榜」开源模型系列,并在去年推出了国内第一个中文版 Stable Diffusion 模型「太乙」。
ChatGPT 问世之后,张家兴在去年底就迅速将团队的大模型研发转向了 ChatGPT 的对话任务路线。据其透露,其团队研发的类 ChatGPT 模型效果与 ChatGPT 相当,且仅有 50 亿参数,文本生成速度也很快,目前已在内测中,近期将公测。
尽管当前 50 亿参数的模型已经效果很好,但接下来,张家兴计划研发千亿模型支撑的类 ChatGPT 产品,并推动其商业化。这也是他最近准备融资、寻找一位 CEO 的原因。
西湖心辰蓝振忠
同样在为团队寻找 CEO 的,还有西湖心辰的创始人蓝振忠。
![]()
蓝振忠
去年,在众多国产 AI 作画产品中脱颖而出的「盗梦师」(现改名为「造梦日记」),正是出自蓝振忠团队。
蓝振忠本科从中山大学毕业,博士在卡内基梅隆大学就读,期间研究计算机视觉,后来去谷歌工作时转到自然语言处理方向,依托谷歌的 TPU 资源研发了著名的轻量化大模型「ALBERT」。
2020 年 6 月,蓝振忠回国加入西湖大学,创立了深度学习实验室,开启语言与视觉结合的多模态研究。
依托西湖大学的科研资源与先前加入的智源「青源会」,蓝振忠开启产学研模式,创立了西湖心辰,先是依托大模型研发了心理咨询聊天机器人「小天」,然后在 2022 年 8 月的 Stable Diffusion 浪潮中首发国产作画产品「盗梦师」。
而在 ChatGPT 出来没多久,西湖心辰就推出了类似的文本生成产品「心辰 Chat」。不同的是,它可以访问互联网,而且是多模态交互,不仅可以生成文本,还可输出图像。
与许多学者出身、下场创业的人一样,蓝振忠也深感团队需要一位具有管理经验、资源整合能力强大的 CEO,来一起打造中国版 OpenAI。敬请关注 AI 科技评论明天推送:《蓝振忠也发「英雄帖」,中国版 ChatGPT 明星公司寻找 CEO》