对话面壁智能:和知乎的优势互补,会加速大模型的研发

ZAKER科技   2023-08-15 15:22:15

大模型浪潮下,一家业务稳定、已经上市的中型互联网公司想要迅速跟上浪潮,应该怎么做?


(资料图片)

在自研和收购以外,知乎与面壁智能选择合作共建大模型,或许为「互联网 + 大模型」提供了第三种范式。

今年春天的一个饭局上,知乎 CEO 周源再三追问席上的 AI 专家:「我是不是一定得先通用再垂直(先做通用大模型、再做垂直大模型)?」周源的迫切一定程度上预言了知乎在大模型上的决心。事实上,在 2 月,由 CTO 李大海在知乎内部发起的对面壁智能的投决会更是以闪电速度通过。时隔几个月,李大海在接受极客公园专访时表示,这样的速度是应该的,「蒸汽机已经出现,如果我们是一家马车公司,这时候应该做什么?」

对于已经上市、在财务上多有考量的知乎来说,自研大模型的短期投入过高、不确定因素大,明显不是最优解——这也是与知乎相似规模的公司们,在当下同样要思考的问题。而另一方面,知乎有着中国互联网世界最优质的语料(是训练大模型得天独厚的「养料」)、长期的内容安全合规经验(能弥补早期创业公司在这方面的经验不足)以及丰富的云原生经验(运用到大模型训练时灵活度更高、运营成本会更低),这些优势都将助力于一个大模型产品的打造。

在接触了大量的早期团队后,李大海发现,由清华 NLP 实验室的刘知远副教授所带领的面壁智能,是国内最早开始训练大模型的团队之一。后者在数据标注、模型构建以及 Infra 等方面,都建立了深厚的认知,刚好能与知乎的优势形成互补。4 月,知乎宣布了对面壁智能的天使轮投资;二者也开始紧密合作,陆续发布了共研的知乎大模型「知海图 AI」、基于大模型的对话产品「面壁露卡」、以及知乎网站上热榜摘要和搜索新功能内测。

6 月初,知乎 CTO 李大海宣布兼任面壁智能 CEO。目前,面壁智能正在寻求新一轮融资,公司的短期会聚焦于基础大模型的核心技术。前不久,极客公园与李大海进行了一场访谈,还原了这场合作背后更多的细节,以及双方的思考。

李大海表示,在技术加速发展的当下,AGI 到来那一天,以怎样的技术细节实现、模型是否依旧是当今流行的 Transformer 架构等并不重要。关键在于,质变已经发生,而团队正以最快的速度走在探索的路上。

01 三天发起投决会

极客公园:今年 2 月份,曾传出王慧文想收购面壁智能,4 月知乎就宣布投资了面壁智能,当时发生了什么?

李大海:ChatGPT 出来以后(2022 年底),我作为知乎的 CTO,是非常关注的。当时知乎很快在行业里面做了广泛的交流,去研究我们纯自研会怎么样,合作会怎么样。

很不幸中间遇到了疫情。等到真正和知远聊上已经是 2 月初了。跟他聊完之后,我们发现知远这边的团队做了非常多的积累,对于训练大模型有很深的认知,并且还做了很多 Infra 的事情。我叫他内外兼修,有这种成果其实挺不容易的。

这里有个故事。当时我跟知远是周五聊的,晚上我就召集团队,让做架构的同学 Review 模型架构的代码,以及 Infra、推理的代码。也让我们的测评团队评测 CPM(刘知远团队所做的大模型)API 里面的大模型。我们把能拿到的十几个模型都拿出来去做了评测。评完以后 CPM-Bee 排第四,前三名都是基于 GPT 的。我们也看了代码,看到代码该做的优化做的比较细。

结合我自己的访谈、结合这些 Facts(事实),我在星期天的时候(就在知乎)发起一个投决会。这是我作为 CTO 发起的唯一一个项目。

极客公园:王慧文这时候也已经跟面壁团队在谈了?

李大海:他也是知远的师兄。我们在跟知远聊的过程中,王慧文就去找知远,说希望能够收购他们。他们聊完之后,可能也就隔了一天,知远就给我打电话,说还是会选择知乎。

极客公园:你觉得为什么(他会做这个决定)?

李大海:慧文总是知远的师兄,知远挺尊敬他的,但是他们想独立发展。同时考虑到跟知乎合作能够有一个非常好的场景。

他们想的挺清楚的,挺坚定,我们也很快,推进起来就很快。

极客公园:你和刘知远最早是怎么认识的?

李大海:我和知远是在 2016 年认识的,特别有意思。当时知远还是一个助理教授,也在清华 NLP 实验室带学生做项目,当时的 NLP 项目肯定和大模型没关系了,但是他需要很多优质的语料,而语料大部分都在知乎。

他来爬我们,我们就反爬。所以他爬起来也很累。最后索性就直接来找我,问能不能直接合作?我自己的职业生涯深受 NLP 学术界工作的惠及(从在 Google 做搜索、以及到知乎做推荐),因此我认为也很应该反哺学术界。所以当时也完全没有犹豫,请我们的律师、法务拟了 NDA(保密协议),让他签了一个 NDA,就请工程师给他跑数据,前后就 10 天左右,这就认识了。

这是从 2016 年圣诞节前两天开始,月初协议签完,数据就交付了。我们也没有要什么回报。大家在这个环节就建立了一些连接和信任。直到 2022 年 9 月份,当时参加一个活动,那时候就听知远说,他现在自己在做一个大模型创业的事情。

极客公园:这份创业就是现在的面壁智能的前身,对吗?

李大海:这个创业就是面壁智能。知远是一个很有技术远见的学者,最早可以追溯到 BERT 发布以后,当时他已经看到了大模型在 NLP 领域的应用前景,也就是大模型的潜力。

所以在 2019 年的时候,知远就拉着他们清华实验室的同学搞了一个「雁栖湖技术战略会」,带着 NLP 实验室里面重要的学生,在雁栖湖一个酒店里开了 7 天会。开完会以后,就决定实验室里面这些学生,其他的工作都停下,转头专门围绕大模型去做方方面面的各种研究。

到了 2020 年的时候,知远作为智源研究院的访问学者,提出说做 LLM 大模型是很重要的事,9 月份在智源立项做了这个事情,11 月在智源三周年年会上发布。当时其实模型不大,只有 26 亿个参数,相对今天来说是一个小模型,当时也算大模型。模型生成的能力在年会上放出来的时候,非常好,大家都很震惊。后来继续再做 CPM1、2、3。

从 2021 年开始,知远就在拉着实验室的核心同学在筹办新公司,到了 2022 年的 8 月份,公司正式成立,名叫面壁。9 月份的时候,公司自主的大模型 CPM-Ant 就发出来了。那时候 ChatGPT 还没出来。

极客公园:对于 NLP 下一步的发展,学术圈是有一定共识的,但是放在当时,这事很难在产业界引起足够多的重视。

李大海:讨论是肯定有的,当时大家都知道 NLP 往下发展会带来更通用智能的产生。但是大家都没有时间表,很难判断这个事情到底是一年,还是十年以后发生。如果这个事 10 年后才发生,现在投钱干嘛?务实是中国企业能够在过去的竞争里不断取得好成绩的一个重要原因,但是特别务实,需要诗和远方的时候,就会慢一些。

本质上还是社会共识不在这点上,其实连美国的社会共识也不在这个地方。(大模型)这件事情做出来,就是 OpenAI 这家公司特别偏执。正好美国一些个人大佬愿意给他们钱,这种宽松的环境下才造就了 ChatGPT 横空出世。

在 ChatGPT 出来之前,像面壁智能这样有认知的公司,很难给投资人讲清楚,为什么这个地方值得花钱,而且还需要花大钱。

CPM 大模型|来源:面壁智能

02 资本只是启动条件,最终要看模型能力有多强

极客公园:你出任面壁智能 CEO 的决定是怎么做出的?

李大海:(今年)2 月中旬以后我们就开始谈合作,两边团队就一起共建了。训练知乎的大模型速度就快很多,4 月份推出了热榜摘要的功能,5 月份在做搜索和代码方面的工作,还是很忙的。

做 CEO 其实是大家在推进这个事情过程中,我和知远最后不谋而合的共识。当时的 CEO 也是刘老师的学生,刚毕业没多久,在公司治理方面,经验肯定还是欠缺的。目前大模型领域的竞争本身就很激烈,所以管理经验的确需要快速补齐。一个更好的 CEO,对于团队的价值(不言而喻)。

另一方面,从知乎的角度来讲,我跟周源都认为大模型非常重要。但知乎毕竟还是一家上市公司,花非常多的资源自己训大模型不太现实。在这个过程中我们去选择跟一个创业公司深度共建,利用更少的资源拿到更有竞争力的模型,形成自主可控的竞争模式,这个事情也蛮重要的。因此对我们来说,(由我出任 CEO)也是一个挺坚定的选择。

极客公园:你个人的意愿呢?

李大海:我个人是意愿特别强烈的。我觉得大模型未来一定是通向 AGI 的可能实现路径。我们真的是站在了一个人类技术变革的元年,或者起始点。也许在路径走到一半的时候,中间有些断的地方,还需要其他的技术衔接上。

但重要的是我们能够往路上走,以前连路在哪里都不知道。所以这是一个值得工程师有生之年参与到技术发展的大主题。

极客公园:面壁智能是一个独立创业公司,知乎是一个成熟的上市公司,决策上面临不同声音的时候,怎么去处理?

李大海:这是个好问题,客观来说,我在这里面存在着非常多的协调、沟通,扮演了拉齐大家认知的角色,也感谢知乎,对我的信任非常足够,在模型建设工作上给了我非常大的决策空间。

这本身就是技术导向的事,大的决策方向确定以后,我也在知乎和面壁共建的过程中花很多精力协调。在具体的协作过程中,有很多非常具体的一线决策需要做,一线的决策有分歧的时候,都是我来拍板,这样效率确实比较高。

这也是为什么面壁也非常认同我去做 CEO,因为在这个过程中,大家建立了非常深厚的信任和一起共事的伙伴感。

极客公园:互联网数十年,我们已经看到了很多赛道的火热和沉寂。你自己在知乎也做了很多年的管理者和决策者,有什么重要的 Learnings(认知)和 Know-how(方法论)?

李大海:首先,历史确实容易重复,但你仔细看,世界上没有两片同样的树叶,特质上还是会有差别,大家看到不管是外卖、o2o、打车,这些战争看起来都是很资本密集的。

但是今天的竞争,是一个技术导向的事情。最终还是要看你的模型能力有多强,模型能力决定了上层应用的可能性。为什么大家都兴奋?(因为)原来很多设想的产品场景,原来的技术做不出来,技术到了一定程度上就能做出更好的东西,所以最内核的东西还是能力,我觉得不管怎么打,这个地方是真刀真枪。

极客公园:不太能够通过资本就砸出来?

李大海:资本很重要,因为算力、团队需要支持。但是资本只是一个启动的条件,怎么样能够把真的把核心技术做出来。它还是个技术新模式。

我自己觉得,技术上要足够的聚焦,想的足够清楚。另外这个事本身它是一个非常系统化的工作,需要方方面面的能力。

我相信面壁智能在这个地方是有自己的优势的,我们从 20 年开始就在围绕大模型的各个方面,建立了成建制的团队,从 Infra 到预训练到模型架构再到对齐,还有数据,都有很优秀的人才在团队中工作。

极客公园:技术强并不意味着这家公司会成功。把技术放在一个正确的位置,包括商业化节奏也很重要。过去你是知乎的 CTO,更早之前你经历过三家创业公司,结合过去的经验,你在管理和商业化节奏把控方面有什么心得?

李大海:这是一个很好的问题。我在知乎做 CTO,一直以来最重要的 Learning 就是,技术一定要服务于业务。技术最终是要让业务变得更好,让用户感受到这个产品的价值,你去做一些跟业务无关的,看起来炫酷的技术,但这都没什么用,其实在我们现在这种公司制度底下是很难(持续下去)。

我在知乎不仅承担 CTO 的职责,也是董事,参与了知乎近几年的战略讨论与制定。在我看来,技术和商业化不是泾渭分明的两件事,其实是相辅相成的,我们需要通过技术拓展更多的业务场景,同时也预期业务场景能够给模型数据反馈和场景的扩展,形成飞轮。

极客公园:既然你提到了战略,面壁当下的战略是什么样的?

李大海:当下阶段大家最关注还是你能拿出一个多好的东西,以及能不能有比较好的商业化。

因此我们其实就聚焦在两件事情上。第一件事情是模型取得足够好的进展,这个模型就是 LLM,所以就不用考虑多模态,什么都不用。第二件事情就是基于这个模型是不是能够取得一些大家觉得还不错的商业化的进展。就这两个方向,其他的工作都应该放弃。

面壁智能团队工作照,一路之隔是智源研究院|来源:面壁智能

03 优势的互补性加速模型的研发

极客公园:面壁智能在和知乎合作共建的过程中,怎么把双方的能力优势结合?

李大海:面壁会把对大模型的理解,传递给知乎的工程师,知乎的工程师们在工程的规范性方面更有经验。跟知乎的共建,也能够弥补面壁团队在模型之外的一些不足。

知乎过去积攒了非常多的云原生经验,基于 K8S 弹性伸缩,所有的服务都在云上。这些能力也被无缝地应用在大模型的训练和推理上。整个模型就会变得更弹性,运营的成本会更低,灵活度会更高。

在怎样保证模型安全上,知乎也给面壁提供了非常多有价值的知识。因为知乎是一个内容公司,知乎在安全与合规方面积累了非常多的经验。哪些讨论是安全的,哪些是不安全的,其实是知乎擅长的东西。这些优势的互补性加速了模型的研发。

极客公园:双方目前的合作中,有些基本共识?

李大海:首先第一个共识,我觉得国内现在所有的大模型,以及我们自己,离理想状态都还是有距离的,我们还是需要一起把模型的能力加强。第二个共识,数据很重要,而且用户反馈很重要,怎样尽可能地让模型上线、拿到更多人工反馈,这块事情也蛮多的。

极客公园:模型的理想状态怎么定义?

李大海:我觉得首先证明大模型的水平能达到 GPT-3.5,然后再到 GPT-4。

极客公园:由于监管因素,现在大部分 ToC 的大模型产品都无法上线(自然也无法形成数据循环)。面壁智能目前是否形成了数据循环?

李大海:知乎内部用户不可见的很多场景中也在积极探索大模型的应用,比如内容理解等场景。大模型在这些场景的落地对数据循环也是有帮助的。

极客公园:目前知乎推出了热榜摘要、搜索新功能的内测。在将模型能力和知乎场景结合上,目前有怎样的思考?

李大海:AI 能力是人类能力的扩增,模型能力也要服务于产品场景。在我们的实践中,要把大模型用好,还是得像过去做产品一样,要思考这个场景的优化,给用户带来什么样的价值,在这个基础上,怎么把模型用好。而不是拿着锤子找钉子。

极客公园:提升模型能力,除了更快的数据循环,技术上还有什么挑战或者难点?

李大海:这个事其实跟搜索挺像,是一个系统化工程,每个环节是个相乘的关系,所有的工作都做到 100%,结果就会很好(当然不可能实现);如果有 10 个环节,每个环节都只做到 90%,那结果就只能是刚刚及格。

极客公园:也有一种观点表示,怎么用更经济的、更小的成本去训练一个大模型,可以有一些方法。

李大海:这是一个很好的话题,降低成本本来就是大模型训练中大家都很关心的问题。这需要团队对模型结构、Infra 都有比较深刻的理解,才有可能做出一些工作,我们也在探索。

极客公园:面壁智能成立的时候,ChatGPT 还没有发布,现在外界环境已经发生了很大变化,会对公司的思考、战略有影响吗?

李大海:是有影响的,快速拿到更多资源,这个事对我们来说很重要。我们也会在融资这个事情上非常积极地行动,尽快拿到更多资源。

极客公园:目前面壁智能的人才团队,应该是业内最好的之一,在目前激烈的竞争下,会不会担心被挖角?

李大海:人才竞争一定是要考虑的。给大家一个清晰的愿景,大家共同建设未来的事,并且在把利益都安排好,尤其是在早期,就不太需要担心核心人员流失的问题。

我自己觉得可能经过一年、半年,大模型公司就会洗牌,这时候人才会进行重组,短期之内,手上的人不会有太大变化。

极客公园:看到面壁智能也已经开始探索一些应用,最近和深擎科技达成了战略合作。

李大海:我们会出大模型的能力,他们会花更多精力去做产品,在一个具体的领域里进行探索。

我们现在跟很多不同公司讨论,有些公司他们更愿意做商业上的合作方式,也有公司就像深擎科技这样,本身有很好的互信关系,也希望自己能在大模型的工作里面,介入更深一些,我们也比较开放,就能够建立更深入的战略合作。

极客公园:为什么没有选择在应用场景上投入,做垂直领域的大模型?

李大海:像这种场合,我们投进去肯定会获得更多的经验。但是我们现在核心工作还是把技术能力做好,在前端应用方面会有选择,一定会评估这件事的反馈,对于团队的能力成长,对模型的反馈如何。我们现在的计划也是希望尽可能做一些产品化的工作,针对企业的个性化的服务尽可能减少。

极客公园:面壁目前看起来是 toC、toB 两条腿在走,但听下来目前好像还是 toB 这个路线在战略上更重要一些?

李大海:当前是这样。

极客公园:这会不会是一个思路,用商业化的要求来 drive 自己的产品,因为如果能完成商业化闭环的话,这个产品至少是一个比较好的产品。

李大海:你说的很对。ToB 的客户对模型质量的要求是很高的,能够形成闭环是一种好的反馈。

知乎发布者大会,面壁智能 CTO 曾国洋与李大海发布新功能内测|来源:知乎

04 开源好处很多,但作为商业模式可能不存在

极客公园:作为一家大模型公司,面壁智能同时选择了拥抱开源,为什么?

李大海:我个人对开源非常感兴趣,在北大的时候就联合发起了 Linux 俱乐部。这么多年公司发展的过程中,观察下来,我觉得开源本身就是一个很好的商业模式。

比如 PingCAP 在国内开源是做的最好的,TiDB 在开源界影响非常大。我觉得对于底层的技术提供商来说,会通过开源获得很多收益,其中一个收益是,它能够通过开源免费获取非常多的客户。技术实力能够通过开源得到验证,是不言自明的。

从客户的视角,开源社区有活力的时候,客户也会更放心。哪怕这家公司自己的商业模式维持不下去,项目在开源界还是有人能够维护的。有开源的社区在托底的时候,你做 To 的服务商业会很有好处。

极客公园:Hugging Face 会提供一些借鉴意义吗?

李大海:大家的战略还是很不一样,Hugging Face 做了一个类似于模型界的 GitHub。它也是类似于开源的平台,大家把开源的东西往那个平台上放,我们开源的模型也会放到 Hugging Face 上,很多人也会下载我们的 CPM-Bee。

但是,这两个事不太重复,大家生态位不一样。作为面壁这样有自己模型的公司,我们也有自己的 Infra 和开源社区,大家在这个地方讨论的都是我们的 CPM-Bee,我们的框架,给我们提建议。

极客公园:面壁智能目前在开源社区上做了些什么?收到什么样的反馈?

李大海:我们在 5 月底的时候开源了一个 100 亿参数的模型 CPM-Bee,是允许商用的。在当前这个版本下,确实是可以专门针对一些具体的场景做 finetune(精调)。

现在大约有 30 多家企业向我们申请了商用,陆陆续续还有更多企业。这些肯定是我们的潜在客户。

像寒武纪、华为升腾会来找我们,适配他们的芯片。这是在 Infra 上,像一些外部的配套工具、配套软件生态上的收益。生态层面很容易有延伸,大家可能会围绕你的框架做周边。

模型能力的收益很难产生。对我们来说,开源这个模型,一是证明我们的能力,二是建立影响力,能够通过这种方式比较便宜地获得潜在客户。

极客公园:开源模型和商业模式之间的边界在哪里?

李大海:我听说 OpenAI 可能会把 GPT-3 开源,但我觉得对他而言,开不开源 GPT-3 真的没有影响。像面壁拥有一系列模型的情况下,把基础的模型开源出来,让行业知道我们的竞争力,能够提升我们的影响力。

未来大家训练出千亿参数以上的高质量大模型,如果很有竞争力,开源的可能性更小。开源与闭源之间会有个界限。在大模型这个领域,现在还没有人能通过开源做出一个 Google 安卓这样的系统生态出来,并形成巨大的商业价值,这个事我觉得目前还没有人做出来。

极客公园:不过确实有人表示希望做这件事。

李大海:这个是愿景。Linux 是一个操作系统,基于 Linux 有可能产生服务的提供商,丰富他们的场景。但大模型不一样的地方在于,这个技术本身在不断地快速更新迭代,能力是越来越强的。今年发的,明年其实没有人会用了,大家都用更新的了。这就需要公司持续提升算力和数据,才能产生更好的东西。

如果想纯粹通过开源收服务费,把这个事情闭环起来,我觉得这是跑不通的。Stability AI 就是走纯开源的路,但是他们目前闭环肯定是没有跑通的。

我觉得开源这件事,分两个层面来看,一方面你去做基础工作的开源,对于提升公司影响力是很重要的,开源的这条线画在哪里,其实也非常重要。

极客公园:你觉得开源无法形成闭环的商业模式?

李大海:至少目前,大模型时代没有看到这种开源方式,对于公司在商业模式上产生收益。我觉得现在没有人能够很好地回答这个问题。

因为大模型最核心的是模型能力,如果开源出来了,因为模型能力开源以后,其实大家都得把模型能力拿去用,那个数据还是在内部的。不会在这个基础之上,把自己变成生态的一部分。最后会形成模型能力的 Copy,这个生态却形成不了。我觉得这是一个核心的问题。我觉得这种模式也有可能不存在。

安卓会强是因为大家发现它开源了以后,把自己的工作建立在它的基础上,变成一个完整的生态,这是个正向反馈。

极客公园:继续往后做,算力会成为问题吗?

李大海:算力是一个很重要的因素。不管是训练、还是给用户提供对应服务,算力要求还是比较大的。又回到刚刚提到,我们在 Infra 上其实有很深的积累,希望接下来能够在这件事上有比较好的建设。

我们接下来会花一些心思关注怎样建设 Infra 能跟底层算力的契合度更好,从而显示出竞争优势。比如我们考虑,未来怎么建自己的技术机房,能不能有些创新,让模型训练效率更高,这些都是接下来要思考的问题。

极客公园:你觉得对于大模型公司来说,短期和长期的竞争壁垒分别是什么?

李大海:短期壁垒还是有没有没做过大模型,公司团队是不是有这方面的经验,团队怎么样。长期来看,还是要建立一个良好的数据反馈,长期肯定会形成马太效应。比如说 OpenAI 的这种水平,我相信在美国 Google 他们都很难追赶。