记者: DeepSeek V2 模型发布后,迅速引发了一场大模型价格战。有人说你们是行业的一条鲶鱼,你们是有意成为鲶鱼的吗?

梁文峰: 我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼。

记者: 这个结果让你们意外吗?

梁文峰: 非常意外。我们没想到价格让大家这么敏感。我们只是按照自己的步调来做事,然后核算成本定价。我们的原则是不贴钱,也不赚取暴利。这个价格也是在成本之上,稍微有点利润。

记者: 5 天后智谱 AI 就跟进了,之后是字节、阿里、百度、腾讯等大厂。智谱 AI 降的是一个入门级产品,和我们同级别的模型仍然收费很贵。字节是真正第一个跟进的,旗舰模型降到和我们一样的价格,然后触发了其他大厂纷纷降价。因为大厂的模型成本比我们高很多,所以我们没想到会有人亏钱做这件事。最后就变成了互联网时代的烧钱补贴的逻辑。

记者: 外部看来,降价很像在抢用户,互联网时代的价格战通常如此。抢用户并不是我们的主要目的,我们降价一方面是因为我们在探索下一代模型的结构中,成本先降下来了,另一方面也觉得无论 API 还是 AI,都应该是普惠的,人人可以用得起的东西。

记者: 在这之前,大部分中国公司都会直接 copy 这一代的 Llama 结构去做应用。为什么你们会从模型结构切入?

梁文峰: 如果目标是做应用,那沿用 Llama 结构,短平快上产品也是合理选择。但我们目的地是 AGI,这意味着我们需要研究新的模型结构,在有限资源下实现更强的模型能力。这是 scale up 到更大模型所需要做的基础研究之一。除了模型结构,我们还做了大量其他的研究,包括怎么构造数据,如何让模型更像人类等,这都体现在我们发布的模型里。

记者: Llama 的结构在训练效率和推理成本上,和国外先进水平估计也已有两代差距。这种代差主要来自哪里?

梁文峰: 首先训练效率有差距,我们估计国内最好的水平和国外最好的相比,模型结构和训练动力学上可能有一倍的差距。光这一点,我们要消耗两倍的算力才能达到同样效果。另外数据效率上可能也有一倍差距,也就是我们要消耗两倍的训练数据和算力才能达到同样的效果。合起来就要多消耗 4 倍算力。我们要做的正是不停的去缩小这些差距。

……

声明:本站所有文章,如无特殊说明或标注,均为本站整理发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。本站内容均收集自网络,基于免费分享的目的,如若本站内容侵犯了原著者的合法权益,可联系我们进行删除处理。