昆仑万维CEO方汉：大模型智力提升受语料制约端到端内容生成前景可期

21世纪经济报道记者雷晨北京报道

6月6日，由21世纪经济报道、北京人工智能产业联盟元宇宙专业委员会、中国文化产业协会文化元宇宙专业委员会主办的“21世纪卓越董事会人工智能闭门会议”在北京召开，会议主题为“AI领域上市公司创新涌现、技术难题与发展路径”。业内专家、学者以及多位上市公司高管参会，共同探讨AI发展新路径。

昆仑万维（300418.SZ）CEO方汉出席本次闭门会并发表主旨讲话。他表示，昆仑万维是国内最早布局AIGC领域的公司之一，从2020年就开始布局AI音乐领域，2022年1月启动SkyMusic音乐实验室，2022年4月达到人工智能领域最优效果。同年，昆仑万维从音乐AI往多模态AI拓展，并和奇点智源就百亿级大语言模型、图像AIGC、编程AIGC等技术领域达成全面技术战略合作。2022年12月正式发布“昆仑天工”，其AI生成能力已覆盖图像、音乐、文本、编程等内容模态。2023年4月17日，昆仑万维正式发布「天工」大语言模型。

(资料图)

大模型智力提升受语料制约

众所周知，GPT-4是多模态的大模型，但是在方汉看来，多模态只能增加大模型的输入和输出能力，并不能显著提高大模型的智力。

他认为，要想实现上述目标，唯一的途径是不断寻找质量更高的文本语料，但是高质量的文本语料已经几乎被挖掘殆尽。

他进一步指出，多模态之所以不会显著提高大模型的智力，是因为人类所有的智慧，包括科研，大多数是以文本为基础的，只有高质量的文本数据才是大模型不断提高智力的途径，不管是工业劳动，还是科研学术，最后都是落实到文本形式记录我们的智慧活动。当然，人类有很多生产行为没有被记录下来，他认为，这部分智力不会被大模型所学习到。

因此，方汉预测，大模型的智力提升将会出现一个瓶颈，也就是在逼近一个数量之后，几乎不会有太多的提高。因为现在所有大模型的智力提升仍然严重依赖于数据，所以它就一定不会自迭代加速向前发展。从工程师的角度来看，方汉认为现在人们对人工智能的担忧还是杞人忧天。

“另外，我们在实践过程中发现，用大模型来写代码，写一两个函数是非常强的，但是你让它写整个工程，需要人类大量的辅助，也就是说它目前还没有学习到对于整个工程的理解，这样导致了人类使用大模型仍然是为了对自己能力的加持，大模型取代整个程序语言还需要一段时间。”他表示。

谈及大模型对于行业的影响，方汉认为有两个标准，一是应用能否在线上完成闭环，如果业务在线上完成闭环，那么会受到大模型特别大的冲击；二是判断产品的容错度，如果容错率特别高的话，该行业也特别容易受到冲击。

端到端内容生成价值可期

商业化方面，方汉在会上表示，昆仑万维在战略层面采取To B跟To C并重的战略。

B端方面，方汉总结道，如何把行业数据生成大模型可用的数据是最难的事情。他表示，国内非常多的企业都缺比较好的数据，国内现在要To B的应用，要帮助所有行业把现有的知识推导过程给补上，不能光有题目跟答案，而要把推导过程给列出来，这样才能让各个行业去利用。

展望国内C端市场，方汉预计，国内C端一定是免费为王。另外，他看好私有化部署方向，整个大模型训练固然对算力有极高的要求，但是目前软件优化的速度远远超过硬件迭代的速度。

海外方面，他认为中国企业最适合的是C端市场，在海外的C端市场可以做端到端的内容生成工具。“这个听起来比较简单，但实际上目前所有的AIGC工具都不是端到端的内容生产工具，而是素材生产工具。”方汉称。

方汉表示，从端到端直接生成最终的内容，最终形态是小说、动画、漫画、短视频、长视频、电影，目前小说、漫画、音乐的生成技术都比较成熟了，在这里去做端到端的内容生成工具，从而形成新的UGC社区，这个是有价值的。

不过，在方汉看来，端到端内容生成工具仍有一个技术难点没有解决，一旦解决了一致性的内容生成之后，整个影视行业、短视频行业都会被颠覆，而且一致性视频生成有望在1-3年之内取得突破。最迟3年以后，人类将可以用AI来生成一致性非常强的长视频。