大模型门槛的降低已经在发生 | WAIC观察
2018年,首届世界人工智能大会从上海徐汇区开幕,五年间,徐汇的人工智能产业从无到有,今年跨过了1000亿的门槛,已成为上海首个人工智能发展的集聚区。目前,徐汇聚集了200多家相关企业,围绕大模型的突破与探索,展露出厚积薄发的底气。
7月8日,为期三天的世界人工智能WAIC大会在上海闭幕。本次大会参展企业超过400家,比去年翻番,展馆面积5万平方米,远超去年。这是有史以来主题词最突出的一届人工智能大会,绝大多数论坛围绕大模型展开,30余个人工智能大模型先后于展区和各大论坛亮相,8成与会人士的讨论内容都由大模型导入或者围绕其展开。
ChatGPT横空出世已有半年,算力、数据、基础设施是围绕其间的核心议题,清华大学电子工程系主任汪玉就在本次大会的开场的核心论坛上对大模型落地的三大挑战作出总结,一是领域部署成本高;二是模型算力缺口大,如果中国14亿人每个都用大模型去跑,总共需要的算力跟目前所拥有的差了三个数量级,需要让单位能量提供更高算力;第三是国产芯片生态需要扩张和构建,使得绝大多数我们自己的芯片能够被用起来。
【资料图】
但与之相映成趣的是,在WAIC上,透过更多业界的发声,我们发现一些核心趋势已在悄然生变。
首当其冲的判断是,算力成本开始持续下降,而且下降速度快于大模型的规模扩张。
“2020年,训练一个GPT3大模型,需要450万美金;2022年,这个量级变为45万美金;上周的最新变化是,在美国他们使用3584张H100(NVIDIA的AI高端显卡) 训练GPT3,一共需要11分钟,整体开销2万美金。”九章云极的联合创始人尚明栋在7日《大模型时代AIGC新浪潮》的主论坛上做了组数据分享,这意味着,进入GPU(图形处理器)时代,算力将不会构成从业者进行大模型计算的鸿沟,并且更进一步看,随着国家针对算力进行顶层架构设计,模型算力缺口也有可能逐步得到解决。
尚明栋在演讲中图源:WAIC
如何大模型能顺利运行在资源受限的设备上,就能更好的普惠大众,也基于此,芯片创业公司是本次大会展台环节的主力军,燧原科技、登临科技、翰博半导体、曙光、昆仑芯、拟未科技(Graphcore)、算能等公司悉数登场,纷纷展示出各自产品布局和生态进展。总体来看,以本次大会为节点,国内AI芯片的商业落地在大模型风起半年内已取得不浅进展。以昆仑芯为例,昆仑芯展示的第二代AI芯片是国内首款采用显存的通用芯片,能通过底层技术优化将通用计算核心算力提升2-3倍。
“大模型的需求变化以周计在变化,从市场供需需求看,大模型和芯片类公司不是完全匹配的,券商分析师过去写报告用得应用处于算力的估测方法可能不再适用,应用除以存储大小、除以带宽,能作为投资机构估算芯片企业是否值得投资的新标准。”燧原科技副总裁高平如是说,现在是计算机体系架构的黄金时代。
WAIC现场展区几乎是大厂肌肉的秀场,华为、百度、腾讯、阿里、京东、360、网易、金山办公、中国移动、中国电信,加上第四范式、澜舟科技、衔远科技、云知声、出门问问等一众当红AI创业公司,竞相展示着围绕大模型的最新成果。但值得注意的是,相比一众闻名于世的大厂模型,学术圈的模型难掩光芒,清华大学计算机系知识工程实验室的千亿参数中英文对话模型ChatGLM-130B、复旦大学自然语言处理实验室的MOSS是展台中非常耀眼的存在,吸引了大量人群驻足。
会场之内,很多人戏称这次的人工智能大会几乎办成了清华大学的论坛,因为连续三天,大量论坛和展台都云集着来自清华的教授和创业团队。
从这些学术圈人士的与会分享可以洞察到一个最新判断,大模型的整体研发门槛在悄然降低。
已经在发生的是,大模型的兴起深刻影响了高校的研究规划,很多优秀研究生和博士生在课题选择时很多开始朝着通用人工智能方向靠拢。从人才储备变化角度,研发大模型的人才越多,短期和中长期就会导致大模型研发门槛的降低,
深圳云天励飞副总裁肖嵘在大会一场圆桌论坛上称,大模型的研发门槛不仅现在在变低,未来还会更低,“语言模型的训练语料规模已快速达到上限,未来增速不会变快,随着软件、硬件工程能力的快速提升,稍微有点实力的公司都可以训练自己的通用模型。”
任何门槛的降低都会引发价值重估的显现,大模型更不例外,与之协同的是,投资人看待AI行情的视角也在发生变化。在WAIC大会上,有基金经理表示在以天为单位更新相关信息,“从市场比价角度看,科技成长股对于远期看确定性最高,市场对AI产业链的风险偏好放得就大,过去几个月,算力、算法、应用都经历了比较大幅的上涨,未来,投资人很难消退对这个产业的热情。”中欧基金管理王颖解释称,美股的相关大型公司在底层创新上做得更好,龙头表现强势,国内作为全球最大的消费市场,A股市场大量资产结构都是关于应用和供应商的标的,这些公司还在探索尝试之中,表现积极。
一级市场的投资人描绘出了更为细致早期的价值图谱,九合创投创始人王啸在WAIC上提到,创业者应该在图像生成、文本生成、办公协作、视频生产、跨模态生成、游戏生成、策略生成、甚至数字生命场景这些非常明确的应用需求和落地场景上寻找机会。
“大模型时代,任何事情都适合用大模型重做一遍。”这句业界的名言在WAIC上得到了更深的诠释,大模型本身就带来了一种新的核心价值凸显,而价值的具体落地方向是软件和硬件两侧,在未来,系统、智能硬件的发展和大模型会产生重要的协同。
在WAIC展区可以看出,软件厂商探索的新功课是如何高效调度管理数据和算力,把复杂的大模型构建过程变得简单,同时通过基础软件的工程化,提高大模型的训练效率,潞晨科技的创始人尤洋就在8日一场分论坛细致探讨了AI大模型带来的系统优化挑战。软硬一体化解决方案、一站式AI开发,开发者生态,是三天内频频提到的关键词,其中以阿里云的大模型生态计划MAAS声量最高。
处在细分领域的云计算厂商则从中看到了更为现成的富矿。在大模型诞生之前,云计算厂商一直在提供IAAS(一种云计算服务模式)状态,即构建大规模集群,让传统IT服务迁移到云端,在云端通过资源填补为客户提供价值,但其中的虚拟化和资源调度都是挑战,大模型出现之后,云计算领域的核心应用开始展现——由于各类用户在云计算上提出的需求实现了标准化对齐,优化计算网络存储状态成为了云计算下一步的发展重中之重,“目前云计算最重要的基础创新撬点已经由大模型产生。”云脉芯联创始人清华大学国强教授刘永锋认为,大模型的出现为发展多年的云计算提供了重要指引。
大模型的未来生态无疑是开放的,从WAIC主要参与方也可以洞察出未来的生态布局,算力服务参与厂商、基础理论研究企业、通用大模型、垂直大模型、未来终端、行业应用、金融孵化侧、开源治理方,是云集在各大论坛的企业代表,下一轮竞争即将开启,抓住窗口期更好的协同或者竞逐,是他们未来三年或者五年无法摆脱的命题。
(文章来源:界面新闻)