今年3月ChatGPT-4上线以来,国内科技龙头企业密集推出人工智能大模型,百度“文心一言”阿里云“通义千问”华为“盘古”360“智脑”昆仑万维“天工”京东“灵犀”科大讯飞“星火”腾讯“混元”商汤“日日新”等大模型先后登场,呈现百花齐放迅猛发展的态势。截至2023年10月初,国内公开的AI大模型已经超过200个。
当前,大模型正在成为推动新一轮科技创新产业升级生产力跃迁的重要力量。随着前沿技术推动产业全链条升级,未来从田间到产线,从实验室到便利店,大模型可能无处不在。
“与早期的人工智能模型相比,今年我国大模型在参数量上实现了质的飞跃,复杂任务建模能力整体提升,学习能力泛化性更强,具备了更高层次的认知互动能力。”北邮国家大学科技园元宇宙产业协同创新中心执行主任陈晓华表示。
然而,在大模型迅猛发展的背后,也存在一系列问题亟待解决。
首先是对大模型套壳的质疑。近期,从谷歌新发布的AI模型Gemini演示视频的造假,到字节跳动被曝出部分工程师使用OpenAI技术开发自己的大语言模型,违反了OpenAI服务条款,因此被暂停了账户……“百模大战”的激烈竞争以及引发的乱象,也让业界对大模型评测标准以及统一规范提出了新的课题。
由于大模型的复杂性和应用场景的多样性,如何评价其性能和效果成为下一阶段的一个极具挑战性的问题。因此,建立一套科学合理完善的评价体系对于大模型的应用至关重要,它能够推动技术进步促进产业发展,同时确保技术应用的合规性和社会效益。
其次,随着互联网和科技企业不断调整大模型参数,传统企业对于数智化转型需求的增加,算力需求增长。但是,由于高端芯片获取难度大,大模型的研发成本进一步增加。北京大学智能学院副院长林宙辰教授提出通过合作共享资源和数据,以及创新训练方法和奖励机制,来更高效地开发和利用大模型的必要性。他提出通过股份和特别的奖励机制来鼓励公司共享数据和算力,其中股份可以基于资金贡献或者模型准确率的贡献来分配,个人也可以提供数据,或者参与到训练过程中,通过数据质量和微调效果拥有股份。这或许能帮助中小企业移开面前的“成本”“技术”两座大山。
在算法方面,国产大模型与国际先进水平相比没有根本性差异,基本都是围绕深度神经网络注意力机制人工调优等基础算法进行模型结构或局部算法优化,而在算力数据等方面则与国际先进水平存在一定差距。艾瑞咨询产业数字化研究院负责人徐樊磊介绍,为提升整体算力效率和满足差异化需求,应建立支撑大模型万亿量级参数计算的“智算中心”。“智算中心”可利用现有高质量数据中心,通过提升组网能力协同能力软硬件适配能力等实现部署。当前,“万卡”级别的智算中心正在主要节点城市发展起来。
面向未来,企业不能盲目跟风,需要满足自身已有的基础产品和用户群体在AI领域的诉求。从政产学研用通盘视角来看,政策端需要做好统筹调度,支持孵化大模型产业生态,提供相应的创新要素供给,促进科技成果转化和产业大模型落地成熟成规模化;技术端需要进一步推动软硬件技术一体化,为大模型的产业端应用提供更牢固的技术基础;产业端则需要促进产业对大模型和数智化应用升级的知识认知能力建设和人才培养,并结合当前产业大模型训练需求,协助和支持科研界将大模型成果落实落地。