11月26日,在湖北武汉举行的2024东湖国际人工智能高峰论坛上,“紫东太初”大模型3.0全球首发。
2021年发布的“紫东太初”大模型1.0是全球首个图文音三模态大模型,由中国科学院自动化研究所联合武汉人工智能研究院研发。2023年,“紫东太初”大模型2.0发布,其在原有三模态基础上,进一步融入视频、信号、3D点云等多种模态数据,具备全模态理解能力、生成能力和关联能力。
日前在2024年世界科技与发展论坛期间发布的《2024年人工智能十大前沿技术趋势展望》中,“全模态大模型:打破数据壁垒”被列入其中。与多模态大模型相比,全模态大模型有何不同之处?它将为相关行业带来哪些变化?科技日报记者就这些问题采访了相关专家。
延伸升级多模态
全模态大模型是一个综合性概念,指的是一种能够处理、理解和生成多种模态数据的人工智能模型。中国科学院自动化研究所紫东太初大模型研究中心常务副主任、武汉人工智能研究院院长王金桥解释,多种模态包括但不限于文本、图像、音频、视频、传感器数据,以及结构化和非结构化数据等。
“全模态大模型的核心目标是通过统一架构,完成多模态数据的感知、理解、生成和推理任务,提供通用解决方案,而无需针对特定模态单独开发模型。”北京科技大学智能科学与技术学院副教授王耀祖介绍,全模态大模型致力于实现模态间的无缝交互与信息融合,构建一个统一的智能体系。
相比于全模态大模型,多模态大模型这一概念似乎更广为人知。“从单模态到多模态,再到全模态是人工智能大模型技术发展的必然趋势。”王金桥认为,全模态大模型在多模态大模型的基础上,进一步融合了更多种类的模态数据,提升了模型的认知、理解和创作能力。因此,全模态大模型可以被视为多模态大模型的延伸和升级。
王耀祖解释,传统的人工智能系统需要为每种模态开发单独的模型,造成数据孤立和互通困难。而全模态大模型通过统一的表征学习,将不同模态的数据映射到同一个语义空间,能够消除模态隔阂,实现数据的跨模态融合和协作。
全模态大模型还可提升数据利用效率。在传统架构中,数据通常以模态为单位独立存储和处理,可能造成数据重复存储和浪费。而全模态大模型则允许系统以更加集约化的方式处理多模态数据。
“全模态大模型有望解决‘数据孤岛’问题。”王耀祖介绍,在医疗、工业制造、金融等行业,数据常以模态为划分依据,彼此孤立。全模态大模型能够作为桥梁,连接这些“孤岛”,并挖掘出它们深层次的关联。
促进智能化发展
目前,一些国产大模型不断提升多模态能力,在众多领域落地。今年6月,华为云盘古大模型5.0发布,在全系列、多模态、强思维三个方面全新升级。盘古大模型5.0能更好更精准地理解物理世界,包括文本、图片、视频、雷达、红外、遥感等更多模态。盘古大模型已在30多个行业、400多个场景中落地,在政务、金融、制造、医药研发、煤矿、钢铁、铁路、自动驾驶、工业设计、建筑设计、气象等领域发挥积极作用。王耀祖举例说,湖南钢铁集团与湖南移动、华为合作联合开发的湘钢盘古大模型,实现全厂关键设备在线监测、提前预警和智能诊断,生产作业率提高20%;实现产品质量在线判定、一键追溯和一键分析,分析效率提升60%。
“紫东太初”大模型在多领域发力,持续赋能行业智能化发展。在该大模型加持下,武汉人工智能研究院与华工科技打造的智能焊接智能体直接支持25种焊接工艺自动化焊接;与九州通合作研发的智慧系统,支持1万多种医疗骨科器械和耗材自动化的管理;与国家体育总局推出面向奥运人才体教融合的大模型……
王耀祖说,在现有大模型的基础上,未来的全模态大模型可以整合更加多样的数据类型,让分析更准确、决策更智能、控制更精准。
王金桥认为,在医疗领域,全模态大模型可以更高效处理各种模态的海量病历数据,进行临床症状描述并检验检查结果,为医生提供更加全面、精准的诊断建议;在交通领域,它将进一步助力智能交通系统建设,提升交通运输效率和安全性,有效缓解交通拥堵;在教育领域,它能为每个学生量身定制学习方案,提高学习效果和学生满意度……
“凭借超大规模参数和复杂计算结构,全模态大模型在多个行业中展现出巨大应用潜力,未来能够助力许多行业实现智能化、高效化和个性化发展。”王金桥说。
开发仍面临难题
受访专家认为,全模态大模型有利于进一步拓展人工智能的应用场景,但这并不意味着全模态大模型将完全替代多模态大模型。王金桥说,在某些特定应用场景下,多模态大模型已经能满足需求,这种情况就无需引入全模态大模型。
王耀祖也认为,多模态大模型通常针对特定模态组合进行优化,适用于特定领域应用。全模态大模型虽然通用性强,但可能在某些领域表现不如专门设计的多模态大模型。同时,全模态大模型对计算资源的需求远高于多模态大模型。对于许多中小型企业或资源受限的场景而言,多模态大模型仍是更为实际的选择。
“全模态大模型的开发与应用,本身还面临着一系列挑战,涉及技术、数据、资源、行业接受度等多个方面。”王金桥说,全模态大模型需要大量高质量数据进行训练,收集、整理和标注这些数据可能耗费大量资源。数据的质量和多样性对大模型的性能有很大影响,而某些领域的数据可能难以获得或获取成本过高。
王耀祖还提到,大模型容易受到数据偏差的影响,可能生成带有偏见或有害的内容。此外,大模型在处理隐私信息时也存在一定风险。因此,开发全模态大模型时,还需要进一步研究、监测大模型中的潜在偏见,并且在训练过程中引入隐私保护机制,以保护用户数据安全。
“未来,我们需要优化数据采集与处理、简化模型结构、加强行业合作与定制化开发、建立伦理和监管框架,逐步克服难题,推动全模态大模型在更多领域应用。”王金桥说。
原文链接:《科技日报》(2024年12月16日第6版)
(责编:孟婍、陈丽萍)