向未来丨上海加速推动高质量语料数据赋能大模型产业发展

无敌椰子科技创新 2024-07-17 176 0 向未来丨上海加速推动高质量语料数据赋能大模型产业发展

央广网上海7月7日消息（记者冯丽）高质量、大规模、安全可信的语料数据资源是AI时代的重要基石。7月6日，向未来丨上海加速推动高质量语料数据赋能大模型产业发展2024世界人工智能大会语料主题论坛在上海世博中心举办。论坛以“语料筑基，智生时代”为主题，围绕高质量语料数据如何高效赋能大模型产业发展，向市场传递专业化、链接型、前瞻性的语料生态设计理念。

语料筑基，“语料运营平台1.0”发布

对照最高标准、最好水平，打造世界一流的语料枢纽，实现更高效率、更高质量的语料供给，会上，“语料运营平台1.0”正式对外发布，实现了面向语料数据“采、洗、标、测、用”五位一体的工具链能力。

论坛现场（央广网记者冯丽摄）

为打响高质量语料品牌，进一步激发市场主体语料创新活力，增强供给侧能级，加速医疗健康、城市交通、消费零售、金融、影音等重点行业的大模型产业发展。会上，库帕思携手咪咕视频、宝信软件、复旦大学智能医学研究院等企业机构集中发布了十大语料数据产品。

语料赋能，首个《语料库建设导则》发布

语料数据是人工智能研究和应用不可或缺的资源，高质量语料库更是人工智能赋能新质生产力的关键。论坛现场，涉及金融、生命健康、教育三个行业语料技术白皮书正式对外发布，分别是《高质量金融语料技术白皮书》《高质量生命健康语料技术白皮书》和《教育人工智能大模型数据治理与共享技术白皮书》。

如何实现“语料数据资源共建共享”？现场，库帕思公司会同覆盖多模态数据资源供应、加工、应用和运营全链的近20家企业共同发布了团体标准《语料库建设导则》。

同时，为了进一步强化语料生态全产业链各主体间的交流合作，营造有利于我国大模型产业生态健康发展的环境，会上，50余家单位共同发起“语料生态服务大模型可持续发展倡议”，倡导携手为我国大模型产业发展持续提供高质量语料。

观点碰撞，专家共话高质量语料数据的创新供给

随着AI技术的不断进步和生态合作的深化，未来数据库将更加智能、灵活和强大，为人工智能赋能千行百业发展提供坚实基础。

中国科学院院士鄂维南带来了主题为“大模型与大数据库双轮驱动的人工智能方法”的主旨演讲。鄂维南院士分享了如何将大模型方法和高性能的通用AI数据库方法相结合，建立高效率、高准确率、低门槛、低成本的人工智能系统。