向未来丨上海加速推动高质量语料数据赋能大模型产业发展

央广网上海7月7日消息(记者冯丽)高质量、大规模、安全可信的语料数据资源是AI时代的重要基石。7月6日,向未来丨上海加速推动高质量语料数据赋能大模型产业发展2024世界人工智能大会语料主题论坛在上海世博中心举办。论坛以“语料筑基,智生时代”为主题,围绕高质量语料数据如何高效赋能大模型产业发展,向市场传递专业化、链接型、前瞻性的语料生态设计理念。

语料筑基,“语料运营平台1.0”发布

对照最高标准、最好水平,打造世界一流的语料枢纽,实现更高效率、更高质量的语料供给,会上,“语料运营平台1.0”正式对外发布,实现了面向语料数据“采、洗、标、测、用”五位一体的工具链能力。

论坛现场(央广网记者冯丽摄)

为打响高质量语料品牌,进一步激发市场主体语料创新活力,增强供给侧能级,加速医疗健康、城市交通、消费零售、金融、影音等重点行业的大模型产业发展。会上,库帕思携手咪咕视频、宝信软件、复旦大学智能医学研究院等企业机构集中发布了十大语料数据产品。

语料赋能,首个《语料库建设导则》发布

语料数据是人工智能研究和应用不可或缺的资源,高质量语料库更是人工智能赋能新质生产力的关键。论坛现场,涉及金融、生命健康、教育三个行业语料技术白皮书正式对外发布,分别是《高质量金融语料技术白皮书》《高质量生命健康语料技术白皮书》和《教育人工智能大模型数据治理与共享技术白皮书》。

如何实现“语料数据资源共建共享”?现场,库帕思公司会同覆盖多模态数据资源供应、加工、应用和运营全链的近20家企业共同发布了团体标准《语料库建设导则》。

同时,为了进一步强化语料生态全产业链各主体间的交流合作,营造有利于我国大模型产业生态健康发展的环境,会上,50余家单位共同发起“语料生态服务大模型可持续发展倡议”,倡导携手为我国大模型产业发展持续提供高质量语料。

观点碰撞,专家共话高质量语料数据的创新供给

随着AI技术的不断进步和生态合作的深化,未来数据库将更加智能、灵活和强大,为人工智能赋能千行百业发展提供坚实基础。

中国科学院院士鄂维南带来了主题为“大模型与大数据库双轮驱动的人工智能方法”的主旨演讲。鄂维南院士分享了如何将大模型方法和高性能的通用AI数据库方法相结合,建立高效率、高准确率、低门槛、低成本的人工智能系统。

上海阶跃星辰智能科技有限公司副总裁李璟表示,大模型技术与语料是相辅相成的,共同构建了人工智能领域的重要基石。语料作为大模型的养料,其质量和多样性直接影响模型的智能水平。

语料数据是模型能力提升的关键基础。那么在提升通用大模型及垂直行业模型应用能力方面,怎样的语料供给是有价值又被需要的?多位专家与参会企业代表进行了观点分享和思想碰撞。

分享:

扫一扫在手机阅读、分享本文

最近发表