本文作者:admin

海天瑞声CEO李科:数据产业正从劳动密集型向技术和知识密集型转变

admin 今天 2
海天瑞声CEO李科:数据产业正从劳动密集型向技术和知识密集型转变摘要: 专题:2025 INCLUSION·外滩大会:重塑创新增长  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!  新浪科技讯 9月13日下午消息,在20...

专题:2025 INCLUSION·外滩大会:重塑创新增长

海天瑞声CEO李科:数据产业正从劳动密集型向技术和知识密集型转变

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

  新浪科技讯 9月13日下午消息,在2025 Inclusion·外滩大会“Data meets AI:智能时代的双引擎”见解论坛上,产学界的多位权威专家给出了新解法:数据驱动了AI发展,AI也让数据迎来了新一轮的进化,双引擎融合驱动才是演进方向。

  复旦大学教授肖仰华指出,当前大模型发展正面临严峻的“数据墙”困境,无标签语料对模型性能提升的贡献日益减弱,更大规模数据带来的性能提升与所需的训练开销相比性价比显著降低。他认为,大模型数据科学需要从专家经验阶段发展到量化科学、直至自进化阶段。“大模型的数据实践需要屠呦呦式的研究,从海量杂乱的数据中提取出决定模型能力的关键成分”。

  肖仰华分享了通过语法复杂度指标和累积分布采样方法筛选高质量语料的实践,实验表明,从100亿个token的财经语料中仅筛选20%的高质量数据进行训练,对模型进行持续预训练,相比于全量数据持续预训练,在领域问答任务上的准确率提升1.7%。

  上海交通大学特聘教授翟广涛强调无论是精炼数据还是合成数据,都需要质量优先,而数据质量分析要从“体验质量”入手,考虑人的体验,也考虑机器的体验,进而在数据为中心的范式下进一步提升大模型性能。

  海天瑞声CEO李科从产业实践角度分享了全球AI数据行业的发展趋势。他认为,数据产业正在经历从劳动密集型向技术密集型和知识密集型的重大转型。通过动捕数据、自动驾驶标注、思维链数据集等多个实际案例,李科展示了高质量数据如何服务千行百业。

  上海库帕思科技有限公司董事长山栋明说,模型之变引领“数据质变”,他表示高质量数据集应满足VALID²(鲜活度、真实性、大样本、完整性、多样性、高知识密度)要求,并详细介绍了语料数据在方法论、基础设施和行业生态三个方面的体系化重构探索。(罗宁)

阅读