点击右上角
微信好友
朋友圈

请使用浏览器分享功能进行分享

作者:刘彬芳
前不久,世界数据组织在北京成立,这是全球首个旨在推动数据发展与治理实践的专业性国际组织。数据作为人工智能发展的关键要素,如同燃料之于发动机,其供给能力的高低直接决定人工智能的发展速度与质量。随着人工智能产业范式从“模型为王”转向“数据为王”,数据的供给能力,不仅关乎人工智能产业发展,更决定着国家在未来竞争格局中的地位。如何充分释放数据潜能、驱动数字经济更快发展,值得关注。
近年来,我国在培育数据要素市场方面取得显著成效,数据资源规模优势持续扩大,不断转化为产业优势。但中文语料数据供给不足,正成为我国人工智能应用创新的重要问题。中文语料供给不足,不仅会导致语义偏差风险制约AI发展效能,还可能导致潜在的文化误读与意识形态风险。随着单边主义、保护主义抬头,我国人工智能创新发展可能面临更加严峻的数据“瘸腿”困境。“十五五”时期,强化面向人工智能的数据高效供给,有助于充分发挥数据资源规模优势,抢占未来科技发展制高点。
扩容数据供给“蓄水池”。构建数据高效供给体系的核心在于持续扩大数据规模、丰富数据类型。当前,我国数据供给存在明显的结构性失衡,互联网娱乐数据相对过剩,产业应用、科技创新所需的高价值数据严重不足。需进一步推动公共数据开放与授权运营,加强物联网等数据接口开放,激发行业数据共享汇聚,促进社会数据收集,拓展数据供给的广度与深度。
筑牢数据质量“压舱石”。数据质量是价值实现的前提,高质量的数据不仅要求准确性、完整性与合规性,更强调场景适配性和知识密度。数据加工能力不足导致大量数据时效性较差、价值被低估、难以挖掘复用,海量数据“出生”即“死亡”。提升数据加工能力,保障数据供给质量与适用性,仍需进行数据资源规划管理,建立数据标注规范、数据集质量评估标准。
打通数据流通“快车道”。当前,大量数据长期被“锁”在政府、高校、科研机构和企业各自的数据壁垒里。有报告显示,2023年数据交易中需求方是供给方的1.75倍,数据产品成交率仅为17.9%。提升数据流通效率,消除“数据孤岛”与流通堵点,要着眼于技术创新和制度创新“双轮驱动”。一方面,隐私计算技术为消解数据安全与流通矛盾提供了全新思路,可信数据空间成为数据资源规模化流通利用的新模式新路径,区块链技术为数据确权和流通提供可信保障。另一方面,制度创新则为数据流通“松绑提速”。
培育数据供给“新生态”。充分发挥人工智能威力,要对接应用场景中大模型的实际需求,综合利用政府和社会各方资源,打通数据采集、开发、流通和利用链条,构建共享共创共赢的合作生态。推动数据标注提质增效。数据集开发周期长、成本高,可通过创新技术手段,优化资源配置,实现数据供给的集约高效。建立行业数据联盟,实现数据共建复用。发挥市场导向作用,制定完善数据集定价和收益分配机制,创新数据开发利用方式,优化数据集运营模式,提升数据投入产出比,凝聚社会各方数据供给合力,共同培育数据高效供给生态。(刘彬芳)
