发展数据标注技术,把数据“原油”炼成“汽油”
今年8月,国务院印发《关于深入实施“人工智能+”行动的意见》,其中提出“支持发展数据标注、数据合成等技术,培育壮大数据处理和数据服务产业”。
“数据标注通过对数据特征提取、分类、注释、标签化等操作,将人类的知识和思维逻辑转化为计算机可识别的语言,可为数据注入新价值,还可有效激活数据潜能,是人工智能高质量数据集建设的关键环节。”国家数据局数字科技和基础设施建设司副司长李建国告诉记者,经过标注的高质量数据能有效提升垂类大模型的专业领域性能,加速人工智能赋能千行百业。
2024年12月,国家发展改革委、国家数据局等部门印发《关于促进数据标注产业高质量发展的实施意见》,提出“到2027年,数据标注产业专业化、智能化及科技创新能力显著提升,产业规模大幅跃升,年均复合增长率超过20%”。据了解,国家数据局已指导安徽合肥、四川成都等7个城市建设数据标注基地,先行先试、探索经验。截至今年上半年,7个数据标注基地建设数据集524个,服务大模型163个,带动数据标注行业相关产值超过83亿元。
在分子和药物智能研发场景,对原子、电荷、化学键、靶点、活性等关键信息进行标记,人工智能才能更好赋能新药研发;在工业质检场景,对产品缺陷尺寸、位置、类型等信息进行标记,人工智能才能精准捕捉产品缺陷或异常……在人工智能大模型和相关政策驱动下,数据标注需求爆发式增长,相关企业也茁壮成长。“我们的主要业务是为人工智能场景化落地提供数据采集和标注服务。在人工智能产业带动下,仅过去一年公司就承接了2000多项数据标注项目需求,预计今年业务量将增长超过30%。”标贝科技政企中心总经理栾永乐表示。
“数据标注产业链覆盖上游数据提供方、中游平台公司、下游服务商。目前,我国已经初步形成产业链闭环,各地也在加速培育数据标注产业,产业集聚带动作用日益凸显。”李建国说,数据标注产业正呈现出新的发展趋势。
技术迭代。智能化标注技术不断取得突破,人机协同标注模式日益成熟。“企业通过人工智能对未标注的数据进行预标注,数据标注员更多承担关键决策角色,通过实时纠正模型错误,并将改进反馈给算法,促进其自我优化。”栾永乐表示,这种模式不仅提高了标注效率,还保证了标注的准确性。
要求提升。随着大模型的发展,高质量数据集的评判标准变得更加复杂。“比如医疗影像标注需要专业知识以识别病灶,自动驾驶领域离不开对道路场景的高精度标注。”中国信息通信研究院副院长魏亮说,数据标注产业逐渐从劳动密集型产业转变为知识密集型产业,对从业者的专业要求越来越高。
对象拓展。被标注的数据从文本、图像等单模态向多模态标注转变,其领域也从通识领域逐渐扩展到医疗、工业制造等专识领域。
目前,数据标注产业还处于初期阶段,需要各方群策群力,共同培育壮大数据标注产业生态。李建国表示,各地要加强政策落实和引导,与产业各界深度合作,搭建常态化供需对接服务平台;应用企业要以实际需求驱动数据标注能力体系建设,模型厂商等数据应用企业要结合自身技术路线与业务场景,与标注企业共同开展标注工具研发、流程优化工作,推动行业标准规范建设。
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。
推荐阅读
-
兰州红古区:纸间生花茶中品韵尽展巾帼风采为丰富红古区女职工精神文化生活,彰显新时代女性独特魅力。10月14日,由红古区总工会、红古区妇女联合会工会主办,红古区新华书店协办的“纸间生花·茶中品韵·尽展巾...2025-10-19 10:19:55
-
北京自如住房租赁公司增资至92.7亿增幅约67%天眼查工商信息显示,近期,北京自如住房租赁有限公司发生工商变更,注册资本由约55.6亿人民币增至约92.7亿人民币,增幅约67%。 该公司成立于2015年10...2025-10-19 09:56:29
-
中国新型智能穿戴产品总量突破18.1万种中国市场监管部门15日公布,今年前三季度,中国登记使用商品条码的智能穿戴相关产品总量达18.1万种,涉及企业0.6万家,较2020年9月底,智能穿戴产品品种数量...2025-10-19 08:55:57
-
9月中国PPI同比降幅收窄部分行业产能治理见效中国国家统计局15日公布,9月份,中国工业生产者出厂价格指数(PPI)同比下降2.3%,降幅比上月收窄0.6个百分点;环比继续持平。 国家统计局城市司首席统计...2025-10-19 08:18:45
-
百度渠道升级三月:新引入近百家服务商,服务新生态格局初现百度营销体系改革升级进一步提速。自三季度起宣布将区域代理模式升级为服务商模式以来,百度营销地区服务商体系合作伙伴数量已增加至153家,Q3新引入服务商98家。 ...2025-10-19 07:23:57
