您当前的位置: 前瞻经济网 > 资讯 > 正文
前瞻经济网-移动版 首页

数据标注:人工智能产业重要一环

2023-10-17 15:44

图片

近日,成都12345产业建圈强链“蓉易见”系列活动、2023年成都市人工智能产业建圈强链8场产业赋能活动:新算力 新基建 新动能——算力企业调研交流会顺利举行。本次活动由成都市经信局市新经济委指导,雨前顾问、成都市人工智能产业生态联盟主办。

会上,以晓多科技为代表的人工智能企业提出,当前国内大模型研发及相关应用产业快速崛起,海量的数据训练、人工标注、指令微调、基于人类反馈的强化学习(RLHF)等需求推动大模型数据标注正发挥出新的价值。

图片

人工智能产业的蓬勃发展,对数据的需求呈井喷式增长,数据标注行业是伴随着AI的兴起而产生的一个新兴行业。数据标注是指借助特定软件标注工具以人工的方式将图片、语音、文本、视频等数据内容打上特征标签,使计算机通过大量学习这些带有特征标签的数据,最终具备自主识别特征的一种行为。数据标注技术作为提供训练数据的必经环节,促进了人工智能的快速发展。

从市场规模看,据贝哲斯咨询预测,2022-2028年全球数据标注工具市场规模将从90.25亿元增长至385.61亿元,CAGR大约为27.39%。其中,中国将成为全球最大的数据标注市场之一。2021年我国数据标注行业市场规模达到43.3亿元,同比增长约19.2%,预计到2029年市场规模将达到204.3亿元。

从发展趋势看,大模型领域的新趋势是垂直大模型,尤其是医疗、自动驾驶等专业性较强的垂直领域,AI应用企业很难找到足够多的专业人士去做数据标注,未来第三方的专业化数据标注服务拥有广阔的市场空间。

从企业分布看,中国数据标注与审核行业快速发展,数据标注行业内的数据标注机构主要有三类,一类是AI公司内部的标注部门,如小米、旷视、NVIDIA自动驾驶组等都有大量数据标注任务由公司内部完成。但大多数人工智能初创企业数据标注仍是外包出去。一类是数据标注众包平台,如蚂蚁众包、百度众测、京东众智等。百度云在海口打造了国内首个大模型数据标注中心,并打造了自主研发的大模型数据标注平台,能够通过人机协同标注、多轮智能审核等智能化工具有效提升数据标注的产能和质量;京东在山东设立京东众智大数据标注助残基地、并推出了Wise开放标注平台;字节跳动在全国也设立了六个标注基地。还有一类是专门做数据采标的公司,国外已产生了Scale AI、Dataloop、SuperAnnotate、Labelbox等一批专业的数据标注公司。国内目前以北京、杭州等地区为代表,正涌现出一批以大模型数据标注为核心业务的创新型企业。如国内首家主板上市的数据标注企业海天瑞声,2022年营收已达到2.63亿元;数据标注领先企业云测数据开发了专门面向垂直大模型的数据解决方案,通过“持续预训练、下有任务微调和灰度发布联调”三个阶段,将交付精度标准拉到99.99%。从2023数据标注公司排行榜可以看出,国内数据标注企业主要集中在北京,且成立时间较短。

晓多科技企业代表指出,目前,大模型垂直领域的标注成本非常高,如仅仅是电商一个类目的数据标注,就需要耗费大量的时间和人力成本,能够提供高质量数据标注的企业非常稀缺,这对成都来说是一个发展机遇。成都拥有良好的数据产业发展基础,建议成都重视数据标注技术发展,加大对成都聚微启创科技等初创型数据标注企业的支持,打造成都人工智能产业完整生态体系。

图片

来源: 互联网 责任编辑:前瞻经济网
免责声明:
  • 注明“来源:前瞻经济网”的所有作品,版权均属于前瞻经济网,未经本网授权不得转载、摘编或利用其它方式使用上述作品;经本网授权使用作品的,应在授权范围内使用,并注明"来源:前瞻经济网";违反上述声明者,本网将追究其相关法律责任。
  • 前瞻经济网转载文章是为了传播信息,不代表本网观点。如因作品内容、版权和其它问题需同本网联系的,请在相关作品刊发之日起30日内发送至电子邮箱:

数据标注:人工智能产业重要一环

图片

近日,成都12345产业建圈强链“蓉易见”系列活动、2023年成都市人工智能产业建圈强链8场产业赋能活动:新算力 新基建 新动能——算力企业调研交流会顺利举行。本次活动由成都市经信局市新经济委指导,雨前顾问、成都市人工智能产业生态联盟主办。

会上,以晓多科技为代表的人工智能企业提出,当前国内大模型研发及相关应用产业快速崛起,海量的数据训练、人工标注、指令微调、基于人类反馈的强化学习(RLHF)等需求推动大模型数据标注正发挥出新的价值。

图片

人工智能产业的蓬勃发展,对数据的需求呈井喷式增长,数据标注行业是伴随着AI的兴起而产生的一个新兴行业。数据标注是指借助特定软件标注工具以人工的方式将图片、语音、文本、视频等数据内容打上特征标签,使计算机通过大量学习这些带有特征标签的数据,最终具备自主识别特征的一种行为。数据标注技术作为提供训练数据的必经环节,促进了人工智能的快速发展。

从市场规模看,据贝哲斯咨询预测,2022-2028年全球数据标注工具市场规模将从90.25亿元增长至385.61亿元,CAGR大约为27.39%。其中,中国将成为全球最大的数据标注市场之一。2021年我国数据标注行业市场规模达到43.3亿元,同比增长约19.2%,预计到2029年市场规模将达到204.3亿元。

从发展趋势看,大模型领域的新趋势是垂直大模型,尤其是医疗、自动驾驶等专业性较强的垂直领域,AI应用企业很难找到足够多的专业人士去做数据标注,未来第三方的专业化数据标注服务拥有广阔的市场空间。

从企业分布看,中国数据标注与审核行业快速发展,数据标注行业内的数据标注机构主要有三类,一类是AI公司内部的标注部门,如小米、旷视、NVIDIA自动驾驶组等都有大量数据标注任务由公司内部完成。但大多数人工智能初创企业数据标注仍是外包出去。一类是数据标注众包平台,如蚂蚁众包、百度众测、京东众智等。百度云在海口打造了国内首个大模型数据标注中心,并打造了自主研发的大模型数据标注平台,能够通过人机协同标注、多轮智能审核等智能化工具有效提升数据标注的产能和质量;京东在山东设立京东众智大数据标注助残基地、并推出了Wise开放标注平台;字节跳动在全国也设立了六个标注基地。还有一类是专门做数据采标的公司,国外已产生了Scale AI、Dataloop、SuperAnnotate、Labelbox等一批专业的数据标注公司。国内目前以北京、杭州等地区为代表,正涌现出一批以大模型数据标注为核心业务的创新型企业。如国内首家主板上市的数据标注企业海天瑞声,2022年营收已达到2.63亿元;数据标注领先企业云测数据开发了专门面向垂直大模型的数据解决方案,通过“持续预训练、下有任务微调和灰度发布联调”三个阶段,将交付精度标准拉到99.99%。从2023数据标注公司排行榜可以看出,国内数据标注企业主要集中在北京,且成立时间较短。

晓多科技企业代表指出,目前,大模型垂直领域的标注成本非常高,如仅仅是电商一个类目的数据标注,就需要耗费大量的时间和人力成本,能够提供高质量数据标注的企业非常稀缺,这对成都来说是一个发展机遇。成都拥有良好的数据产业发展基础,建议成都重视数据标注技术发展,加大对成都聚微启创科技等初创型数据标注企业的支持,打造成都人工智能产业完整生态体系。

图片

责任编辑:前瞻经济网
免责声明:
  • 注明“来源:前瞻经济网”的所有作品,版权均属于前瞻经济网,未经本网授权不得转载、摘编或利用其它方式使用上述作品;经本网授权使用作品的,应在授权范围内使用,并注明"来源:前瞻经济网";违反上述声明者,本网将追究其相关法律责任。
  • 前瞻经济网转载文章是为了传播信息,不代表本网观点。如因作品内容、版权和其它问题需同本网联系的,请在相关作品刊发之日起30日内发送至电子邮箱:

相关阅读