ChatGPT到底都被投喂了些什么?

观点 | 2023-05-23| 21
ChatGPT到底都被投喂了些什么?

大模型已成兵家必争之地。

训练模型,最关键的环节之一是投喂数据。

那么训练AI的数据由谁提供,AI成长的养分,又从何而来?

在东西竞跑之下,迭代大模型是核心根本,而标注中文数据,同等重要。

01、海量数据投喂出的AI

使用英文和其他语言的ChatGPT时,体验有差别吗?

有,ChatGPT英文确实比其他语言表现更好。

这种差异除了ChatGPT英文在使用过程中受到的训练更多,同时也要归功于模型创建时期的资料投喂。

2020年,OpenAI在投喂海量数据、更接近人脑的超大基础模型GPT-3模型上持续提升,终于在2022年11月,ChatGPT诞生。

ChatGPT足够智能,是因为它的核心任务是将一个文本进行合理性延续,即根据已有的文本,生成一个符合上下文背景和书写习惯的合理内容。

因此,前期的海量资料投喂与模型训练才是其后期使用过程中最大的差异原因。

据悉,ChatGPT的大模型数据主要来自以下几方面:

维基百科:ChatGPT使用了英文版维基百科的数据,包含了超过640万篇文章,超过40亿个词。

书籍:ChatGPT使用了ProjectGutenberg和BookCorpus的数据,包含了超过10万本书籍,超过20亿个词。

期刊:ChatGPT使用了PubMedCentral和arXiv的数据,包含了超过100万篇期刊文章,超过10亿个词。

Reddit链接:社交媒体网站Reddit上的各种帖子和评论,包含了用户之间的对话和互动。ChatGPT使用了Reddit的数据,包含了超过18亿条链接和评论,超过100亿个词。

CommonCrawl:包含超过31亿个网页内容,超过4100亿个词。

其他数据集:ChatGPT使用了GitHub的代码仓库、WebText2的新闻文章、OpenSubtitles的电影字幕等数据。

从ChatGPT资源投喂上可以看出,ChatGPT获得了更多的英文数据,大模型训练时,也更多地使用英文,而非中文。

所以,在现实使用过程中,ChatGPT英文将比中文反应更快,更智能。反过来,中国大厂创建的人工智能大模型,中文版应比英文版反应更快,更智能。

据悉,目前中国大厂创建的人工智能大模型,数据投喂资源主要分为三类:

公开数据集,如中文维基百科、中文新闻语料库、中文问答语料库等;自有数据集,这些数据集是由各个大厂自行收集、整理、标注的,包括用户行为数据、搜索引擎数据、社交媒体数据、电商平台数据等;合作数据集,这些数据集是由各个大厂与其他机构或组织合作获取的,包括政府部门数据、行业协会数据、科研机构数据等。

一个人工智能大模型的创建,不仅需要超高的运算能力,也需要海量数据投喂和大量的数据标注员。

02、赛博流水线上的民工

人工智能为什么需要数据标注员?

在人工智能大模型投入海量的数据后,还需要像人一样,辨别、理解这些数据,才能成长,成熟,而这个过程离不开数据标注员。

对于人工智能而言,有标签的数据才是有用的数据。

例如人脸识别,人工智能本身不会识别物体,只有当人脸关键点被一一标注之后,计算机才能建立起对人脸的认知。

对数据进行标注是人工智能的一个必须过程。

可以说,数据标注员就是人工智能的老师,帮助人工智能成长。那么,数据标注员每天都如何调校人工智能呢?

数据标注员身上的标签是“互联网民工”、“赛博流水线”。他们每天的日常工作,就是坐在一间如同初代网吧的屋子里,每天对着电脑划拉鼠标几千次。不停地对海量数据进行清洗、分类、画框、注释、标记等操作。

他们将大量的文字、语音、图像打上标记,例如“眼珠”、“四川话”、“绿化带”等。只有被标注过的数据,才能被人工智能模型识别,训练出它的分辨能力。

例如标记道路图片,标注道路图片上的物体名称、颜色等信息。业内人士称这种工作位“拉框”。

他们或许并不明白“什么是人工智能”,但却实实在在是人工智能的老师。

2021年版的《人工智能训练师国家职业技能标准》中,对该职业的能力特征描述是“具有一定的学习能力、表达能力、计算能力;空间感、色觉正常”,普遍受教育程度写的是“初中毕业”。

这意味着,标注员是一份几乎没有门槛的职业。

美国《时代》杂志曾发表过一份调查,OpenAI为训练ChatGPT使用了非洲肯尼亚外包劳工。

据悉,肯尼亚首都内罗毕有30多名ChatGPT的数据标注员,他们每天工作9个小时,阅读150-200段文字。

标注员需要从这些文字中标注出包含性、暴力与仇恨言论的内容,由于每天阅读大量极具冲击力的文字,有人会连续做噩梦。

欠发达地区的标注员不在少数。肯尼亚、乌干达和印度,有不少人是谷歌、Meta和微软等硅谷企业的数据标注员。

这些数据标注员的实得工资约为每小时1.32美元至2美元。这在当地已经算得上中产收入,所以数据标注员虽然会因工作而做噩梦,但他们并没有讨厌这份工作。

而在BOSS直聘等招聘网站上,数字标注员的公司月工资大都在3K-5K,岗位要求在大专及以上学历,专业不限。在贵州、西安等地的县城里,数据标注员的工资仅仅过千。

人工智能快速成长的背后,数据标注员像一群卑微的工蚁,默默地搬运着过冬的食物。

03、即将被取代的老师

中国的数据标注公司主要分为两类,一是人工智能公司内部的标注公司,二是商务流程外包公司。

大厂内部标注公司有京东的京东众智,百度的百度众测,网易的网易有数,阿里的阿里数据标注、腾讯的腾讯数据标注,这些大厂都已经拥有自己的标注平台和工具。

其他新兴的国内数据标注公司,有龙猫数据、Testin云测、倍赛BasicFinder、数据堂等,这些公司都具有相当的规模。

截至2021年初,数据标注企业分布的top5城市是:北京185家,上海84家,成都68家,深圳63家,杭州46家。

这5个城市都是人工智能技术发展和应用的重要区域,拥有大量的需求方和合作伙伴,同时拥有较为完善的政策支持和产业环境。

此外,新疆和田、山西太原、山东济南、河北保定、安徽合肥等地的数据标注产业都在不断成长。

贵州是全国首个大数据综合试验区,而惠水县百鸟河数字小镇也则是贵州首个县级大数据产业园区。

目前,百鸟河数字小镇已培育了迦太利华、金百合、黔南即富、梦动科技、金信大数据等重点企业。

其中,贵州梦动科技员工超过500人,其中的一半人,是附近盛华职业学院的学生。该公司曾入选2020全国数据标注公司排行榜前10强。

郑成安是一名大三在校学生,目前在梦动科技实习,公司全职员工只有十多人,管理层大都是学校里的老师,对他而言上课就是上班,老师就是经理。

郑成安出身农村,上高职前没碰过电脑,现在凭借电脑前的兼职,一个月能拿到1500元以上的收入,他感到非常满足。

有时候,他为了多挣一些生活费,碰上紧急的项目,会主动加班。但郑成安很清楚,标注员的工作很难一直做下去。

2022年6月,美国加州圣马特奥县的特斯拉办公室,200员工被裁员,其中大多数都是数据标注员。

裁员背后,是因为特斯拉正在研发计算机Dojo,采用自监督学习技术,用于训练人工智能模型,对数据标注的需求正越来越低。

不仅如此,国内腾讯、阿里、字节跳动等一众大厂都在研发自监督学习技术。

可以说,随着人工智能的不断成长,数据标注员的工作,也变得岌岌可危。这些曾经教会了人工智能“思考”的人,同样正面临被人工智能取代的风险。

标签:, ,

相关推荐相关推荐

“逆势涨价”刺激大涨?特斯拉逆转颓势,创年内最大单日涨幅

“逆势涨价”刺激大涨?特斯拉逆转颓势,创年内最大单日涨幅

一夜涨超2364亿元 美东时间3月18日,特斯拉大涨超6%,创近6个月单日最大涨幅,收报173.8美元,最新总市值5524.97亿美元。公司市值一夜涨超328亿美元,约合人民币2364亿元。消息面上,当地时间3月16日,特斯拉宣布,将于3月22日在多个欧洲国家提高其M ...

观点 9 2024-03-19
完美故事的尾声,实物的再度崛起

完美故事的尾声,实物的再度崛起

美国财富分配变化已至,新中产开始崛起 【报告导读】在软着陆(通胀回落+经济避免于衰退)+人工智能技术进步+俄乌冲突后美国秩序重建的叙事下,2023年无疑是属于以美股为代表的金融资产的一年。市场忽视的是,在美国奇迹下各部门之间的分化。这一分 ...

观点 7 2024-03-19
AI手机,消费电子新篇章

AI手机,消费电子新篇章

手机端或有望形成新的流量入口,深刻影响手机厂商商业模式。 继AIPC后,我们看到AI手机在模型侧、硬件侧、操作系统及应用侧均存在产业升级趋势,未来AI手机或将重塑手机行业生态。摘要AI手机:把大模型装进手机,智能终端演进的新方向。AI手机指的是 ...

观点 8 2024-03-19
铭基高科冲刺创业板,业绩存在波动,依赖前五大客户

铭基高科冲刺创业板,业绩存在波动,依赖前五大客户

聚焦精密连接组件领域 近期,广东铭基高科电子股份有限公司(以下简称“铭基高科”)更新了首次公开发行股票并在创业板上市招股说明书申报稿,保荐人为国信证券股份有限公司。格隆汇了解到,铭基高科致力于精密连接组件研发、生产、销售。截至招股说明 ...

观点 8 2024-03-19
全球手机厂商“新革命”打响,AI手机成角逐新赛场,谁在奋力鏖战?

全球手机厂商“新革命”打响,AI手机成角逐新赛场,谁在奋力鏖战?

再不布局就没戏了 AI 的风又吹到了手机行业。近两日,在苹果、高通等巨头新动作影响下,AI手机概念成为资本市场“新宠儿”。截止午盘,福蓉科技封涨停板,水晶光电涨超4%,中科创达、思泉新材、江波龙等跟涨。全球手机厂商“新革命”这将是一次划时代的 ...

观点 9 2024-03-19
“二师兄”身价回升,猪肉股“起飞”了!业内普遍预期谨慎,“猪周期”拐点何时显现?

“二师兄”身价回升,猪肉股“起飞”了!业内普遍预期谨慎,“猪周期”拐点何时显现?

短期难以持续走强 3月19日,猪肉板块震荡拉升,截至午盘,湘佳股份涨停,傲农生物涨超9%,神农集团涨超8%,华统股份、巨星农牧涨超6%,新五丰、牧原股份、唐人神、金新农、温氏股份等纷纷跟涨。消息上,生猪期货近期大涨,触及三个月高点。此外,农 ...

观点 8 2024-03-19
为什么行情会轮动成电风扇?

为什么行情会轮动成电风扇?

一方面,投资者们有很强的阿尔法思维惯性;另一方面,市场的增量资金主要是无偏资金。

观点 7 2024-03-19
油价持续上攻!港股“三桶油”齐拉升,后市有望继续冲高?

油价持续上攻!港股“三桶油”齐拉升,后市有望继续冲高?

全球石油需求将在2024下半年达到历史新高。 3月19日,港股石油股走强,板块涨幅一度超过3%,随后有所回落。个股上,截止发稿,中国海洋石油、中国石油股份涨超1%,中国石油化工股份等跟涨。回顾来看,自今年1月底以来,港股石油股持续震荡上行,累计 ...

观点 7 2024-03-19
信达策略:季度普涨,年度主线关注周期&AI

信达策略:季度普涨,年度主线关注周期&AI

高频经济数据显示宏观经济运行结构分化较明显 核心结论2月以来,高频经济数据显示宏观经济运行结构分化较明显,房地产行业数据仍偏弱,经济预期边际改善不多。但伴随着流动性风险的缓解、利率下行带来长期配置资金的流入,以及自下而上的微观盈利反 ...

观点 5 2024-03-19
如何理解超预期的经济数据?

如何理解超预期的经济数据?

出口拉动工业增加值回升 主要观点1-2月经济数据亮眼,表现超预期。1-2月工业增加值累计同比增长7.0%,较去年12月提升0.2个百分点,两年复合增速为4.7%,较去年12月提升0.6个百分点。而1-2月服务业生产指数累计同比增长5.8%,两年复合增速为5.6%,较 ...

观点 7 2024-03-19