AI数据告急,大厂盯上廉价年轻人

发布日期:2024-09-20 14:22

来源类型:锦绣太原 | 作者:柯林·麦克法兰

【澳门金牛版正版资料大全免费】【新澳开奖记录今天结果】【2024年新澳门王中王资料】【管家婆最准一肖一码】【新澳彩开奖结果查询】【澳门6合开彩结果2024年】【4949澳门免费资料大全特色】【2024今晚澳门特马开什么号】【今晚新奥九点半出什么生肖】【2O24澳彩管家婆资料传真】
【494949澳门今晚开什么】 【2024新澳免费资料】 【香港最准100%一肖中特特色】

还在犹豫什么?好运的机会稍纵即逝!赶紧关注我,一起开启幸运之旅吧!祝您财运亨通,心想事成!

AI数据告急,大厂盯上廉价年轻人

300元一次的“AI剧本杀”,互联网大厂的数据焦虑症解药?

“可以更详细一些吗?可以再详细一些吗?”,耳机里传来大厂工作人员近乎机械的指令,张雪长舒一口气,揉了揉有些僵硬的脸颊,继续对着麦克风,努力扮演着AI剧本里那个“情绪饱满”、“逻辑清晰”的角色。3个小时,2个人,80分钟的自由发挥和60组设定好的对话,这就是她今天的工作——为AI大模型录制训练数据,而报酬是300元。

这场发生在录音棚里的“AI剧本杀”,只是当下人工智能领域数据争夺战的一个缩影。随着AI大模型的爆发式增长,曾经触手可得的互联网公开数据,正像即将干涸的河流,难以满足AI巨兽们日益膨胀的“胃口”。2023年5月,OpenAI首席执行官阿尔特曼就曾公开表示,AI公司在不久的将来会耗尽互联网上所有的数据。而研究机构Epoch AI更是在6月的研究报告中预测,可用于AI语言模型公开训练的数据,将在2026年到2032年间被科技公司彻底耗尽。

面对这场迫在眉睫的数据危机,互联网巨头们纷纷开始行动,试图找到新的数据来源,以维持AI大模型的持续进化。而“砸钱”,成为了这场数据争夺战中最简单粗暴也最行之有效的方式。

一方面,大厂们加大了对第三方数据公司的投入,高薪聘请数据标注员、AI编辑等,对海量数据进行清洗、标注和加工,以满足AI训练的需求。小语种专业毕业的阿琳就亲历了这场数据标注的热潮。去年,她还能轻松找到一份为AI图片识别做文字验收的工作,一个词一毛钱,一天下来也能赚个几十块。而今年,随着AI翻译需求的暴增,她已经开始为各大公司的大模型做翻译内容的对比和标注,价格也水涨船高,涨到了一块多一条。

另一方面,为了摆脱对第三方数据的依赖,越来越多的互联网巨头开始自建数据基地,试图将数据命脉掌握在自己手中。百度、美团等公司纷纷在二三线城市建立数据中心,招聘大量人员进行数据采集和标注工作。这些数据中心就像一个个巨大的“数据工厂”,源源不断地为AI大模型输送着新鲜的“养料”。

这场数据争夺战并非一片坦途。对于那些缺乏数据积累的AI创业公司和中小企业高昂的数据成本成为了横亘在他们面前的一道难以逾越的鸿沟。一位AI创业公司的算法工程师Leo就无奈地表示:“核心的闭源高质量数据,往往都已经被大厂垄断,AI创业公司,甚至是AI四小龙,都可能只能拿到边缘数据。” 有限的数据资源,也导致了目前很多大模型存在着“大数据幻觉”的问题,即生成的内容与现实世界事实或用户输入不一致。当你要求AI生成“一个小女孩怀里抱着一只布偶猫”的视频时,它可能会生成一个抱着其他品种猫咪的小女孩,因为在它的数据库里,并没有足够多的“布偶猫”的图片信息。

数据,已经成为制约AI大模型发展的关键瓶颈。如何获取高质量的数据,如何打破数据孤岛,如何构建更加公平、开放的数据共享机制,这些问题已经成为摆在所有AI从业者面前的时代考题。

300元一次的“AI剧本杀”,或许只是这场数据争夺战的一个开始。在AI将会如何重塑我们的世界?而我们,又该如何应对这场前所未有的数据革命?

本文创作初衷在于传播正能量,无任何侵犯他人权益的意图。如有侵权,请联系我们,我们将积极配合处理。

Tupper:

1秒前:300元一次的“AI剧本杀”,或许只是这场数据争夺战的一个开始。

妮可拉·考夫兰:

5秒前:” 有限的数据资源,也导致了目前很多大模型存在着“大数据幻觉”的问题,即生成的内容与现实世界事实或用户输入不一致。

王永健:

1秒前:3个小时,2个人,80分钟的自由发挥和60组设定好的对话,这就是她今天的工作——为AI大模型录制训练数据,而报酬是300元。

Bolkan:

8秒前:这场数据争夺战并非一片坦途。