当前位置: 首页>行业 >

人类数据告急,微软OpenAI开始用AI喂AI,奥特曼放话:未来所有数据都将变成合成数据

来源: 富途牛牛 | 时间: 2023-08-14 14:48:52 |

人类数据缺缺缺,AI被迫开始吃AI生产的数据了!

这是微软、OpenAI等一众AI前沿公司面临的现状。

他们从维基百科、电子书、新闻网站、博客、推特和Reddit等平台和论坛中搜罗了大量数据,然后现在……这些数据快被用完了。


(相关资料图)

BUT,要训练更好的大模型,多少数据都不够。

据《金融时报》介绍,不少公司正把大模型生成的结果、也就是所谓的合成数据(Synthetic data),喂给参数量更小的大模型吃,发现效果还不错。

对于使用合成数据,OpenAI的CEO Sam Altman不仅不介意,还放话“未来所有数据都将变成合成数据”。

估值20亿美元的大模型初创公司Cohere同样在用合成数据。公司CEO、经典大模型Transformer论文作者之一Aidan Gomez甚至认为:

合成数据可能加速通往“超级智能”AI系统的道路。

所以,究竟哪些大模型已经在用合成数据了,这些合成数据又是从何而来?

大AI合成数据,小AI吃

这些所谓的合成数据,本质上是用当前表现较好的大模型生成的数据,经过人工调整后,再喂给稍微小一点的大模型。

例如Cohere公司就尝试使用了两个大模型进行“角色扮演”对话,并将它们生成的结果做成合成数据。

这两个大模型分别扮演“数学老师”和“学生”,正在进行一堂虚拟的数学教学。同时,Cohere安排一个人类员工在旁边监督对话生成。

一旦对话出现错误,人类员工就会插手对文本进行修正。

尽管确实还需要人力,但这比聘请科学、医学和商业方面的专家来撰写文本要便宜得多。

那么,什么样的大模型会用到这些合成数据呢?

微软研究院最近有研究表明,合成数据可以用于训练比GPT-4或PaLM-2稍微小一点的语言模型。

以用GPT-4生成的一个“四岁儿童小说”数据集TinyStories为例,这个数据集被证明虽然只包含4岁小孩能理解的单词,但用于训练一个大模型之后,同样可以生成语法正确、阅读体验流畅的故事:

对于使用合成数据的理由,Cohere的CEO Aidan Gomez认为:

能从网上获取数据当然更好,但网络数据太杂乱了,完全无法满足需求。相比之下,合成数据已经非常多了,即使它还没被广泛传播。

背后产业链已出现

目前,包括Scale AI、Gretel.ai等企业,已经开始给外界提供合成数据服务。

先是Scale AI,旗下就推出了一款合成数据产品Scale Synthetic,用于给企业提供合成数据服务。

而在之前一篇SemiAnalysis爆料GPT-4“大花边”的新闻中,还提到GPT-4的数据集中,有数百万行是来自Scale AI和内部的指令微调数据。

至于合成数据平台Gretel.ai,从官网来看,它已经和谷歌、拳头游戏、汇丰银行等不同企业进行了合作,以生成更多合成的数据提供给其他开发者使用。

Gretel.ai的CEO Ali Golshan认为,合成数据的好处在于,它保留了数据集中所有个人的隐私,同时仍然保持其统计学意义上的完整性(statistical integrity)。

但并非所有人都接受合成数据这种“神奇操作”,目前各方的看法主要分成两波。

一部分赞同使用合成数据。包括Cohere等AI公司在内,有不少搞大模型的企业仍然坚持这一做法,并认为它可能生成更好的AI,甚至从中诞生出“超级智能”。

另一部分则认为,合成数据终将让AI“自食其果”。

例如一篇来自牛津大学、剑桥大学、帝国理工学院、多伦多大学、爱丁堡大学和Vector Institute多家机构的研究表明:

使用合成数据训练,会让模型出现不可逆转的缺陷:

忘记那些“不可能发生的事件”,最终被自己生成的数据毒害。

有网友认为,这些合成数据最后会变成一滩“无法使用的污泥”——然后人们不得不被迫雇佣数据科学家来对它进行清洗。

还有网友调侃,这听起来就像是“AI近亲繁殖”一样。

你认为AI需要使用合成数据吗?

编辑/lambor

关键词:

 

热文推荐

人类数据告急,微软OpenAI开始用AI喂AI,奥特曼放话:未来所有数据都将变成合成数据

人类数据缺缺缺,AI被迫开始吃AI生产的数据了!这是微软、OpenAI等一众

2023-08-14

秒杀什么意思?(秒杀什么意思)

导读1、秒杀,即为瞬间致死,或一招死。2、后来扩展为多人同时,或多技

2023-08-14

夏威夷山火遇难人数继续上升 身份确认工作启动

据美联社13号报道,截至当地时间12号晚,美国夏威夷州毛伊县野火遇难人

2023-08-14

猪皮冻猪皮和水的比例是多少为宜

猪皮冻的制作工艺绝对是慢工出细活。第一步是将猪皮脱脂去毛。用手触摸

2023-08-14

首钢园6、7号馆设置六大展区!服贸会体育专题9月初启幕

记者8月14日上午从2023年中国国际服务贸易交易会(以下简称“服贸会”

2023-08-14

微信无犯罪记录证明怎么办理

据了解,目前有部分地区的无犯罪记录证明是可以网上办理的,大家可在微

2023-08-14

浙江荣泰:公司主营业务为各类耐高温绝缘云母制品的研发、生产和销售

每经AI快讯,有投资者在投资者互动平台提问:董事长你好,贵公司现有产

2023-08-14

镇赉谱出致富“茭”响曲

吉林日报讯(记者王春胜)茭白本是南方蔬菜作物,如今却成为镇赉县的主

2023-08-14

东风风神皓瀚新车上市

近日,东风风神正式上市全新紧凑级SUV皓瀚,新车推出燃油版和油电混合

2023-08-14

小米Mix Fold 3通过Geekbench超频Snapdragon 8 Gen 2

小米将于8月14日星期一在中国的一次特别活动中正式发布MixFold3。在此

2023-08-14

山水比德(300844)8月11日主力资金净卖出189.07万元

截至2023年8月11日收盘,山水比德(300844)报收于48 8元,上涨0 99%,换

2023-08-14

广州出台措施刺激夜间消费 培育并认定30个都会级夜市先行区

《若干措施》提出,要打造四类羊城夜市特色载体。建立都会级羊城夜市先

2023-08-14

APP“自动续费”引热议,如何将选择权还给消费者?

新湖南,主流新媒体,移动新门户。-分享自@新湖南

2023-08-14

晨读计划丨来长沙首个云端夜市抢红包,今夏还有这么多流星雨等你来看

一周新开始,有哪些新鲜资讯值得关注?跟随潇湘晨报·晨视频,开启今日

2023-08-14

银河奇异果app下载 银河奇艺果

今天来聊聊河奇异果app下载,银河奇艺果的文章,现在就为大家来简单介

2023-08-14

手机动态:iphone如何关闭反转色

智能手机是信息技术的一大重要技术之一,我们现在已经进入了智能手机时

2023-08-14

暴雪《守望先锋 2》开发者并不在意玩家数量下降

IT之家8月13日消息,随着新的第六赛季“入侵”到来,《守望先锋2》已经

2023-08-13

「风口解读」注意!阳光诺和五名IPO前股东拟再减持不超4%,此前刚减持0.6815%

来源:泡财经泡财经获悉,8月13日晚间,阳光诺和(688621 SH)公告,股东

2023-08-13

西安泥石流致21人遇难6人失联

据“西安应急管理”微信公众号13日消息,8月11日长安区滦镇街道喂子坪

2023-08-13

ntldr不见了怎么办(ntldr丢失)

1、什么是NTLDR?2、NTLDR是一个隐藏的只读系统文件,只能通过在“打开

2023-08-13

资讯

北京推出14条秋游文化线路

金秋时节,北京市文化和旅游局以赏银杏品文化为主题,推出14条“叶落的季节——漫步北京赏银杏品文化主题线路”,邀市民和游客以步行、骑行

2021-10-27     
基因编辑发力 培育高质量人源化供体猪

此次人体试验,仅仅验证了基因编辑猪克服异种器官移植的超急性排斥反应,还需解决延迟性排斥反应、消耗性血栓等问题。但通过这次试验,能更

2021-10-27     
中国经济高质量发展步伐稳健 长期向好基本面未变

在全球疫情走势和经济走势趋于复杂的背景下,中国经济巨轮将驶向何方,举世关注。2020年10月26日至29日,党的十九届五中全会在京举行,明确

2021-10-27     
南美解放者杯决赛允许近4.5万观众入场

南美洲足联主席多明格斯25日与今年解放者杯决赛对阵的两支俱乐部负责人会晤,宣布决赛现场观众人数增加到球场容量的75%,即近4 5万人。今年

2021-10-27     
22年从警生涯 面对荣誉他说不要给我报功

9月24日,时任安徽省安庆市公安局迎江分局刑警大队大要案中队中队长周磊因在工作中激烈搏斗引发心源性猝死,倒在了工作岗位上,经医院抢救

2021-10-27     
走近冬奥|五棵松体育中心场馆“黑科技”全面上岗 助力冬

“相约北京”冰球国内测试活动将于2021年11月7日至10日在五棵松体育中心场馆举行,在疫情防控方面,场馆引入了诸多“黑科技”,为防疫安全

2021-10-27