百度文心一言,还是个不完美的“小孩 ”

观点 | 2023-03-22| 64
百度文心一言,还是个不完美的“小孩 ”

用“不完美小孩”,形容目前的百度文心一言,再合适不过了。

“不完美”体现在,用户们连着五天测试发现,文心一言偏科较为严重:

是目前唯一能够直接进行“文生图”的模型,在文学创作例如诗词上有着“天赋”,但在“数学课”、“计算机编程课”较为差劲。

同时,文心一言也有着“小孩”的浮躁与诚实:

不得不说,百度前期造势过猛。百度Q4季度财报以及高管发言无不预告着,文心一言成为百度2023年及之后的主题曲:

在发给百度全员的财报信中,李彦宏重点介绍了百度将在三月份推出的生成式AI产品文心一言(ERNIE Bot),宣布计划将多项主流业务与文心一言整合。

同时2月份以来,各行各业接入百度文心一言消息不断,多次霸占新闻头条。

一顿操作猛如虎,让人误以为百度已经完完全全准备好了。

于是在发布会,百度高管诚实表示文心一言还不够成熟之时,百度股价应声而落:李彦宏诚实指出,自己体验时并不完美,这类大语言模型还远未到发展完善的阶段;百度首席技术官王海峰也提到模型目前“训练不够充分”。

于是,自3.16下午两点发布会开始之后,百度一度大跌10%。

(百度近日股价变动 图源:百度股市通)

而当用户真正去感受文心一言产品之时,发现其综合来看表现还算合格,3.17过后,股民们又陆陆续续跑来鼓励这个“不完美小孩”。

股价跌也跌了,涨也涨了,大家骂也骂了。最终,我们还是得冷静下来,为这个不完美小孩,找一找差距,谋一谋出路。

01 不够理性的偏科生

3.16日,文心一言站上考场,“考官”们蜂拥而上,对其进行全天的“提问”。

考虑到个人测评样本过少,小编以国金证券券商测评结果为主,以机器之心、品玩等科技赛道自媒体测试结果为辅,对文心一言这五天的表现进行评估。结果发现,文心一言“同学”偏科较为严重:

(三大模型测评结果综合对比 图源:国金证券研究所)

在推理类问题中,文心一言在演绎推理、逻辑推理等领域表现逊于GPT系列模型。例如在面对以下问题时,文心一言表现欠佳,GPT-3.5和4持平:

在归纳总结类任务中,文心一言表现较好。品玩让文心一言和GPT-3分别给出一个用 5 块钱度过一周的方案,文心一言、GPT-3的回答是:

可以看到,文心一言给出了更为贴合现实的方案;而GPT-4 的回答,便是听君一席话,如听话一席。

在数学和代码类问题中,文心一言与GPT-3、GPT-4便有着较大的差距:

而在一些岗位的测试中,三大模型均能较好地完成Al生活助手、产品推荐等文本生成任务,其中在教育辅助岗位,在文言文和古诗词理解运用方面,文心一言有着“本土优势”,表现略佳。

(文心一言翻译情况 图源:机器之心)

一整个测试下来,文心一言偏科还挺严重:一方面逻辑推理欠佳,对数学、计算机编程几乎“一窍不通”;一方面归纳总结能力较强,在文学创作、古诗文理解上有着“天赋”,有着文科生的潜质。

同时,也有着做“艺术生”的潜质:文心一言具备多模态生成能力,包括生成图片、生成语音(包括方言)以及生成视频的能力。以生成图片为例,机器之心让文心一言生成一张湖心亭看雪的水墨画,其生成速度、效果都在中上水准。

(文心一言文生图情况 图源:机器之心)

综合看下来,在这五天的小考内,文心一言基于“本土优势”展现出自己在文学、艺术等方面的长处,相应地也暴露出在理科、以及逻辑思辨能力的较大短板。

文心一言,是个不够理性的偏科生。

02 成长的代价

经历过这五天上千万条拷问,文心一言应该能够“意识到”,自己需要恶补“理性思维”,从而能够在毕业时,cover住更多的岗位。

此刻,文心一言便需要向目前班级上逻辑思维能力更好的ChatGPT,找找差距,取取经。

在AIGC时代,算法、数据、算力是衡量差距的三把标尺:

在算法层面,百度与ChatGPT事实上是站在同一起跑线上的——百度与OpenAI、谷歌都是基于Transformer模型去做不同的变体,延展出各自的深度学习框架以及再上层的大模型。

(芯片—AIGC框架图 图源:浙商证券)

在数据层面,二者差距较为明显:相比于百度文心一言,ChatGPT经历了多次模型训练,并被无数个“考官”进行无数次指点,同时有专门的数据标注人员进行方向的修正。

据华西证券表示,ChatGPT大模型最大的特点便是,引入人类反馈的强化学习(RLHF)。

RLHF简单来说,就是用人工标注的方式,不断地将结果去反馈给模型:回答好的给出正反馈(例如图上的Correct),回答不好的,就通过加分机制的方式让模型进一步的自我迭代,并进行不断的调优,直到回答正确。

(ChatGPT答复情况 图源:知乎博主LowinLi)

百度同样也采用RLHF,并辅以“对话增强、有监督精调”等机制,也就是说底层架构、技术路径相似,百度缺的是大量语料库的训练与反馈。毕竟,未被RLHF狠狠修正过的ChatGPT,在刚上线的时候也出现了大量混乱的回答。

(百度文心一言模型技术 图源:百度)

而在算力层面的差距,基本上可以靠钱填平。

这是因为,尽管美国出口限制政策影响较大,国内仍能采购性能更低的前代算力芯片,或者是使用自己研发的芯片,只是相对牺牲了计算速度。

同时,国内头部科技企业能够实现算力资源部分自给;国家也在重视算力的建设:2月24日,东数西算一体化算力服务平台在宁夏银川正式上线发布。该平台将瞄准ChatGPT运算能力,以支撑中国人工智能运算平台急需的大算力服务。

不过,相比于阿里巴巴和华为,百度的数据中心容量有待提升。

(全球前十大科技企业数据中心容量排名 图源:华西证券)

总结来看,文心一言的“文具”已然备齐,缺的是大把时间、大量资金去训练。

那么,“家长”百度若想让这个不完美小孩达到班级中上水平,需要砸多少钱?

根据华西证券测算,在不考虑人力支出及维护费用条件下,百度需要补足的成本拆分为训练成本、推理成本及数据标注成本,分别需要2.29亿元、13.62亿元、0.05亿元。

(类ChatGPT应用中期年均成本测算 图源:华西证券)

也就是说,百度需要保持年均16亿元的投入,将有可能达到ChatGPT目前的能力。除此之外,文心一言为成长付出的代价包括但不限于:

为保证以上流程能够正常运转,百度还需吸纳更多的高价AI人才:在猎聘大数据研究院近期发布的AI人才报告中显示,2022年AI相关岗位招聘的平均年薪为33.15万,比互联网岗位高4.27万;而2023年以来的一个多月,AI岗位招聘的平均年薪已达到42.51万元,比上一年高出9万多;

为提供充足的算力,百度需要耗费更多资金建立并运作更多的数据中心:根据百度以往数据来看,一个数据中心的耗费在47亿元-100亿元区间。

目前来看,百度有实力给“孩子”培训并让其吃饱喝足:

在2017年,百度提出“All IN AI”之后,百度持续为AI输血。在2022全年资本开支(除爱奇艺)高达181亿元。

并且现金流也较为充沛:截至2022年末,百度公司现金、现金等价物及受限现金为652亿元。

这个不完美小孩,在百度“富裕”的家庭环境下,未来或许会有着不错的发展。

03 百度搜索先吃到红利?

当大量的钱、人才、算力砸进去,文心一言具备了成熟的思维能力之后,百度要怎么走?

从目前来看,百度文心一言有两条“创业”方向:

1)为开发者直接提供API调用接口并收费。

据报道,“文心一言”已经以API形式接入650家企业,发布当日已有6.5万家企业申请测试,签约5家客户。

也就是说,B端商业化的思路已经显现。

但不排除后期因为预训练语言模型规模急剧增长,成本实在“蚌埠”住,最后无法持续提供服务的情况:OpenAI便是出于商业角度考虑和高昂的端侧微调成本,大规模预训练语言模型不再被开源。

2)将AGI技术嵌入到自身成熟应用中,提供更强用户体验,进而推动用户为附加服务付费。例如,微软将GPT模型嵌入其搜索引擎Bing中:

2022年2月,微软新推出NewBing,该模块能够与用户对话、协助用户起草文本;

(Bing广告情况 图源:华西证券)

目前,Bing已经靠着ChatGPT,在短时间内,火速对巨头谷歌产生一定的威胁:

data.ai数据显示,新功能上线当日,必应Bing应用程序的全球下载量在一夜之间猛增十倍;截至3月10日,Bing活跃用户已突破1亿人,增幅超600%。

(NewBing下载量 图源:华西证券)

撇去ChatGPT本身热度,Bing收获青睐的原因是,搜索引擎与类ChatGPT产品能够双向互补:

1)搜索引擎能够弥补GPT的“消息滞后”。ChatGPT的训练数据集仍停留在2021年,因此难以回答时效性问题,而BingChat能够基于实时更新的搜索库进行回答。

2)ChatGPT能够对搜索结果进行直观集成,无需将链接一个个点开寻求答案,大大优化了用户体验。同时在此基础上,也增添了趣味性:微软为NewBing设置了三种性格状态,用户可根据偏好自行设定对话模型的回应风格。

基于此,更为人性化的、信息更为“新鲜”、全面的NewBing能够长时间地留住客户。用户在手,NewBing变现的野心已经遮不住了:广告引流已经开始。

目前,据华西证券发现,Chat界面提供了新的广告位:Bing已经在回复框中,对电商产品进行展示引流。

(Bing广告情况 图源:华西证券)

参照NewBing,百度搜索或许能够第一个吃到文心一言的红利。

但百度需要做到的是,在发展文心一言的同时,也要好好优化一下百度搜索,目前,百度搜索的使用体验并不友好:

根据偲睿洞察记者调查发现,在搜索“下载网易云音乐”这类明确的指令之下,百度有1亿条结果,一直到第18条才出现官网下载地址,前18条里还有6个广告,相比之下,必应有7亿多个结果,在第5条出现了官网下载地址;

在搜索“五官医院”时,必应出现3.95亿条结果,第一个词条是出现最近的五官医院的官网以及地址信息,之后是附近五官医院的地址,而百度出现41万条结果,迎面的几条都是机器人在线医疗......

当百度搜索更为精准之后,文心一言在此基础上,才能够提供更个性化、更高效的搜索服务,从而提升搜索的变现效果。

除了搜索之外,百度还将其融入智能云、Apollo自动驾驶、小度智能设备等:在财报后的全员信中,李彦宏表示,百度的多项主流业务与文心一言整合。

而这一切的一切,都得等文心一言这个偏科生更“理性一点”。

标签:, ,

相关推荐相关推荐

“逆势涨价”刺激大涨?特斯拉逆转颓势,创年内最大单日涨幅

“逆势涨价”刺激大涨?特斯拉逆转颓势,创年内最大单日涨幅

一夜涨超2364亿元 美东时间3月18日,特斯拉大涨超6%,创近6个月单日最大涨幅,收报173.8美元,最新总市值5524.97亿美元。公司市值一夜涨超328亿美元,约合人民币2364亿元。消息面上,当地时间3月16日,特斯拉宣布,将于3月22日在多个欧洲国家提高其M ...

观点 28 2024-03-19
完美故事的尾声,实物的再度崛起

完美故事的尾声,实物的再度崛起

美国财富分配变化已至,新中产开始崛起 【报告导读】在软着陆(通胀回落+经济避免于衰退)+人工智能技术进步+俄乌冲突后美国秩序重建的叙事下,2023年无疑是属于以美股为代表的金融资产的一年。市场忽视的是,在美国奇迹下各部门之间的分化。这一分 ...

观点 23 2024-03-19
AI手机,消费电子新篇章

AI手机,消费电子新篇章

手机端或有望形成新的流量入口,深刻影响手机厂商商业模式。 继AIPC后,我们看到AI手机在模型侧、硬件侧、操作系统及应用侧均存在产业升级趋势,未来AI手机或将重塑手机行业生态。摘要AI手机:把大模型装进手机,智能终端演进的新方向。AI手机指的是 ...

观点 25 2024-03-19
铭基高科冲刺创业板,业绩存在波动,依赖前五大客户

铭基高科冲刺创业板,业绩存在波动,依赖前五大客户

聚焦精密连接组件领域 近期,广东铭基高科电子股份有限公司(以下简称“铭基高科”)更新了首次公开发行股票并在创业板上市招股说明书申报稿,保荐人为国信证券股份有限公司。格隆汇了解到,铭基高科致力于精密连接组件研发、生产、销售。截至招股说明 ...

观点 24 2024-03-19
全球手机厂商“新革命”打响,AI手机成角逐新赛场,谁在奋力鏖战?

全球手机厂商“新革命”打响,AI手机成角逐新赛场,谁在奋力鏖战?

再不布局就没戏了 AI 的风又吹到了手机行业。近两日,在苹果、高通等巨头新动作影响下,AI手机概念成为资本市场“新宠儿”。截止午盘,福蓉科技封涨停板,水晶光电涨超4%,中科创达、思泉新材、江波龙等跟涨。全球手机厂商“新革命”这将是一次划时代的 ...

观点 26 2024-03-19
“二师兄”身价回升,猪肉股“起飞”了!业内普遍预期谨慎,“猪周期”拐点何时显现?

“二师兄”身价回升,猪肉股“起飞”了!业内普遍预期谨慎,“猪周期”拐点何时显现?

短期难以持续走强 3月19日,猪肉板块震荡拉升,截至午盘,湘佳股份涨停,傲农生物涨超9%,神农集团涨超8%,华统股份、巨星农牧涨超6%,新五丰、牧原股份、唐人神、金新农、温氏股份等纷纷跟涨。消息上,生猪期货近期大涨,触及三个月高点。此外,农 ...

观点 28 2024-03-19
为什么行情会轮动成电风扇?

为什么行情会轮动成电风扇?

一方面,投资者们有很强的阿尔法思维惯性;另一方面,市场的增量资金主要是无偏资金。

观点 17 2024-03-19
油价持续上攻!港股“三桶油”齐拉升,后市有望继续冲高?

油价持续上攻!港股“三桶油”齐拉升,后市有望继续冲高?

全球石油需求将在2024下半年达到历史新高。 3月19日,港股石油股走强,板块涨幅一度超过3%,随后有所回落。个股上,截止发稿,中国海洋石油、中国石油股份涨超1%,中国石油化工股份等跟涨。回顾来看,自今年1月底以来,港股石油股持续震荡上行,累计 ...

观点 18 2024-03-19
信达策略:季度普涨,年度主线关注周期&AI

信达策略:季度普涨,年度主线关注周期&AI

高频经济数据显示宏观经济运行结构分化较明显 核心结论2月以来,高频经济数据显示宏观经济运行结构分化较明显,房地产行业数据仍偏弱,经济预期边际改善不多。但伴随着流动性风险的缓解、利率下行带来长期配置资金的流入,以及自下而上的微观盈利反 ...

观点 16 2024-03-19
如何理解超预期的经济数据?

如何理解超预期的经济数据?

出口拉动工业增加值回升 主要观点1-2月经济数据亮眼,表现超预期。1-2月工业增加值累计同比增长7.0%,较去年12月提升0.2个百分点,两年复合增速为4.7%,较去年12月提升0.6个百分点。而1-2月服务业生产指数累计同比增长5.8%,两年复合增速为5.6%,较 ...

观点 15 2024-03-19