首页 > 快看 >

AI 大模型的语言不平等：英语训练费用最便宜，汉语训练费用是英语的 2 倍

时间：2023-08-02 07:24:29 来源：爱范儿

近日，X（原 Twitter）用户 @Dylan Patel 展示了一份来自牛津大学的研究：通过对 GPT-4 和大多数其他常见 LLM 的语言进行研究，研究发现 LLM（大语言模型）推理的成本差异很大。

(资料图片仅供参考)

其中英语输入和输出要比其他语言便宜得多，简体中文的成本大约是英语的 2 倍，西班牙语的成本是英语的 1.5 倍，而缅甸掸语则是英语的 15 倍。

究其原理，可以追溯到今年 5 月份牛津大学在 arXiv 上刊印的一篇的论文。

词元是将自然语言文本转换成词元（token）序列的过程，是语言模型处理文本的第一步。在 LLM 计算力成本的核算中，词元越多，耗费计算力的成本越高。

毫无疑问，在生成式 AI 商业化的趋势下，计算力的耗费成本也会嫁接给用户，当下许多 AI 服务也正是按照需要处理的词元数量来计费。

论文显示，研究者通过分析 17 种词元化方法后，发现同一文本被转换成不同语言词元序列时长度差异巨大，即使是宣称支持多语言的词元化方法，也无法做到词元序列长度完全公平。

例如，根据 OpenAI 的 GPT3 tokenizer，倘若给「你的爱意」词元化，英语只需两个词元，而在简体中文中则需要八个词元。即使简体中文文本只有 4 个字符，而英文文本有 14 个字符。

从 X 用户 @Dylan Patel 曝光的图片也可以直观看到，让 LLM 处理一句英语需要 17 个词元（tokens），而让 LLM 处理同样意思的一句缅语，则需要 198 个词元（tokens）。这意味着缅语的处理成本将达到英语的 11 倍。

类似的情况也有很多，Aleksandar Petrov 的网站中提供了许多相关的图标和数据，感兴趣的朋友不妨点击「https://aleksandarpetrov.github.io/tokenization-fairness/」进去查看语言之间的差异。

在 OpenAI 的官网上也有着类似的页面，解释了 API 是如何对一段文本进行词元化，以及显示该文本的词元总数。官网也提到，一个词元通常对应英语文本的约 4 个字符，100 个词元约等于 75 个单词。

得益于英语词元序列长度短的优势，在生成式人工智能预训练的成本效益方面，英语可谓是最大赢家，将其他语言使用者远远地甩在身后，间接产生了一种不公平的局面。

除此之外，这种词元序列长度的差异也会导致处理延迟不公平（某些语言处理同样内容需要更多时间）和长序列依赖性建模不公平（部分语言只能处理更短的文本）。

简单点理解，就是某些语言的用户需要支付更高的成本，承受更大的延迟，获得更差的性能，从而降低了他们公平地访问语言技术的机会，也就间接导致了英语使用者和世界其他语言使用之间形成了 AI 鸿沟。

仅从输出的成本来看，简体中文的成本是英语的两倍。伴随着 AI 领域的深层次发展，总是「差一步」的简体中文显然并不友好。在成本等各方面叠加因素的权衡下，非英语母语的国家也纷纷尝试开发自己的母语语言大模型。

以中国为例，作为国内最早一批探索 AI 的巨头，2023 年 3 月 20 日，百度正式上线生成式 AI 文心一言。

随后阿里巴巴的通义千问大模型、华为的盘古大模型等一批批优秀大模型也陆续涌现出来。

在这当中，华为盘古大模型中的 NLP 大模型更是行业内首个千亿参数中文大模型，拥有 1100 亿密集参数，经过 40TB 的海量数据训练而成。

正如联合国常务副秘书长阿米娜 · 穆罕默德曾经在联合国大会上警告说，如果国际社会不采取果断行动，数字鸿沟将成为「不平等的新面孔」。

同理，伴随着生成式 AI 的狂飙突进，AI 鸿沟也很有可能成为新一轮值得关注的「不平等的新面孔」。

所幸的是，平时「惨遭嫌弃」的国内的科技巨头已然采取了行动。

关键词：

7月沪深两市IPO零申报，审核注册全面放缓

头条 23-08-02
新乡启动防汛一级应急响应将启用蓄滞洪区

头条 23-08-02
鹤壁启动防汛一级应急响应将启用蓄滞洪区

头条 23-08-02
洛阳与中国银行河南省分行签署重点领域合作协议

头条 23-08-01
光大证券一分公司收警示函，多名员工被罚

头条 23-08-01
快讯！河南针对鹤壁市、新乡市启动防汛一级应急响应

头条 23-08-01
内蒙古赤峰：8月1日起执行住建部“认房不认贷”政策

头条 23-08-01
5000个红包先到先得！河南省金融知识网络竞赛8月2日8点正式开赛

头条 23-08-01
郑开城际延长线新建开封站房露“真容”

头条 23-08-01
东方碳素牵手中国科学院煤炭化学研究所等，签订技术开发（委托）合同

头条 23-08-01
快讯！顺丰正式宣布：赴港二次上市

头条 23-08-01
一声叹息！正道中环百货正式闭店丨极刻

头条 23-08-01
共谋牛业！河南省肉牛产业协会8月1日成立

头条 23-08-01
第六届进博会招商路演（河南）举行，河南交易团吹响“集结号”

头条 23-08-01
把“导游”装入手机！河南省文旅厅发布数字消费地图

头条 23-08-01
杭州这次玩大的！派送10万张亚运会门票、百万张景区门票

头条 23-08-01
雅化集团：与特斯拉续签氢氧化锂供货协议

头条 23-08-01
华晨汽车集团重整计划获债权人批准

头条 23-08-01
上半年河南财政科技支出216.2亿元，增速达30.7％

头条 23-08-01
河南又一企业冲刺北交所IPO，拟募资3.02亿元

头条 23-08-01
国铁集团郑州局：全力做好持续降雨期间旅客运输组织

头条 23-08-01
蔚来7月交付新车20462台，交付量创历史新高

头条 23-08-01
郑州机场暑运首月：旅客最爱去乌鲁木齐、昆明、上海

头条 23-08-01
12家！2023年河南省级工业遗产名单公布

头条 23-08-01
理想汽车：7月交付新车同比增长227.5％

头条 23-08-01
河南3名金融机构高管任职资格获批

头条 23-08-01
54岁国寿集团党委委员利明光兼任中国人寿党委书记

头条 23-08-01
最新通知！新乡提升防汛四级应急响应至三级

头条 23-08-01
两部门紧急预拨1.1亿元资金支持京津冀地区做好防汛救灾工作

头条 23-08-01
戴志浩卸任鞍钢集团总经理

头条 23-08-01
大唐河南发电公司完成发行10亿元中票，发行利差1.64％

头条 23-08-01
江西将发放1亿元消费券

头条 23-08-01
蜜雪冰城成立送冰冰供应链公司，李文静任总经理

头条 23-08-01
对医疗IPO企业行贿风险严监管，上交所提出四大关注要点

头条 23-08-01
中原农谷核心区建设规划重磅出炉，含46个重点建设项目清单

头条 23-08-01
民生银行郑州分行携手中建七局举办供应链金融客商大会

头条 23-08-01
中国人民银行联合建设银行，全面扩大征信查询服务覆盖范围

头条 23-08-01
周口城投发展集团拟发行25亿元私募债，已获深交所反馈

头条 23-08-01
国家市场监管总局：强化信用惩戒手段，提高市场退出效率

头条 23-08-01
2023年上半年新增注册预制菜相关企业1640余家

头条 23-08-01
344家！郑州最新一批入库科技型企业公布

头条 23-08-01
公司打出“零成本体验”宣传语，法律上应承担怎样责任？| 以案说法

头条 23-08-01
众泰汽车：公司实控人没有失联

头条 23-08-01
8.71亿元！银行“天价”罚单层出不穷，涉房违规成“重灾区”

头条 23-08-01
第八批国家集采药品中选结果落地福建 38种药品平均降价56％

头条 23-08-01
结果出炉！成都冠铭体育文化传播有限公司拍下新网银行3％股权

头条 23-08-01
机票燃油附加费今年年内首次上涨，8月5日起单程最低30元

头条 23-08-01
第二十届ChinaJoy展会收官，超级数字场景将开启游戏产业新格局

头条 23-08-01
襄城县食品全产业链预制菜生产研创项目正式签约

头条 23-08-01
因违规核销不良贷款等，山西三家银行被罚200万元

头条 23-08-01
速看！河南省金融业发展专项奖补资金管理办法出炉

头条 23-08-01
国家网信办查处一批涉企业、企业家不法信息典型案例

头条 23-08-01
郑州市终止防汛四级应急响应

头条 23-08-01
看“河南芯”如何创造机器人新世界 | 这些豫企相当潮

头条 23-08-01
前7个月新增专项债发行近2.5万亿元，中小银行专项债发行提速

头条 23-08-01

AI 大模型的语言不平等：英语训练费用最便2023-08-02
涿州灾情引关注，卫星图曝光！白沟河水面已2023-08-02
厨师用心用情，“半份菜”入胃入心2023-08-02
安切洛蒂：梅西能为MLS带去附加价值新老2023-08-02
怎样分辨研学机构是否靠谱2023-08-02
为何须格外防范大学生遭“培训贷”骗局2023-08-02
7月沪深两市IPO零申报，审核注册全面放缓2023-08-02
河南鹤壁浚县启用共渠西蓄滞洪区2023-08-02
中央气象台8月2日06时发布强对流天气蓝色预2023-08-02
中央气象台8月2日06时继续发布暴雨蓝色预警2023-08-02
中央气象台8月2日06时继续发布台风蓝色预警2023-08-02
爆单！订单已排到年底！这届年轻人超爱“它2023-08-02
中央气象台8月2日06时继续发布大风黄色预警2023-08-02
消失的手机门店2023-08-02
遭蔚来、小鹏抛弃！宁德时代危机！被比亚迪2023-08-02
比亚迪 7 月销量不到 20 万？年度 3002023-08-02
ATP 华盛顿站疑似中暑晕倒，吴易昺最新回2023-08-02
听障人士出战女子 400 米混合泳，彭惠迪2023-08-02
导弹在战机200米处解体，空军试飞员选择……2023-08-02
咸阳人民路部分路段护栏将取消，实施“绿波2023-08-02
新乡启动防汛一级应急响应将启用蓄滞洪区2023-08-02
鹤壁启动防汛一级应急响应将启用蓄滞洪区2023-08-02
易点天下：获华为云认可2023-08-02
K1178次列车全员平安在沿河城站停靠列车2023-08-02
成都大运会乒乓球男子团体决赛，中国队3：02023-08-02
全国总工会紧急下拨1500万元救灾资金2023-08-02
永定河洪水水头到达天津2023-08-02
大象帮丨还扰民？一个月被投诉30多次的废品2023-08-02
LOL-LPL：Scout三局比赛发挥亮眼，LNG 3-12023-08-02
B. Riley Securities：维持Cleveland-Cliffs(CLF.US)评级2023-08-02

精彩推荐

阅读排行

要闻

大象帮丨还扰民？一个月被投诉30多

【关注台风“杜苏芮”】郑州这支救

600万粉丝网红触电身亡案开庭：事发

头条

7月沪深两市IPO零申报，审核注册全面放缓

商业

网站简介网站团队本网动态友情链接版权声明我要投稿

Copyright© 2014-2020 中原网视台(www.hnmdtv.com) All rights reserved.