在各大AI模型风起云涌的今天,节省Token消耗成为了重度AI使用者必不可少的技能,那么大家都知道世界上绝大多数AI的训练语料都是由英文撰写的,并且AI模型在开始训练前所使用的分词器也对英文有着很好的优化效果,反之对于复杂的子元(如中文,日文,韩文等),分词器不能做到很好的分词,就会徒增Token的消耗,而近期AI研究人员Aran Komatsuzaki公布了一则分析表,旨在计算英文外的其他语言带来的额外Token消耗
可以看到最为离谱的是A社的Claude,使用中文的开销比纯英文增加了足足65%的消耗,而韩语更是离谱。而可以看到国产模型的分词器对中文的优化不错,甚至出现了可以略省Token的情况,这其中很大程度还是分词器的贡献,因为在AI训练开始之前,AI公司就需要自行针对训练语料预处理分词,可以说Claude是没有怎么对除了英文外的其他语言做什么优化,而广为使用的ChatGPT和Gemini在全球各个多语言的表现则还算不错
如果你是使用API调用的Claude,那么恭喜你学英文又多了个理由,因为学好英文之后又能省下不少钱qwq
版权属于:
兰科勒布劳恩斯基 订阅我们的Telegram频道
作品采用:
《
署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)
》许可协议授权
评论 (0)