浅谈AI模型对非英文语言收的“税”

2026-05-04 / 0 评论 / 45 阅读 / 正在检测是否收录...

05/04

在各大AI模型风起云涌的今天，节省Token消耗成为了重度AI使用者必不可少的技能，那么大家都知道世界上绝大多数AI的训练语料都是由英文撰写的，并且AI模型在开始训练前所使用的分词器也对英文有着很好的优化效果，反之对于复杂的子元（如中文，日文，韩文等），分词器不能做到很好的分词，就会徒增Token的消耗，而近期AI研究人员Aran Komatsuzaki公布了一则分析表，旨在计算英文外的其他语言带来的额外Token消耗
token税
可以看到最为离谱的是A社的Claude，使用中文的开销比纯英文增加了足足65%的消耗，而韩语更是离谱。而可以看到国产模型的分词器对中文的优化不错，甚至出现了可以略省Token的情况，这其中很大程度还是分词器的贡献，因为在AI训练开始之前，AI公司就需要自行针对训练语料预处理分词，可以说Claude是没有怎么对除了英文外的其他语言做什么优化，而广为使用的ChatGPT和Gemini在全球各个多语言的表现则还算不错
如果你是使用API调用的Claude，那么恭喜你学英文又多了个理由，因为学好英文之后又能省下不少钱qwq

浅谈AI模型对非英文语言收的“税”

AI自动程序互联网流量首次超越人类

腾讯将推出微信内AI Agent

MiniMax推出M3模型最高支持到1M上下文窗口

Anthropic推出Opus 4.8模型，编程能力更上一层楼

评论 (0)

浅谈AI模型对非英文语言收的“税”

AI自动程序互联网流量首次超越人类

腾讯将推出微信内AI Agent

MiniMax推出M3模型 最高支持到1M上下文窗口

Anthropic推出Opus 4.8模型，编程能力更上一层楼

评论 (0)

MiniMax推出M3模型最高支持到1M上下文窗口