杯子茶室

关注有趣的事物

Token 的语义崩塌:一个技术术语的死亡解剖

网络 0 评

一个词是如何在多次合理使用中被稀释至死的


一份合同引发的问题

2024 年底,一份涉及 AI 基础设施的商业合同在审查过程中出现了一个微妙的争议。合同中多次出现 token 这个词,但在不同条款里,它指向的是完全不同的东西。在 API 定价条款中,token 是大语言模型的序列处理单元,计价标准是百万 token 若干美元。在平台权益条款中,token 是基于 ERC-20 标准发行的数字权益凭证,持有者享有治理投票权。在安全认证条款中,token 是 OAuth 2.0 协议下的访问令牌,有效期以小时计算。

三个条款,三种含义,同一个词。法务团队最初没有察觉到这个问题——不是因为他们不专业,而是因为 token 在每一个条款的上下文中看起来都是精确的。每个人在自己负责的段落里都读懂了它,但没有人意识到他们读懂的不是同一件事。

这不是一个编造的寓言。随着 AI 与区块链的技术边界持续模糊,这类场景正在以越来越高的频率出现。当 Fetch.ai、Ocean Protocol 这类项目同时涉及 AI 推理服务和加密资产时,一份合同中需要同时谈论序列处理单元和数字权益凭证的概率已经不是理论上的了。

这篇文章要追问的是:一个技术术语是如何走到这一步的?不是被误用,不是被滥用,而是被多个领域各自合理地征用,最终在整体上丧失了传递精确信息的能力。


Token 的词源:一个天生没有锚点的词

Token 来自古英语 tācen,再往上追溯是原始日耳曼语 *taikną,原始含义是:记号、符号、可见的标志。它和 teach 同源,共享的语义根是"让某物变得可见/可被认知"。

这个词源揭示了一件对后续所有问题都至关重要的事:token 从诞生之初就是一个指向性的词,而不是一个实体性的词

对比一下:stone(石头)指向一个有物理实在性的对象,即使脱离所有语境,stone 依然有独立的含义。但 token 不行。一枚代币不是价值本身,是价值的标记。一个认证令牌不是身份本身,是身份的标记。Token 的语义永远需要寄生在它所指向的那个系统上——离开系统,token 什么都不是。

这意味着 token 天生缺乏独立的语义重力。当只有一个系统在使用这个词时,这不构成问题:系统就是上下文,上下文锁定含义。但当多个系统同时扩张并都征用这个词时,token 没有任何自身的语义质量来抵抗拉扯。

实体词像有根的树,风吹不倒。关系词像风筝,一条线牵着的时候稳定飞行,五条线同时拉就撕裂了。

Token 不是被磨损掉的。它是被多个系统同时拉扯而碎裂的。


崩塌的时间线

古英语至中古英语:统一的神意标记

Tācen 在这个阶段含义高度稳定——预兆、征兆、奇迹的标志。一个 token 是上帝或命运留下的可见痕迹。语义统一,因为指向的系统只有一个:神意秩序。一条线牵一只风筝,风筝飞得很稳。

16 至 17 世纪:世俗化为契约凭证

Token 开始指代实物凭证——商人发行的私铸小额代币(因官方铸币不足),也指婚约信物、友谊信物。语义从"神意的标记"滑向"人际契约的物质化标记"。结构没变,仍然是:持有 token 就持有进入某个关系或系统的权利。只是挂靠的系统从神学换成了商业和社交。

20 世纪中期:第一次分裂

计算机科学和语言学在同一时期独立征用了这个词:

语言学用 type/token 区分来说明词的抽象类型与具体实例。"The cat sat on the mat" 中 the 出现了两次,是两个 token,但只有一个 type。Token 在这里意味着"抽象形式的一次具体实现"。

编译器理论用 token 指源代码被词法分析器切割后的最小语法单元。int x = 42; 被切成四个 token:intx=42

安全认证领域用 token 指硬件或软件凭证,功能上接近 17 世纪的契约信物:持有令牌就拥有访问权限。

三个用法在封闭的专业圈子里各自运作,交叉不多。风筝多了几条线,但线与线之间距离很远,张力可控。

2008 至 2017 年:区块链引爆第二次分裂

比特币白皮书(2008)开启了加密货币纪元,但 token 一词在区块链语境中的大规模扩散要等到以太坊生态成熟之后。2015 年 11 月,Fabian Vogelsteller 提出 ERC-20 标准,为在以太坊上创建同质化代币提供了统一的技术规范。这个标准直接催生了 2017 年的 ICO 热潮——任何人都可以用几百行 Solidity 代码发行自己的 token。

Token 在区块链语境中的含义——数字权益凭证——刻意回溯了 17 世纪"私铸代币"的隐喻,但嫁接在全新的数字系统上。这个用法有历史渊源,不是凭空发明的。问题在于它的扩散规模:ICO 热潮让 token 第一次从封闭的技术圈进入大众媒体的高频词汇。

2018 年至今:碎裂

深度学习语言模型把 token 重新定义为序列的基本处理单元。但这次的 token 和语言学的 token 已经是不同的东西了。语言学的 token 是词的一次具体出现——一个 token 对应一个完整的词。NLP 的 token 是 subword 片段,一个词可以被 BPE(Byte Pair Encoding)切成多个 token。"Tokenization" 在语言学里意味着识别词的实例,在 NLP 里意味着把文本切成子词单元。同一个术语,底层操作完全不同。

但因为 token 在计算机科学里已有积累,NLP 领域直接沿用,没有人停下来重新命名。

GPT 系列模型的爆发让 token 第一次同时活跃在 AI 工程师、区块链投资者、芯片采购商、科技记者的日常对话里。而这四类人脑子里装的是四个不同的东西。Jensen Huang 反复强调 token 是新工业革命的产出单位,说 AI 工厂"电子进去,浮点数出来",这些浮点数就是 token。他的 token 指的是 AI 推理的产出——可以被重新组合为语言、蛋白质、化学分子、图像、机器人控制指令的数字序列。但同一个词在区块链语境中指的是链上的数字资产凭证,在认证语境中指的是临时访问令牌。

每一次语义拓展单独来看都是合理的。每个领域都能追溯到词源的某个侧面。但五条线同时拉一只风筝,风筝碎了。


带壳的空洞:为什么 Token 比 "Thing" 更危险

一个词的语义空洞化本身并不罕见。Thing 是英语里语义最空的实词之一,完全依赖语境填充含义。但 thing 的空洞是诚实的空洞。没有人在用 thing 的时候会以为自己在精确表达,听者也不会产生理解的错觉。它的模糊性是透明的,透明的模糊不制造事故。

Token 的危险在于它是不诚实的空洞。它携带着技术术语的全部形式特征——音节简短、有学科历史、在专业语境中高频出现——这些形式特征会激活一个认知机制:技术术语默认精确假设。人在对话中听到一个听起来像技术术语的词时,默认假设对方使用的是该词在双方共享语境中的精确含义,因此不会追问。这个假设在单一语境中是高效的捷径,但在跨领域对话中是陷阱。

拿一个具体场景来说。一个科技记者写道:"该公司计划将 token 成本降低到百万级别 1 美元。"

在 AI 基础设施语境中,这是一条关于 API 定价的新闻——百万个序列处理单元 1 美元,在当前市场上属于激进但可信的定价策略。在区块链语境中,这变成了一条关于数字资产铸造成本的新闻——每个 token 0.000001 美元,要么是极端低估,要么是某种空投策略。两种解读不只是指向不同事物,还会导致完全不同的价值判断和决策方向。

更深层的问题是:这种歧义是自我隐藏的。常规歧义会被察觉——你说"bank",对方不确定你指银行还是河岸,自然会追问。但 token 制造的歧义不会触发追问,因为每个人在自己的语境里都觉得它是精确的。AI 工程师完全确信 token 就是序列单元,区块链开发者完全确信 token 就是链上资产。双方都没有困惑,双方都不会追问,双方可能已经在谈论完全不同的事情。

显性歧义制造对话——"你说的是什么意思?"
静默歧义制造共识的幻觉——"我们说的是同一件事。"

这是 token 作为失效术语最成熟的危害形态:它不只是一个模糊的词,它是一个会主动抑制追问的词。


一个正在发生的实际问题

Token 的语义碎裂不再仅仅是语言学层面的观察,它正在制造真实的法律和商业摩擦。

AI 与区块链的融合已经从概念变成了产业现实。以太坊上存在大量同时涉及 AI 推理服务和加密资产的项目。Ocean Protocol 用 ERC-20 标准的 datatoken 来代表数据集的访问权限,用户用 OCEAN 代币购买这些 datatoken 以使用 AI 训练服务。Fetch.ai 的自主代理在链下执行 AI 推理任务,在链上用 FET 代币进行结算。在这些项目的技术文档、用户协议和投资备忘录中,token 可以在同一页纸上同时指代 AI 推理的计量单位、链上的权益凭证和 API 的认证令牌。

法律框架也在被这种歧义困扰。美国 SEC 用 Howey Test 来判断一个 token 是否构成证券——但这个测试的对象是区块链意义上的 token(数字权益凭证),与 AI 意义上的 token(序列处理单元)完全无关。当一个项目同时出售 AI 推理服务(按 token 计价)和治理权益(以 token 形式发行)时,监管者需要在同一份文件中用同一个词讨论两个不同的监管对象。这不是理论问题,而是已经让合规律师头疼的现实问题。

Cornell Law 的 James Grimmelmann 教授在讨论智能合约中的语言歧义时指出过一个关键洞察:语言是社会性的,词义基于使用方式而变化,依赖语言来固定合同义务的做法天然包含歧义风险。Token 是这个洞察的极端例证——当同一个词被不同的技术社群赋予了不同的精确定义时,跨社群的合同和法规就站在了语义断裂带上。


为什么找不到替代词

Token 的问题不是没有候选替代词,而是替代的协调成本太高,且各领域的难度不对称。

认证领域已经基本解决了这个问题。Credential、key、ticket、session 在实际使用中已经承担了大部分消歧工作,token 在这个领域更多是一个历史遗留的泛称。

区块链领域有现成的词被刻意搁置了——coin、asset、certificate、deed。NFT 最准确的表述其实是 non-fungible digital deed(不可替代的数字契约)或 unique ownership certificate(唯一所有权证书),但行业选择了 Non-Fungible Token 这个缩写。值得注意的是,在这个缩写里,真正做消歧工作的是"Non-Fungible",token 本身贡献了零。把它换成"Non-Fungible Asset"或"Non-Fungible Certificate",含义完全不变。Token 在这里已经是语义透明的——它占据了一个槽位,但没有填入任何信息。

NLP/AI 领域是最难替代的。这里的 token 指的是一个在历史上没有先例的概念:把任意模态的连续信息(文本、图像、音频)离散化为可被 transformer 架构处理的基本单元。现有的候选词各有缺陷:

  • unit / element 太宽泛,丢失了"序列"和"离散化"两个关键信息维度
  • segment 暗示的是连续体上的切割,而非离散映射
  • chunk 过于非正式,缺乏术语感
  • lexeme 只适用于文本模态,且与语言学既有定义冲突
  • quanta(量子的复数形式)在隐喻层面最接近——连续信息的离散化单元——但它已经被物理学牢牢占据

如果必须造一个新词,inferon(从 information 和 -on 后缀组合,如 electron、photon)或者 seqlet(sequence + -let,表示序列的最小片段)在语义上是可行的,但任何新造词都需要足够大的语言惯性才能存活。在学术论文和技术文档中推动一个新词,需要某个有足够影响力的组织率先采用并坚持使用。目前没有任何机构表现出这种意愿。


语义降解的三个阶段

回顾 token 的整个生命周期,可以辨认出一个术语从精确走向失效的一般性模式:

第一阶段:单系统锚定。 词与系统一对一绑定,上下文自动消歧,词义稳定。Tācen 在神意秩序中的阶段,token 在早期编译器理论中的阶段,都属于此。

第二阶段:多系统征用。 多个系统各自合理地征用同一个词,每个系统内部仍然精确,但系统之间的同一个词已经指向不同事物。这个阶段的歧义通常还能通过领域标签管理——"NLP 里的 token"、"区块链里的 token"——只要对话发生在单一领域内,问题不大。

第三阶段:边界消融。 原本分隔不同系统的领域边界开始模糊。当 AI 和区块链融合成同一个产业、同一份合同、同一个句子时,领域标签失效,静默歧义大规模出现。Token 现在正处于这个阶段。

这个三阶段模型不只适用于 token。任何关系词——语义依赖外部系统而非自身实体性的词——在经历多系统征用和边界消融之后,都会面临类似的命运。Platform(平台)、protocol(协议)、agent(代理)正在走同样的路。其中 agent 尤其值得关注:它正在同时被 AI(自主代理)、保险法(保险代理人)、经纪业(经纪代理)和哲学(能动性主体)拉扯,而 AI agent 的爆发式增长正在加速这个词的语义碎裂。


什么条件下这个问题会被迫解决

Token 的语义崩塌不会因为有人写了一篇文章指出它就被修复。语言问题只有在变成经济问题时才会被认真对待。以下三个条件中的任何一个成立,都可能迫使行业正式面对这个问题:

条件一:一起重大的法律纠纷。 当一份高价值合同因为 token 的歧义产生争议,进入仲裁或诉讼程序,并且裁决结果取决于对 token 的定义时,这个问题就会从语言学层面跃迁到法律层面。考虑到 AI-区块链融合项目的合同规模正在快速膨胀,这个条件的成立可能比预想中更快。

条件二:监管文件的标准化需求。 当 SEC、CFTC 或欧盟的 MiCA 框架需要在同一份监管文件中同时讨论 AI 推理服务和加密资产时,他们将不得不在定义条款中为 token 的不同含义创建正式的消歧机制。这种自上而下的术语规范如果被广泛引用,可能会反向影响行业用语。

条件三:技术文档的机器可读性要求。 随着 AI 系统越来越多地处理技术文档——合同审查、代码文档生成、跨系统 API 对接——token 的歧义将不再只困扰人类读者,还将困扰自动化系统。当歧义开始导致机器层面的系统性错误时,工程团队将被迫在技术标准中引入替代术语或强制消歧规则。

这三个条件不是预言,而是压力方向。它们不是说"token 会被替代",而是说"在这些方向上,继续使用 token 的成本将变得不可忽视"。


一个词的死法

词语的死亡通常不是某一天突然没有人再使用它了。更常见的死法是:所有人都还在使用它,但它已经不再可靠地传递信息了。它从术语降格为暗语——不再传递精确含义,而是传递"我们是同一个圈子的人"这个社交信号。暗语不需要精确,它需要的是圈内默契。

Token 正在走这条路。它在 AI 圈子里是暗语,在区块链圈子里是暗语,在安全认证圈子里是暗语。每个圈子内部的默契还在勉强维持。但这些圈子之间的墙正在因为技术融合而快速变薄。

当 Jensen Huang 说"每个公司都将生产 token",AI 工程师、区块链投资者、芯片采购商都在点头。这句话的传播力恰恰来自于它的语义不确定性——一个用精确术语替换 token 的等价命题,受众会立刻缩小到单一领域,而 token 让所有人都以为这句话是说给自己听的。

这不是 Huang 的表达问题。这是一个词的结构性病症到达了一个特定阶段:它足够空洞以至于能被所有语境接受,又足够像术语以至于没有人怀疑它的精确性。

一个词,在所有地方都精确,在任何地方都不精确。

这就是 token 现在的处境。不是活着,不是死了,而是在被所有人精确地使用着,慢慢地,失去了意义。

重新发现广义相对论
发表评论
撰写评论