用一个实例证明gpt-4o模型的中文语言污染已经到了令人发指的地步😡😡😡测试对象：gpt-4o token 词汇库中的177431 号“给主人留下些什么吧”测试方法：openai playground， temperature 设置为 0（按照模型参数精确生成，避免模型创造力带来的影响），同时对比 gpt-4o（被污染）和…

发布时间: 2024-05-14 22:40:06

1分

数据加载中

用一个实例证明gpt-4o模型的中文语言污染已经到了令人发指的地步😡😡😡
测试对象：gpt-4o token 词汇库中的177431 号“给主人留下些什么吧”
测试方法：openai playground， temperature 设置为 0（按照模型参数精确生成，避免模型创造力带来的影响），同时对比 gpt-4o（被污染）和…
时政
( twitter.com )

用一个实例证明gpt-4o模型的中文语言污染已经到了令人发指的地步😡😡😡

测试对象：gpt-4o token 词汇库中的177431 号“给主人留下些什么吧”

测试方法：openai playground， temperature 设置为 0（按照模型参数精确生成，避免模型创造力带来的影响），同时对比 gpt-4o（被污染）和 gpt-4turbo（未污染）。

测试结果：
1、 “给主人留下些什么吧”，在 gpt-4o 中作为单一 token，在模型中的意义是“thank you very much” （见图）

什么鬼😡😡😡

2、这个 token 在 gpt-4turbo 中是完全正常的，未被污染。（见图）

3、在 ChatGPT 网页版中，因为 temperature 不等于 0，所以可能的生成结果是：great job, well done。😡（见图）

4、有人会说，不过是黄赌毒词汇污染了 gpt模型，普通词汇不受影响吧？

我认为不是这样。知识的本质在于其关联，“给主人留下些什么吧”这样的更大的、短句级别的表达都被污染了，对字词的污染难道可以避免吗？

我设计了一个场景：“tom 是美国南方庄园的奴隶主，jerry是奴隶。看到 jerry 搬走了自己所有的财产，准备扬长而去，tom 哭着说，给主人留下些什么吧” 这句话是正常的表达，上下文非 token 的原始黄色背景，但是，由于语言污染，tom 对 jerry 说的是“thank you very much”。（见图）

为什么我们需要对语言污染保持愤怒？

这么多年来，看着中文互联网上有一堆人大搞语言腐败语言污染，主要两大群体：知识付费，黄赌毒诈骗。

语言和词汇的污染，影响的不止是语言，更是思维本身。现在污染的是 gpt-4o，但实话说，gpt模型的知识储备和语言能力是很多人类达不到的，gpt模型对语言污染的抵抗力是更强的。

对比之下，认知能力更低的人类儿童、青少年、不读书的人、老年人，语言污染会直接导致认知能力低下，独立思考能力和判断力的丧失。

如许小年所说，“认知能力丧失的征兆已经开始出现”。如果承认这是认知上生的病，要想治病，就必须解决这个语言污染的问题。