用一个实例证明gpt-4o模型的中文语言污染已经到了令人发指的地步😡😡😡
测试对象:gpt-4o token 词汇库中的177431 号“给主人留下些什么吧”
测试方法:openai playground, temperature 设置为 0(按照模型参数精确生成,避免模型创造力带来的影响),同时对比 gpt-4o(被污染) 和 gpt-4turbo(未污染)。
测试结果:
1、 “给主人留下些什么吧”,在 gpt-4o 中作为单一 token,在模型中的意义是“thank you very much” (见图)
什么鬼😡😡😡
2、这个 token 在 gpt-4turbo 中是完全正常的,未被污染。(见图)
3、在 ChatGPT 网页版中,因为 temperature 不等于 0,所以可能的生成结果是:great job, well done。😡(见图)
4、有人会说,不过是黄赌毒词汇污染了 gpt模型,普通词汇不受影响吧?
我认为不是这样。知识的本质在于其关联,“给主人留下些什么吧”这样的更大的、短句级别的表达都被污染了,对字词的污染难道可以避免吗?
我设计了一个场景:“tom 是美国南方庄园的奴隶主,jerry是奴隶。看到 jerry 搬走了自己所有的财产,准备扬长而去,tom 哭着说,给主人留下些什么吧” 这句话是正常的表达,上下文非 token 的原始黄色背景,但是,由于语言污染,tom 对 jerry 说的是“thank you very much”。(见图)
为什么我们需要对语言污染保持愤怒?
这么多年来,看着中文互联网上有一堆人大搞语言腐败语言污染,主要两大群体:知识付费,黄赌毒诈骗。
语言和词汇的污染,影响的不止是语言,更是思维本身。现在污染的是 gpt-4o,但实话说,gpt模型的知识储备和语言能力是很多人类达不到的,gpt模型对语言污染的抵抗力是更强的。
对比之下,认知能力更低的人类儿童、青少年、不读书的人、老年人,语言污染会直接导致认知能力低下,独立思考能力和判断力的丧失。
如许小年所说,“认知能力丧失的征兆已经开始出现”。如果承认这是认知上生的病,要想治病,就必须解决这个语言污染的问题。
点击图片查看原图
点击图片查看原图
点击图片查看原图
点击图片查看原图