深圳全飞鸿

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 334|回复: 0
打印 上一主题 下一主题

python中烦人的锟斤拷(\xef\xbf\xbd)

[复制链接]

800

主题

1379

帖子

7704

积分

版主

Rank: 7Rank: 7Rank: 7

积分
7704
跳转到指定楼层
楼主
发表于 2023-10-28 08:34:08 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
python中烦人的锟斤拷(\xef\xbf\xbd)
首先要知道\xef\xbf\xbd是啥东西
>>> u'\uFFFD'.encode('utf-8')'\xef\xbf\xbd'
由此我们可以知道\xef\xbf\xbd是utf8编码的'\uFFFD',那么这个'\uFFFD'是啥东西呢?
原来是因为Unicode和老编码体系的转化过程中,肯定有一些字,用Unicode是没法表示的,Unicode官方用了一个占位符来表示这些文字,这就是:U+FFFD REPLACEMENT CHARACTER。
>>> "\xef\xbf\xbd".decode("utf-8")u'\ufffd'
所以,如果你的文本中有一些字符是unicode表示不了的,在python程序读入的时候就会转成\xef\xbf\xbd,如果在某些地方变成了unicode,那么内部就会变成
u'\ufffd',然而你再也不能转为str了。
如果你碰巧用到这些字符串作为字典的key,那么就会报key_error的错误了。



回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|nagomes  

GMT+8, 2025-5-5 00:42 , Processed in 0.026443 second(s), 21 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表