解决UnicodeDecodeError: ‘utf-8‘ codec can‘t decode : invalid continuation byte

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xed in position 4249: invalid continuation byte比较烦人的问题，用notepad打开显示’utf-8’，但是还是不行df = pd.read_csv(r'...\11-23.txt',header=None, sep='\t',encoding='

得克特

11322人浏览 · 2021-11-23 16:55:28

得克特 · 2021-11-23 16:55:28 发布

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xed in position 4249: invalid continuation byte
比较烦人的问题，用notepad打开显示’utf-8’，但是还是不行

df = pd.read_csv(r'...\11-23.txt',header=None, sep='\t',encoding='utf8')

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xed in position 142121: invalid continuation byte

error_bad_lines貌似没有生效

df = pd.read_csv(r'...\11-23.txt',header=None, sep='\t', error_bad_lines=False)


FutureWarning: The error_bad_lines argument has been deprecated and will be removed in a future version.

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xed in position 142121: invalid continuation byte

看了下源码，使用encoding_errors解决问题

df = pd.read_csv(r'...\time_space_tag\11-23.txt',header=None, sep='\t', encoding_errors='ignore')

Codec registry and base classes

华为云开发者联盟

为开发者提供学习成长、分享交流、生态实践、资源工具等服务，帮助开发者快速成长。

更多推荐

小窗口大魔力，实况窗服务实时掌控重要信息变化

华为云开发者联盟

GeminiDB全面联动MySQL：热点数据，一键加速

华为云开发者联盟

GaussDB数据库查询重写的自动挖掘与生成

华为云开发者联盟

所有评论(0)

查看更多评论

得克特

@weixin_40548136

已为社区贡献2条内容