Python中字符串前“b”,“r”,“u”,“f”的作用
原文:https://www.jb51.net/article/176601.htmPython中字符串前“b”,“r”,“u”,“f”的作用1、字符串前加 u例:u"我是含有中文字符组成的字符串。"作用:后面字符串以 Unicode 格式 进行编码,一般用在中文字符串前面,防止因为源码储存格式问题,导致再次使用时出现乱码。2、字符串前加 r例:r"\n\n\n\n” 表示一个普通生字符串 \n
原文:https://www.jb51.net/article/176601.htm
原文有bug特参考:https://www.cnblogs.com/songzhenhua/p/13236794.html修改
Python中字符串前“b”,“r”,“u”,“f”的作用
1、字符串前加 u
例:u"我是含有中文字符组成的字符串。"
作用:
前缀u表示该字符串是unicode编码,Python2中用,用在含有中文字符的字符串前,防止因为编码问题,导致中文出现乱码。另外一般要在文件开关标明编码方式采用utf8。
Python3中,所有字符串默认都是unicode字符串。
2、字符串前加 r
例:r"\n\n\n\n”
表示一个普通字符串 \n\n\n\n
,而不表示换行了。
作用:
去掉反斜杠的转义机制。
在普通字符串中,反斜线是转义符,代表一些特殊的内容,如换行符\n。前缀r表示该字符串是原始字符串,即\不是转义符,只是单纯的一个符号。
常用于特殊的字符如换行符、正则表达式、文件路径。
注意不能在原始字符串结尾输入反斜线,否则Python不知道这是一个字符还是换行符(字符串最后用\表示换行),会报错:
>>> print(r'C:\Program File\my\path''\')
File "<stdin>", line 1
print(r'C:\Program File\my\path''\')
^
SyntaxError: EOL while scanning string literal
那如果是一个文件夹路径就是以\结尾怎么办呢,可以再接一个转义\的字符串:
>>> print(r'C:\Program File\my\path''\\')
C:\Program File\my\path\
或、
>>> print(r'C:\Program File\my\path'+'\\')
C:\Program File\my\path\
注意:
在python的正则表达式中,为表示模块re要求的单个反斜杠,需要在字符串中书写两个反斜杠,让解释器对其进行转义。换而言之,这里包含两层转义:解释器执行的转义和模块re执行的转义。实际上,在有些情况下也可使用单个反斜杠,让解释器自动对其进行转义,但请不要这样依赖解释器。
如果你厌烦了两个反斜杆,可使用原始字符串,如r'python\.org'
。
3、字符串前加 b
例:response = b'Hello World!'
b' '
表示这是一个 bytes 对象,用在Python3中,Python3里默认的str是unicode类。Python2的str本身就是bytes类。
作用:
b" "
前缀表示:后面字符串是bytes 类型。
用处:
前缀b表示该字符串是bytes类型。
常用在如网络编程中,服务器和浏览器只认bytes类型数据。如:send 函数的参数和 recv 函数的返回值都是 bytes 类型。
附:
在 Python3 中,bytes 和 str 的互相转换方式是
str.encode('utf-8')
bytes.decode('utf-8')
4、字符串前加 f
import time
t0 = time.time()
time.sleep(1)
name ='processing'
print(f'{name} done in {time.time() - t0:.2f} s')
输出:
processing done in 1.00 s
Python3.6新加特性,前缀f用来格式化字符串。可以看出f前缀可以更方便的格式化字符串,比format()方法可读性高且使用方便。
而且加上f前缀后,支持在大括号内,运行Python表达式。
你还可以用fr前缀来表示原生字符串。
Python中bytes与字符串的相互转化
# bytes转字符串方式一
b=b'\xe9\x80\x86\xe7\x81\xab'
string=str(b,'utf-8')
print(string)
>>> 逆火
>>>
# bytes转字符串方式二
b=b'\xe9\x80\x86\xe7\x81\xab'
string=b.decode() # 第一参数默认utf8,第二参数默认strict
print(string)
>>> 逆火
# bytes转字符串方式三
b=b'\xe9\x80\x86\xe7\x81haha\xab'
string=b.decode('utf-8','ignore') # 忽略非法字符,用strict会抛出异常
print(string)
>>> 逆haha
# bytes转字符串方式四
b=b'\xe9\x80\x86\xe7\x81haha\xab'
string=b.decode('utf-8','replace') # 用?取代非法字符
print(string)
>>> 逆�haha�
>>>
# 字符串转bytes方式一
str1='逆火'
b=bytes(str1, encoding='utf-8')
print(b)
>>> b'\xe9\x80\x86\xe7\x81\xab'
# 字符串转bytes方式二
b=str1.encode('utf-8')
print(b)
>>> b'\xe9\x80\x86\xe7\x81\xab'
前缀u、b测试
下面的内容来源于:https://blog.csdn.net/anlian523/article/details/80504699,原文有错误,特转过来修改
字符串的类型只有两种(str,bytes),
>>> oath = '我爱妞'
>>> print(type(oath))
<class 'str'>
>>> print(len(oath))
3
>>> oath1 = u'我爱妞'
>>> print(type(oath1))
<class 'str'>
>>> print(len(oath1))
3
>>> print(oath==oath1)
True
发现无前缀,和前缀u,构造出来的字符串常量是一样的。
类型都是str,长度都是3,==
判断返回true
。
其实,这里是因为,python3中,字符串的存储方式都是以Unicode字符来存储的,所以前缀带不带u,其实都一样。
>>> oath = '我爱妞'
>>> oath1 = u'我爱妞'
>>> print(oath is oath1)
False
is
判断返回False
。
结论:字符串常量,前缀带不带u,都是一样的。
>>> utf8 = oath.encode('utf-8')
>>> print(type(utf8))
<class 'bytes'>
>>> print(len(utf8))
9
>>> print(utf8)
b'\xe6\x88\x91\xe7\x88\xb1\xe5\xa6\x9e'
>>> gbk = oath.encode('gbk')
>>> print(type(gbk))
<class 'bytes'>
>>> print(len(gbk))
6
>>> print(gbk)
b'\xce\xd2\xb0\xae\xe6\xa4'
可以发现任何str类型的字符串,在经过encode(‘utf-8’)后,通过utf-8编码,将Unicode字符转换为对应的以字节方式存储的若干十六进制数。
根据如上程序以及结果,可以发现,utf-8用三个字节(6个十六进制数)来表示一个中文字符,而gbk用两个字节(4个十六进制数)来表示一个中文字符。
结论:encode()
函数根据括号内的编码方式,把str
类型的字符串转换为bytes
字符串,字符对应的若干十六进制数。
既然str
存储的是Unicode
字符,那么也可以Unicode
编码来存储str,形如\u1234
:
>>> u'\u5220\u9664'
'删除'
>>> '\u5220\u9664'
'删除'
发现\u后面跟四个十六进制数,就可以代表一个Unicode字符,同样的,前缀带不带u都一样。
>>> test = u'\u5220\u9664'
>>> print(len(test))
2
>>> print(test)
删除
>>> test1 = test.encode('utf-8')
>>> print(test1)
b'\xe5\x88\xa0\xe9\x99\xa4'
>>> print(type(test1))
<class 'bytes'>
结论:str类型的字符串,每个字符用字符本身或者\u1234
来表示都可以,后者则是直接是Unicode编码。但打印时都是字符本身。
bytes字符串的组成形式,必须是十六进制数,或者ASCII字符:
>>> x = b'abc'
>>> x
b'abc'
>>> b'好'
File "<stdin>", line 1
b'好'
^
SyntaxError: bytes can only contain ASCII literal characters.
提示错误:bytes只能包含ASCII字符。
还可以对bytes取索引,所以bytes类型也可以用for循环来迭代。取索引,将所在元素的数,转换为十进制数。
>>> g=b'\xce\xd2\xb0\xae\xe6\xa4'
>>> g[0]
206
>>> out = open('test.txt','w',encoding = 'utf-8')
>>>
>>> test = u'\u5220\u9664'
>>> print(len(test))
2
>>> print(test)
删除
>>> test1 = test.encode('utf-8')
>>> print(test1)
b'\xe5\x88\xa0\xe9\x99\xa4'
>>> print(type(test1))
<class 'bytes'>
>>>
>>> out.write(test)
2
>>> out.close()
更多推荐
所有评论(0)