目录

一、re.findall函数介绍

它在re.py中有定义:

  def findall(pattern, string, flags=0):

"""Return a list of all non-overlapping matches in the string.

If one or more capturing groups are present in the pattern, return
a list of groups; this will be a list of tuples if the pattern
has more than one group.

Empty matches are included in the result."""

return _compile(pattern, flags).findall(string)

返回string中所有与pattern匹配的全部字符串,返回形式为数组。
findall()函数的两种表示形式
import re
kk = re.compile(r’\d+’)
kk.findall(‘one1two2three3four4’)
#[1,2,3,4]

#注意此处findall()的用法,可传两个参数;
kk = re.compile(r’\d+’)
re.findall(kk,“one123”)
#[1,2,3]

二、代码如下

后面会讲解代码里的各个部分,先列出来~
import re
str = ‘aabbabaabbaa’

#一个"."就是匹配除 \n (换行符)以外的任意一个字符
print(re.findall(r’a.b’,str))#[‘aab’, ‘aab’]

#前面的字符出现0次或以上
print(re.findall(r’a
b’,str))#[‘aab’, ‘b’, ‘ab’, ‘aab’, ‘b’]

#贪婪,匹配从.*前面为开始到后面为结束的所有内容
print(re.findall(r’a.*b’,str))#[‘aabbabaabb’]

#非贪婪,遇到开始和结束就进行截取,因此截取多次符合的结果,中间没有字符也会被截取
print(re.findall(r’a.*?b’,str))#[‘aab’, ‘ab’, ‘aab’]

#非贪婪,与上面一样,只是与上面的相比多了一个括号,只保留括号的内容
print(re.findall(r’a(.*?)b’,str))#[‘a’, ‘’, ‘a’]

str = ‘’‘aabbab
aabbaa
bb’’’ #后面多加了2个b

#没有把最后一个换行的aab算进来
print(re.findall(r’a.*?b’,str))#[‘aab’, ‘ab’, ‘aab’]

#re.S不会对\n进行中断
print(re.findall(r’a.*?b’,str,re.S))#[‘aab’, ‘ab’, ‘aab’, ‘aa\n b’]

三、re.findall中正则表达式(.*?)

字符串是
str = ‘aabbabaabbaa’

  1. 符号 . 就 是匹配除 \n (换行符)以外的任意一个字符
    print(re.findall(r’a.b’,str))
    #[‘aab’, ‘aab’]
    2.符号 * 前面的字符出现0次或以上
    print(re.findall(r’ab’,str))
    #[‘aab’, ‘b’, ‘ab’, ‘aab’, ‘b’]
    3.符号.
    贪婪,匹配从.前面为开始到后面为结束的所有内容
    print(re.findall(r’a.b’,str))
    #[‘aabbabaabb’]
    4.符号.
    ? 非贪婪,遇到开始和结束就进行截取,因此截取多次符合的结果,中间没有字符也会被截取
    print(re.findall(r’a.
    ?b’,str))
    #[‘aab’, ‘ab’, ‘aab’]
    5.符号(.?) 非贪婪,与上面一样,只是与上面的相比多了一个括号,只保留括号的内容
    print(re.findall(r’a(.
    ?)b’,str))
    #[‘a’, ‘’, ‘a’]
    关于带括号与不带括号的区别
    import re

string=“abcdefg acbdgef abcdgfe cadbgfe”

#不带括号
regex=re.compile("((\w+)\s+\w+)")
print(regex.findall(string))
#输出:[(‘abcdefg acbdgef’, ‘abcdefg’), (‘abcdgfe cadbgfe’, ‘abcdgfe’)]

regex1=re.compile("(\w+)\s+\w+")
print(regex1.findall(string))
#输出:[‘abcdefg’, ‘abcdgfe’]

regex2=re.compile("\w+\s+\w+")
print(regex2.findall(string))
#输出:[‘abcdefg acbdgef’, ‘abcdgfe cadbgfe’]
第一个 regex 中带有2个括号,其输出list 中包含2个 tuple
第二个 regex 中带有1个括号,其输出内容是括号匹配到的内容,而不是整个表达式所匹配到的结果。
第三个 regex 中不带括号,其输出的内容就是整个表达式所匹配到的内容。
实际上这并不是python特有的,这是正则所特有的 , 任何一门高级语言使用正则都满足这个特点:有括号时只能匹配到括号中的内容,没有括号【相当于在最外层增加了一个括号】。在正则里面 “()” 代表的是分组的意思,一个括号代表一个分组,你只能匹配到 “()” 中的内容。

四、re.findall中参数re.S的意义

1.字符串变为(后面多加了2个b)

str = ‘’‘aabbab
aabbaa
bb’’’

2.参数无re.S,没有把最后一个换行的aab算进来

print(re.findall(r’a.*?b’,str))
#[‘aab’, ‘ab’, ‘aab’]

3.参数有re.S,不会对\n进行中断

print(re.findall(r’a.*?b’,str,re.S))
#[‘aab’, ‘ab’, ‘aab’, ‘aa\n b’]

一个随机切换user_agent的第三方python库:my_fake_useragent
因为my_fake_useragent 是第三方,所以需要自己进行安装。
不用担心,它没有任何依赖或者附加环境,只安装它自己就行。
方法1:
pycharm传统安装方式。
方法2:
pip install …
fake_useragent 和 my_fake_useragent 其实是一个东西。
使用:这里只列举两个最简单的方式去调用。

#-*- coding: utf-8 -*-

import my_fake_useragent as ua

if __name__ == '__main__':
    user_agent = ua.UserAgent()

    # 方法1
    # 随机获取一个user-agent,每次获取的都不一样
    for _ in range(10):
        print(user_agent.random())

    # 方法2
    # user_agent.get_useragent_list(): 返回一个user-agent的列表
    for index, each_useragent in enumerate(user_agent.get_useragent_list()):
        print(index, ': ', each_useragent)

既然说到了user_agent,那就再多说一点。
乍看user agent 时,只觉得它是一串乱七八糟的字符串,其实包含的内容还是挺多的。中文名为用户代理(区别于爬虫时使用的代理ip),简称UA,是一个特殊字符串头,使得服务器能够识别客户使用的操系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言等。
一些网站常常通过 UA 来给不同的操作系统、不同的浏览器发送不同的页面。
UA字串的标准格式:
浏览器标识(操作系统标识;加密等级标识;浏览器语言)渲染引擎标识 版本信息
下面列举 UA 中包含的字符串信息
操作系统标识
FreeBSD
X11; FreeBSD (version no.) i386
X11; FreeBSD (version no.) AMD64
Linux
X11; Linux ppc
X11; Linux ppc64
X11; Linux i686
X11; Linux x86_64
Mac
Macintosh; PPC Mac OS X
Macintosh; Intel Mac OS X
Solaris
X11; SunOS i86pc
X11; SunOS sun4u
Windows:
Windows NT 10.0 对应操作系统windows 10
windows NT 6.2 对应操作系统 windows 8
Windows NT 6.1 对应操作系统 windows 7
Windows NT 6.0 对应操作系统 windows vista
Windows NT 5.2 对应操作系统 windows 2003
Windows NT 5.1 对应操作系统 windows xp
Windows NT 5.0 对应操作系统 windows 2000
Windows ME
Windows 98
加密等级标识
N: 表示无安全加密
I: 表示弱安全加密
U: 表示强安全加密
浏览器语言
在首选项 > 常规 > 语言中指定的语言
渲染引擎
浏览器 使用 Presto 渲染引擎,格式为: Presto/版本号
版本信息
显示 浏览器 真实版本信息,格式为: Version/版本号

用这些信息去刚才的python代码输出中去对照,基本都能找到对应的信息。说这些,其实是python爬虫面试过程中可能会被问到的一个点,虽然是个冷门的知识点,不过了解一下也好。

Logo

华为开发者空间,是为全球开发者打造的专属开发空间,汇聚了华为优质开发资源及工具,致力于让每一位开发者拥有一台云主机,基于华为根生态开发、创新。

更多推荐