博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python爬虫基础
阅读量:4352 次
发布时间:2019-06-07

本文共 709 字,大约阅读时间需要 2 分钟。

1、urllib和urllib2的区别:

 

1、获取baidu的网页源代码

urllib是python内置的http请求库。

urllib.request:请求模块。

1 import urllib.request2 3 resp = urllib.request.urlopen('http://www.baidu.com')4 # resp:
5 # resp是一个HTTPResponse对象6 # resp.read()读取urlopen(url)中url里面的内容7 print(resp.read().decode('utf-8'))

 python 正则表达式:re.S

re.S 将字符串作为一个整体,将"\n"当作一个普通的字符加入到这个字符串中,在整体中进行匹配。

import rea = '''asdfsafhellopass:    234455    worldafdsf    '''# '.'是匹配除"\n"以外的任何字符,也就是说,它是在一行中进行匹配。b = re.findall('hello(.*?)world', a)# re.S 将字符串作为一个整体,将"\n"当作一个普通的字符加入到这个字符串中,在整体中进行匹配c = re.findall('hello(.*?)world', a, re.S)print('b is', b)print('c is', c)

输出结果:

b is []

c is ['pass:\n 234455\n ']

 

转载于:https://www.cnblogs.com/niuwa/p/10260523.html

你可能感兴趣的文章
时钟系统
查看>>
BiTree
查看>>
5个基于HTML5的加载动画推荐
查看>>
水平权限漏洞的修复方案
查看>>
静态链接与动态链接的区别
查看>>
如何使用mysql
查看>>
小D课堂 - 零基础入门SpringBoot2.X到实战_第11节 Logback日志框架介绍和SpringBoot整合实战_45、SpringBoot2.x日志讲解和Logback配置实战...
查看>>
类中的静态函数和非静态函数的区别
查看>>
windows 下安装Apache
查看>>
Fedora14 mount出现错误时解决办法【亲测有效】
查看>>
使用Visual Studio 2013进行UI自动化测试
查看>>
13-集体照
查看>>
读了曾国藩家书,,心态逐渐平和起来。搞技术的如果缺乏信念的指引,生活会很乏味无聊!...
查看>>
160809308周子济第六次作业
查看>>
大型Web应用运行时 PHP负载均衡指南
查看>>
为phpStorm 配置PHP_CodeSniffer自动检查代码
查看>>
测试工具网址大全(转)
查看>>
ServiceStack DotNet Core前期准备
查看>>
webpack中‘vant’全局引入和按需引入【vue-cli】
查看>>
Date、String和Timestamp类型转换
查看>>