Python爬虫基础-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

Python爬虫基础

阅读量：4352 次

发布时间：2019-06-07

本文共 709 字，大约阅读时间需要 2 分钟。

1、urllib和urllib2的区别：

1、获取baidu的网页源代码

urllib是python内置的http请求库。

urllib.request:请求模块。

1 import urllib.request2 3 resp = urllib.request.urlopen('http://www.baidu.com')4 # resp:
     
      5 # resp是一个HTTPResponse对象6 # resp.read()读取urlopen(url)中url里面的内容7 print(resp.read().decode('utf-8'))

python 正则表达式：re.S

re.S 将字符串作为一个整体，将"\n"当作一个普通的字符加入到这个字符串中，在整体中进行匹配。

import rea = '''asdfsafhellopass:    234455    worldafdsf    '''# '.'是匹配除"\n"以外的任何字符，也就是说，它是在一行中进行匹配。b = re.findall('hello(.*?)world', a)# re.S 将字符串作为一个整体，将"\n"当作一个普通的字符加入到这个字符串中，在整体中进行匹配c = re.findall('hello(.*?)world', a, re.S)print('b is', b)print('c is', c)

输出结果：

b is []

c is ['pass:\n 234455\n ']

转载于:https://www.cnblogs.com/niuwa/p/10260523.html

你可能感兴趣的文章

5个基于HTML5的加载动画推荐

水平权限漏洞的修复方案

静态链接与动态链接的区别

如何使用mysql

小D课堂 - 零基础入门SpringBoot2.X到实战_第11节 Logback日志框架介绍和SpringBoot整合实战_45、SpringBoot2.x日志讲解和Logback配置实战...

类中的静态函数和非静态函数的区别

windows 下安装Apache

Fedora14 mount出现错误时解决办法【亲测有效】

使用Visual Studio 2013进行UI自动化测试

读了曾国藩家书，，心态逐渐平和起来。搞技术的如果缺乏信念的指引，生活会很乏味无聊！...

160809308周子济第六次作业

大型Web应用运行时 PHP负载均衡指南

为phpStorm 配置PHP_CodeSniffer自动检查代码

测试工具网址大全（转）

ServiceStack DotNet Core前期准备

webpack中‘vant’全局引入和按需引入【vue-cli】

Date、String和Timestamp类型转换

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-10-08 03:40:01 当前IP: 3.141.3.175 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我