python爬虫Urllib库的使用方法-创新互联

小编给大家分享一下python爬虫Urllib库的使用方法，希望大家阅读完这篇文章后大所收获，下面让我们一起去探讨吧！

为饶河等地区用户提供了全套网页设计制作服务，及饶河网站建设行业解决方案。主营业务为网站设计制作、成都网站设计、饶河网站设计，以传统方式定制建设网站，并提供域名空间备案等一条龙服务，秉承以专业、用心的态度为用户提供真诚的服务。我们深信只要达到每一位用户的要求，就会得到认可，从而选择与我们长期合作。这样，我们也可以走得更远！

一、扒取一个网页

怎样扒网页呢？其实就是根据 URL 来获取它的网页信息，虽然我们在浏览器中看到的是一幅幅优美的画面，但是其实是由浏览器解释才呈现出来的，实质它是一段 HTML 代码，加 JS、CSS，如果把网页比作一个人，那么 HTML 便是他的骨架，JS 便是他的肌肉，CSS 便是它的衣服。所以最重要的部分是存在于 HTML 中的，下面我们就写个例子来扒一个网页下来。

import urllib2
 
response = urllib2.urlopen("http://www.baidu.com")
print response.read()

是的你没看错，真正的程序就两行，把它保存成 demo.py，进入该文件的目录，执行如下命令。

python demo.py

二、构造 Request

其实上面的 urlopen 参数可以传入一个 request 请求，它其实就是一个 Request 类的实例，构造时需要传入 Url,Data 等等的内容。比如上面的两行代码，我们可以这么改写

import urllib2
 
request = urllib2.Request("http://www.baidu.com")
response = urllib2.urlopen(request)
print response.read()

运行结果是完全一样的，只不过中间多了一个 request 对象，推荐大家这么写，因为在构建请求时还需要加入好多内容，通过构建一个 request，服务器响应请求得到应答，这样显得逻辑上清晰明确。

三、POST 和 GET 数据传送

1. POST 方式：

上面我们说了 data 参数是干嘛的？对了，它就是用在这里的，我们传送的数据就是这个参数 data，下面演示一下 POST 方式。

import urllib
import urllib2
 
values = {"username":"1016903103@qq.com","password":"XXXX"}
data = urllib.urlencode(values)
url = "/tupian/20230522/login
request = urllib2.Request(url,data)
response = urllib2.urlopen(request)
print response.read()

我们引入了 urllib 库，现在我们模拟登陆 CSDN，当然上述代码可能登陆不进去，因为 CSDN 还有个流水号的字段，没有设置全，比较复杂在这里就不写上去了，在此只是说明登录的原理。一般的登录网站一般是这种写法。我们需要定义一个字典，名字为 values，参数我设置了 username 和 password，下面利用 urllib 的 urlencode 方法将字典编码，命名为 data，构建 request 时传入两个参数，url 和 data，运行程序，返回的便是 POST 后呈现的页面内容。注意上面字典的定义方式还有一种，下面的写法是等价的

import urllib
import urllib2
 
values = {}
values['username'] = "1016903103@qq.com"
values['password'] = "XXXX"
data = urllib.urlencode(values)
url = "/tupian/20230522/login
request = urllib2.Request(url,data)
response = urllib2.urlopen(request)
print response.read()

2. GET 方式：

至于 GET 方式我们可以直接把参数写到网址上面，直接构建一个带参数的 URL 出来即可。

import urllib
import urllib2
 
values={}
values['username'] = "1016903103@qq.com"
values['password']="XXXX"
data = urllib.urlencode(values)
url = "http://passport.csdn.net/account/login"
geturl = url + "?"+data
request = urllib2.Request(geturl)
response = urllib2.urlopen(request)
print response.read()

你可以 print geturl，打印输出一下 url，发现其实就是原来的 url 加？然后加编码后的参数

/tupian/20230522/login>看完了这篇文章，相信你对python爬虫Urllib库的使用方法有了一定的了解，想了解更多相关知识，欢迎关注创新互联行业资讯频道，感谢各位的阅读！

本文名称：python爬虫Urllib库的使用方法-创新互联
分享地址：http://cdiso.cn/article/cojeeh.html

python爬虫Urllib库的使用方法-创新互联

其他资讯