python3中编码怎样获取网页

这篇文章给大家分享的是有关python3中编码怎样获取网页的内容。小编觉得挺实用的,因此分享给大家做个参考。一起跟随小编过来看看吧。

公司主营业务:网站制作、成都网站建设、移动网站开发等业务。帮助企业客户真正实现互联网宣传,提高企业的竞争能力。创新互联公司是一支青春激扬、勤奋敬业、活力青春激扬、勤奋敬业、活力澎湃、和谐高效的团队。公司秉承以“开放、自由、严谨、自律”为核心的企业文化,感谢他们对我们的高要求,感谢他们从不同领域给我们带来的挑战,让我们激情的团队有机会用头脑与智慧不断的给客户带来惊喜。创新互联公司推出醴陵免费做网站回馈大家。

1. encoding和apparent_encoding

import scrapy
url="https://www.ygdy8.net/html/gndy/dyzz/index.html"
re=requests.get(url)
#获取响应头Content-Type的charset值,有的网站没有charset字段,就可能使用默认的 ISO-8859-1
print(re.encoding)
#apparent_encoding就是获取网站真实的编码
print(re.apparent_encoding)

2. 处理方案

直接用r.encoding = ‘xxx’

re.encoding='utf-8'

3. requests的text()跟content()有什么区别

re.text返回的是处理过的Unicode型的数据,

而使用re.content返回的是bytes型的原始数据。

 

4. 爬虫拿到的HTML和浏览器中的源码不相同时

通过下载源码对比

import requests
url = 'https://www.ygdy8.net/html/gndy/dyzz/index.html'
r  = requests.get(url)
r.encoding = r.apparent_encoding
html = r.text
with open('test.html','w',encoding='utf8') as f:
f.write(html)

 python3中编码怎样获取网页

 

感谢各位的阅读!关于python3中编码怎样获取网页就分享到这里了,希望以上内容可以对大家有一定的帮助,让大家可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到吧!


文章标题:python3中编码怎样获取网页
当前链接:http://cdiso.cn/article/ieoscp.html

其他资讯