【Tips篇】爬虫

配图本来计划选择一种爬虫的，可是看到百度搜到的图片好恶心，所以作罢，还是还原网络世界真实的爬虫。
成都创新互联专注为客户提供全方位的互联网综合服务，包含不限于做网站、成都网站设计、明水网络推广、小程序开发、明水网络营销、明水企业策划、明水品牌公关、搜索引擎seo、人物专访、企业宣传片、企业代运营等，从售前售中售后，我们都将竭诚为您服务，您的肯定，是我们最大的嘉奖；成都创新互联为所有大学生创业者提供明水建站搭建服务，24小时服务热线：18980820575，官方网址：www.cdcxhl.com

爬虫应该是随着搜索引擎技术出现的。爬虫技术主要是用来抓取万维网网页内容的主要技术，被爬到的网页会被收录进入搜索引擎。一般情况下，企业作为门户网站的话是非常希望爬虫爬到，然后收录进去，这样用户搜索的时候就会被显示出来，一方面随着搜索技术飞速发展，www业务飞速发展，各种各样的爬虫，***到互联网中，爬虫对于某些网站来说是一种流量的浪费。比如某宝是坚决不让某度来爬取的，一方面是要保障流量来源，另一方面要保障流量正常，因为www网站中恶意爬虫会影响正常流量访问。

于是robots协议应运而生。

“引用”Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

防止spider任意抓取：（禁止任何爬虫进行抓取网站的任何目录）

spider user-agent：*

disallow：/

这些规则是支持正则的，所以会非常灵活。对于业务型的页面可以设置为不可被抓取。

还有一点最重要的：就是要相识的robots协议生效，就必须web访问的时候可以访问到robots.txt，并且robots位于网站的根目录下。例如：

www.taobao.com/robots.txt就可以看到淘宝的robots协议。

最后一点，如果你不想要在实名网站留下一些huai的证据，那么也不要寄希望于网站禁止爬虫，那么请注意保持良好的上网行为。

支付宝-打赏：

【Tips篇】爬虫

微信-打赏：

【Tips篇】爬虫

网站栏目：【Tips篇】爬虫
URL地址：http://cdiso.cn/article/jjhpcd.html

【Tips篇】爬虫

其他资讯