爬取wordpress 爬取一个网站的多个页面数据

安装wordpress初期没有让蜘蛛爬取后来如何更改

在设置-阅读里-建议搜索引擎不索引本站点，

创新互联公司主要从事成都网站制作、成都做网站、网页设计、企业做网站、公司建网站等业务。立足成都服务鹤山,十载网站建设经验,价格优惠、服务专业,欢迎来电咨询建站服务:18982081108

把这个前面的选择取消

另提示下：等选择好之后建议去了解下网站的robots.txt写法，是不是屏蔽搜索引擎。

因为这个选项也是操作robots.txt。

做法：传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。

然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；对于聚焦爬虫来说，这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常被称为网页追逐者），是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本，已被广泛应用于互联网领域。搜索引擎使用网络爬虫抓取Web网页、文档甚至图片、音频、视频等资源，通过相应的索引技术组织这些信息，提供给搜索用户进行查询。

让各大搜索引擎搜索收录到刚建的wordpress网站方法如下：

一、提交入口（这里以百度举例）

打开百度站长

2.链接提交

3.手动提交

4.填写网址，提交即可

二、外链建设

可以通过去各个论坛发布带有网址的文本，让搜索引擎蜘蛛爬行网站，从而收录。查看外链的方法如图：

标题名称：爬取wordpress 爬取一个网站的多个页面数据
网站网址：http://cdiso.cn/article/ddeggge.html