wordpress反爬网站反爬

为什么百度不收录wordpress页面？

笔者是wordpress的忠实用户，之前也做过针对google和yahoo的seo，这些国外主流搜索引擎对wordpress貌似都相当友好。但是笔者做秀萌网博客的时候发现了问题：百度为什么无论如何都不会收录我在wordpress里发表的文章呢？难道是因为外链发的不够多？如果不收录我的文章，那何谈转载。在笔者经过网上查阅资料，分析得出经验和结论，总结了本篇文章。百度不收录wordpress页面的原因百度不收录wordpress的页面其实并不是绝对的，国内有很多做的相当不错的wordpress站，比如笔者很喜欢的谷奥。这些站本身和其他wordpress到底有什么样的区别？仔细观察过一些被收录很好的网站，发现它们本身的标签云并没有被很好的收录，文章归档页也大多没有收录。再去看这些站点的sitemap，其实并没有什么特别之处。起初笔者也是越来越迷茫，到底是什么原因导致了它们可以被顺利收录？经过多番试验，答案终于水出石面。总结下来有以下几条原因：经常改变主题wordpress丰富的主题会让不少站长挑花了眼，但是两三天一换主题却是一个致命伤。不同主题大多文档结构是不一样的，如果经常改变主题，也就相当于网站经常改版。这样一定会影响收录情况的，最坏可能会被k站。所以使用wordpress做blog的站长一定要注意，切忌勤换主题。解决方法也很简单，选择主题一定一步到位，之后修改主题只需要二次开发就好了，没必要大动干戈的时候就尽量少修改。复杂的标签云也许有人会问，标签云不是有利于搜索引擎的吗？的确，好的标签云是增加网站内部链接的很好的选择。但是过度使用标签会造成不好的影响。尤其wordpress的标签功能十分强大，同时也十分复杂，这就给搜索引擎爬取页面带来了难度：爬虫无法权衡标签的权重。其实标签并不是分类，如果把标签当作文档归类去使用，那注定你网站的结构不会太好。通常情况，一篇文章打1到3个标签是正常的，如果标签太多，反而会让爬虫绕晕，不利于收录。如果掌握不好度，可以将“标签云”的小插件删除掉。过慢的反应速度和动态页面过慢的反应速度通常也是网站的硬伤。如果开启了缓存还好，没有开启缓存功能的wordpress站可能需要很高的主机配置。开启很多插件的wordpress同时会对相应速度产生影响。最好的方法，当然是静态化url。

成都创新互联公司网站建设提供从项目策划、软件开发，软件安全维护、网站优化(SEO)、网站分析、效果评估等整套的建站服务，主营业务为成都做网站、成都网站建设，重庆APP开发以传统方式定制建设网站，并提供域名空间备案等一条龙服务，秉承以专业、用心的态度为用户提供真诚的服务。成都创新互联公司深信只要达到每一位用户的要求，就会得到认可，从而选择与我们长期合作。这样，我们也可以走得更远！

403错误怎么解决

一、403 forbidden是什么意思？

403 Forbidden是HTTP协议中的一个状态码(Status Code)。可以简单的理解为没有权限访问此站。该状态表示服务器理解了本次请求但是拒绝执行该任务，该请求不该重发给服务器。在HTTP请求的方法不是“HEAD”，并且服务器想让客户端知道为什么没有权限的情况下，服务器应该在返回的信息中描述拒绝的理由。在服务器不想提供任何反馈信息的情况下，服务器可以用404 Not Found代替403 Forbidden。

二、403错误代码的分类介绍

403.1

403.1错误是由于"执行"访问被禁止而造成的，若试图从目录中执行CGI、ISAPI或其他可执行程序，但该目录不允许执行程序时便会出现此种错误。

403.2

403.2错误是由于"读取"访问被禁止而造成的。导致此错误是由于没有可用的默认网页并且没有对目录启用目录浏览，或者要显示的HTML网页所驻留的目录仅标记为"可执行"或"脚本"权限。

403.3

403.3错误是由于"写入"访问被禁止而造成的，当试图将文件上载到目录或在目录中修改文件，但该目录不允许"写"访问时就会出现此种错误。

403.4

403.4错误是由于要求SSL而造成的，您必须在要查看的网页的地址中使用"https"。

403.5

403.5错误是由于要求使用128位加密算法的Web浏览器而造成的，如果您的浏览器不支持128位加密算法就会出现这个错误，您可以连接微软网站进行浏览器升级。

403.6

403.6错误是由于IP地址被拒绝而造成的。如果服务器中有不能访问该站点的IP地址列表，并且您使用的IP地址在该列表中时您就会返回这条错误信息。

403.7

403.7错误是因为要求客户证书，当需要访问的资源要求浏览器拥有服务器能够识别的安全套接字层(SSL) 客户证书时会返回此种错误。

403.8

403.8错误是由于禁止站点访问而造成的，若服务器中有不能访问该站点的DNS名称列表，而您使用的DNS名称在列表中时就会返回此种信息。请注意区别403.6与403.8错误。

403.9

403.9错误是由于连接的用户过多而造成的，由于Web服务器很忙，因通讯量过多而无法处理请求时便会返回这条错误。

403.10

403.10错误是由于无效配置而导致的错误，当您试图从目录中执行CGI、ISAPI或其他可执行程序，但该目录不允许执行程序时便会返回这条错误。

403.11

403.11错误是由于密码更改而导致无权查看页面。

403.12

403.12错误是由于映射器拒绝访问而造成的。若要查看的网页要求使用有效的客户证书，而您的客户证书映射没有权限访问该Web站点时就会返回映射器拒绝访问的错误。

403.13

403.13错误是由于需要查看的网页要求使用有效的客户证书而使用的客户证书已经被吊销，或者无法确定证书是否已吊销造成的。

403.14

403.14错误Web 服务器被配置为不列出此目录的内容，拒绝目录列表。

403.15

403.15错误是由于客户访问许可过多而造成的，当服务器超出其客户访问许可限制时会返回此条错误。

403.16

403.16错误是由于客户证书不可信或者无效而造成的。

403.17

403.17错误是由于客户证书已经到期或者尚未生效而造成的。

三、导致403错误的主要原因

1、你的IP被列入黑名单。

2、你在一定时间内过多地访问此网站（一般是用采集程序），被防火墙拒绝访问了。

3、网站域名解析到了空间，但空间未绑定此域名。

4、你的网页脚本文件在当前目录下没有执行权限。

5、在不允许写/创建文件的目录中执行了创建/写文件操作。

6、以http方式访问需要ssl连接的网址。

7、浏览器不支持SSL 128时访问SSL 128的连接。

8、在身份验证的过程中输入了错误的密码。

9、DNS解析错误，手动更改DNS服务器地址。

10、连接的用户过多，可以过后再试。

11、服务器繁忙，同一IP地址发送请求过多，遭到服务器智能屏蔽。

四、解决403 forbidden错误的方法

1、重建dns缓存

对于一些常规的403 forbidden错误，马海祥建议大家首先要尝试的就是重建dns缓存，在运行中输入cmd，然后输入ipconfig /flushdns即可。如果不行的话，就需要在hosts文件里把主页解析一下了。

2、修改文件夹安全属性

用以下命令修改文件夹安全属性

chcon -R -t httpd_user_content_t public_html/

所用命令解析：

ls -Z -d public_html/

＃显示文件／目录的安全语境－Z, --context

Display security context so it fits on most displays. Displays only mode, user, group, security context and file name.-d, --directory

list directory entries instead of contents, and do not dereference symbolic links

chcon -R -t httpd_user_content_t public_html/

＃修改文件／目录的安全语境-R, --recursive

change files and directories recursively-t, --type

set type TYPE in the target security context

3、关于apache导致的403 forbidden错误的解决办法

打开apache的配置文件httpd.conf，找到这段代码：

Options FollowSymLinks

AllowOverride None

Order deny,allow

Deny from all

有时候由于配置了php后，这里的“Deny from all”已经拒绝了一切连接。把该行改成“allow from all”，修改后的代码如下，问题解决。

Options FollowSymLinks

AllowOverride None

Order deny,allow

Allow from all

之所以会出现错误，是因为大多数的国外主机在配置Apache的时候启用了mod_security，也就是开启了安全检查，如果提交的信息中包含select , % , bin等关键字，Apache就会禁止，并给出403，404，500等错误。

4、关于HawkHost空间出现403 Forbidden错误的解决方法

有的时候在共享服务器上安装了Mod security，当网址包含有“%”号等其它敏感字符时，就会被Mod security阻止，马海祥博客曾经也出现过此情况。

解决HawkHost 403 Forbidden 错误的方法：

在.htaccess文件里添加如下代码：

SecFilterEngine Off

SecFilterScanPOST Off

直接放在网站的根目录或者程序运行的目录下。

5、关于WordPress导致的403 Forbidden错误解决方法

对于一些使用WordPress管理程序搭建的博客来说，就需要修改.htaccess文件，在后面添加上如下内容即可，其实就是disable mod_security

SecFilterEngine Off

SecFilterScanPOST Off

另外dedecms的可能还需要再加一条，以让默认访问的是index.html文件的DirectoryIndex index.html。

修改.htaccess文件，将文件上传之后，再重新打开之前出现403 Forbidden的URL就没有再出现错误，直接可以打开了。

如何给wordpress做搜索引擎优化

1、在做SEO的时候首先通过Google网站管理员工具提交Sitemap，它可以使网站内容完全被收录，当然包括那些隐藏比较深的页面。

2、优化 title 页标题，不要把 Blog 名称显示在文章标题的前面，因为在搜索结果中，页标题会高亮显示，把 Blog 名称放在前面，会导致因为长度过长而被隐藏，同时不利于访问者在第一时间关注到文章本身的标题。

3、从SEO的角度来讲robots.txt文件是一定要设置的，这是因为：采用robots.txt文件可以屏蔽掉次要的、URL重写优化前的链接，以及屏蔽一些没有关键词的页面。robots.txt 文件必须放在网站的根目录，能通过 /robots.txt 可以成功访问到，则说明本站的放置正确。如 robots.txt 文件放在子目录，那么搜索引擎不能爬取到，也就不会起任何作用。

4、需要大量的反向链接，因为大量的链接指向Blog 可以提高 PageRank，并且能让 Blog 在搜索引结果中更靠前。

5、搜索引擎非常喜欢原创文章。如果在搜索结果中，文章排在第三页后，那么也不会给 Blog 带来多少实质的影响了。文章内容必须简洁有力，不要长篇大论。

6、垃圾留言会影响 Blog 在搜索引擎中的表现。需要安装一个自动过滤垃圾留言评论的的插件，推荐使用 Akismet。

7、坚持每天更新。

抢票代码原理

为什么会实行抢票机制?

其他所谓的抢票,根本原理就是帮你时时刻刻盯着12306而已。无论哪一家的抢票,最终都是要通过.

有人知道抢票软件的原理是什么吗?

“购票者提供个人信息，将被上传至服务器数据库。一旦检测到余票就迅速锁定，并通过高速填写乘车人信息和自动识别验证码来抢票

12306是抢票原理分析 - 多线程之间实现同步 - evanYang - 的博客...

2020年5月3日程序执行的顺序按照代码的先后顺序执行。一般来说处理器为了提高程序运行效率

python自动抢票的原理

python自动抢票的原理_利用Python代码自动抢火车票的原理以及代码解析

weixin_39890629

原创

关注

1点赞·1024人阅读

今年你不妨自己写一段代码来抢回家的火车票，是不是很Cool。

准备工具：

12306网站用户名和密码

chrome浏览器及下载chromedriver

下载Python代码

代码用的Python+Splinter开发，Splinter是一个使用Python开发的开源Web应用测试工具，它可以帮你实现自动浏览站点和与其进行交互。Splinter执行的时候会自动打开你指定的浏览器，访问指定的URL。然后你所开发的模拟的任何行为，都会自动完成，你只需要坐在电脑面前，像看电影一样看着屏幕上各种动作自动完成然后收集结果即可。

了解原理：

找到相应URL，找到控件模拟登录、查询、订票操作。关键是找到控件名称，难点是起始地不是直接输入的页面值，需要在cookie中查出。

12306查询URL:

12306登录URL:

我的12306URL:

购票确认URL:

Python代码打开URL，找到控件填充值：

找到用户名密码控件名

找到起始地控件名

确定起始地的值，方法Chrome浏览器中的“检查”功能(按F12)，Network---Cookies中找到：

cookie中起始地的值

拷贝起始地的cookie值，我把几个常用的城市拷出来，放到了字典中：

查询车票代码：

其实，你只需要运行代码：

当然，还需要手动点一下的还是万恶的12306验证码，抢到票后确认支付就行啦。

抢票进行中

抢票成功！

首页

学习

实践

活动

专区

工具

TVP

返回腾讯云官网

阿黎逸阳

111 篇文章

关注

100行代码自动买火车票——和你一起探索抢票软件背后的原理

2021-10-08 15:32:42阅读 6940

大家有没有这种感觉，一到国庆、春节这种长假，抢火车票就非常困难？

各大互联网公司都推出抢票服务，只要加钱给服务费就可以增加抢到票的几率。

有些火车票代售网点和一些加速买票软件，说你只要给100元服务费就可以优先帮忙抢到票。

本文和你一起探索抢票软件背后的原理。

本文目录

效果展示

代码详解

2.1 导入库

2.2 确定好基本购票信息

2.3 登录12306

2.4 模拟滑动滑块

2.5 处理疫情特殊要求

2.6 点击购票并填写相关信息

2.7 锁定车票

一、效果展示

在正式进入代码讲解之前，先来看下本文的实现效果。

如果不是为了演示效果，直接在最后确定阶段加一个延时点击确定，应该不到45秒可以锁定一张票，只要在30分钟之内付款即可。

二、代码详解

本小节会详细解锁抢票软件是如何模拟登录网站，进行自动买票的。

为了更清晰地给大家展示，部分代码没有写成函数，直接裸代码运行，让需要买票的朋友可以自己应用软件进行购票。

1 导入库

首先导入本文需要加载的库，如果你有些库还没有安装，导致运行代码时报错，可以在Anaconda Prompt中用pip方法安装。

import json

import time

from captcha import *

from selenium import webdriver

from selenium.webdriver.common.by import By

from selenium.webdriver.support import wait

from selenium.webdriver.common.keys import Keys

from selenium.common.exceptions import NoSuchElementException

from selenium.webdriver.common.action_chains import ActionChains

from selenium.webdriver.support import expected_conditions as EC

#导入库

复制

2 确定好购票基本信息

导入库后，在python代码中填写你购票的基本信息。

purpose = 'ADULT' #购买成人票，如果是学生票，需调整代码

names = ['谢朝阳'] #填写购票人姓名

date = '2021-09-21' #填写购票日期

start_station = '深圳' #购票出发站

end_station = '长沙南' #购票目的站

password = '11234567xyz' #登录12306的秘密

username ='xiezhaoyang122700' #登录12306的账号

trains = ['G1004', 'G80', 'G6028', 'G6182', 'G6016'] #你想买的班次

#填写基本信息

复制

本文预订的是2021年9月21日从深圳到长沙南的高铁票，你可以根据自己的实际需要进行调整。

由于有些班次的时间过早或过晚，买了也很不方便，所以可以在trains中挑选出你满意的班次进行购票。

在这里需要提醒大家，我之前在尝试代码时碰到的坑，那就是时间中如果有个位数要在前面填0。

比如2021年9月2日，你在填写购票日期date时要写成'2021-09-02'，否则在运行代码时日期总是填不进去。

3 登录12306

确定好购票的基本信息后，就可以应用python模拟登录12306了，代码如下：

options = webdriver.ChromeOptions()

options.add_argument("--disable-blink-features=AutomationControlled")

browser = webdriver.Chrome(options=options)

browser.maximize_window()

login_url = ''

#ticket_url = ''

browser.get(login_url)

time.sleep(0.5)

wait.WebDriverWait(browser, 5).until(EC.element_to_be_clickable((By.CLASS_NAME,'login-hd-account'))).click()

input_name = browser.find_element_by_id('J-userName')

input_pd = browser.find_element_by_id('J-password')

input_name.send_keys(username)

input_pd.send_keys(password)

#登录12306

复制

整体思路是：

应用python模拟调用google浏览器；

输入12306网址；

等网页加载完全后点击账户密码登录；

找到账号密码的id，把账户密码信息填充进去；

找到登录id，模拟点击登录按钮。

在这一小节中要注意两个点。一是要在python安装目录中放和google版本匹配的chromedriver，供python调用。

二是要学会找填写账户密码信息的id。

首先，在google浏览器中输入12306登录网址：。

接着点击账户密码登录，会出现如下界面。

然后点击红框中的三个点，找到更多工具，点击开发者工具，会出现如下界面。

点击红框中的箭头，把鼠标移动到账户框上去，就会出现如下界面：

undefined

右边变灰的框里就会出现对应的id，点击账号框，再把鼠标移动到右边变灰的字符上去，点击右键，会出现copy element的选项，复制下来即可。

input type="text" class="input" id="J-userName" placeholder="用户名/邮箱/手机号" style="height: 44px; line-height: 44px; outline: black 0px;" aria-label="请输入用户名／邮箱／手机号" title="请输入用户名／邮箱／手机号"

复制

发现了吗？源代码input_name中要填写的browser.find_element_by_id('J-userName')内容，即为id="J-userName"中的信息。

4 模拟滑动滑块

输入完用户名和密码，点击立即登录后，会出现如下滑块验证要求。

运行如下代码即可拖动滑块进行验证。

browser.implicitly_wait(5)

print('=====开始处理滑动验证码=====')

track = [300, 400, 500]

for i in track:

try:

btn = browser.find_element_by_xpath('//*[@id="nc_1__scale_text"]/span')

ActionChains(browser).drag_and_drop_by_offset(btn,i,0).perform()

except:

time.sleep(2)

#拉动滑块验证

复制

其中，browser.implicitly_wait(5)表示隐性等待5秒，track中放的是滑块拉动的距离。

5 处理疫情特殊要求

完成滑块验证要求后，会出现如下疫情特殊要求提示：

用如下代码点击确认即可。

browser.implicitly_wait(5)

browser.find_element_by_xpath('/html/body/div[5]/div[2]/div[3]/a').click()

time.sleep(2)

#疫情特殊要求

复制

browser.find_element_by_xpath和id的区别是，在右键复制时要copy XPath或copy full XPath。

6 点击购票并填写出发地、目的地、出发时间

接下来是选择买票，并将出发地、目的地、出发时间等信息填写进去。

browser.find_element_by_xpath('//*[@id="J-chepiao"]/a').click()

browser.find_element_by_xpath('//*[@id="megamenu-3"]/div[1]/ul/li[1]/a').click()

browser.find_element_by_xpath('//*[@id="qd_closeDefaultWarningWindowDialog_id"]').click()

#选择买票

def input_info():

print('=====开始买票=====')

from_station = browser.find_element_by_xpath('//*[@id="fromStationText"]')

from_station.send_keys(Keys.ENTER)

from_station.send_keys(Keys.CONTROL, 'a')

from_station.send_keys(start_station, Keys.ENTER)

browser.implicitly_wait(5)

to_station = browser.find_element_by_xpath('//*[@id="toStationText"]')

to_station.send_keys(Keys.ENTER)

to_station.send_keys(Keys.CONTROL, 'a')

to_station.send_keys(end_station, Keys.ENTER)

browser.implicitly_wait(5)

start_date = browser.find_element_by_xpath('//*[@id="train_date"]')

start_date.send_keys(Keys.ENTER)

start_date.send_keys(Keys.CONTROL, 'a')

start_date.send_keys(Keys.CONTROL, 'x')

start_date.send_keys(date, Keys.ENTER)

browser.implicitly_wait(5)

wait.WebDriverWait(browser, 3).until(EC.element_to_be_clickable((By.ID,'query_ticket'))).click()

input_info()

#将出发地、目的地、出发日期填进去

复制

得到结果如下：

这里需要注意的是我调用了两遍input_info函数，因为12306可能采取了一些反爬措施，一遍输入进去后查不出东西，显示为灰色。

7 锁定车票

最后是依次查找trains中的车次是否有票，有的话点击购买锁定车票。

trList = browser.find_elements_by_xpath(".//tbody[@id='queryLeftTable']/tr[not(@datatran)]")

for tr in trList:

trainNum = tr.find_element_by_class_name("number").text

if trainNum in trains:

leftTicket = tr.find_element_by_xpath(".//td[4]").text

print('leftTicket', leftTicket)

if leftTicket == '有' or leftTicket.isdigit():

orderBtn = tr.find_element_by_class_name("btn72")

orderBtn.click()

browser.implicitly_wait(5)

passengerLabels = browser.find_elements_by_xpath(".//ul[@id='normal_passenger_id']/li/label")

for passengerLabel in passengerLabels:

name = passengerLabel.text

if name in names:

passengerLabel.click()

browser.implicitly_wait(20)

# 获取提交按钮

submitBtn = browser.find_element_by_id("submitOrder_id")

submitBtn.click()

browser.implicitly_wait(20)

confirmBtn = browser.find_element_by_id("qr_submit_id")

confirmBtn.click()

time.sleep(2)

browser.implicitly_wait(20)

confirmBtn = browser.find_element_by_id("qr_submit_id")

confirmBtn.click()

break

#依次查找trains中的车次是否有票，有的话点击购买

复制

所以，如果你有特别心仪的车次，可以在trains中放在最前面，依次填写觉得还行的车次。

至此，应用python解锁抢票软件背后的原理已讲解完毕，感兴趣的朋友可以自己跟着本文实现一遍。

12306不定期会更新买票界面，所以过一段时间可能之前的代码就要进行一些调整，需要自己弄清里面的原理，才可以以不变应万变。

本文的代码没有进行高级的封装，只为大家能更清楚地了解每一步，能在抢票高峰期买到自己心仪的票。

也写得很基础，没有进一步的调优缩短时效，感兴趣的朋友可以自行研究，如有任何疑问可以跟我沟通。

抢票软件原理 - Python实战案例教学(视频讲解) 12306...

2020年12月7日python有很多方法去实现抢票,其基本原理,就是让程序自动模拟人去操作12306网站

为什么会实行抢票机制?

其他所谓的抢票,根本原理就是帮你时时刻刻盯着12306而已。无论哪一家的抢票,最终都是要通过.

当前题目：wordpress反爬网站反爬
本文路径：http://cdiso.cn/article/ddoiego.html

wordpress反爬 网站反爬

为什么百度不收录wordpress页面？

403错误怎么解决

如何给wordpress做搜索引擎优化

抢票代码原理

其他资讯

wordpress反爬网站反爬