javascript蜘蛛,web蜘蛛网
如何避免蜘蛛陷阱
如何避免蜘蛛陷阱
在历城等地区,都构建了全面的区域性战略布局,加强发展的系统性、市场前瞻性、产品创新能力,以专注、极致的服务理念,为客户提供网站建设、成都网站建设 网站设计制作定制网站制作,公司网站建设,企业网站建设,品牌网站设计,全网营销推广,成都外贸网站建设,历城网站建设费用合理。
“蜘蛛陷阱”是阻止蜘蛛程序爬行网站的障碍物,虽然网页界面看起来非常正常,但这些蜘蛛陷阱会对蜘蛛程序造成障碍。消除这些蜘蛛陷阱,可以使蜘蛛程序收录更多的网页。哪些做法不利于蜘蛛爬行和抓取呢?怎么去避免这些蜘蛛陷阱呢?下面跟我一起学习一下!
1、 登录要求
有些企业站和个人站设置一定要用户注册登录后,才能看到相关的文章内容,这种对蜘蛛不是很友好,因为蜘蛛无法提交注册,更无法输入用户名和密码登录查看内容。对于蜘蛛来说,用户直接点击查看到的内容也是蜘蛛所能看到的内容。如果你的网站有这种情况,请取消这一功能,但网站如果有VIP用户或部分资源,是可以这样设置的。
2、动态URL
动态URL可以简单理解为在URL中加入过多的符号或者网址参数,虽然随着搜索引擎的技术发展,动态URL对于蜘蛛的抓取已经越来越不是问题了,但是从搜索引擎友好度上讲,静态哪陷是伪静态相对来说都比动态URL要好。URL优化将在本章第6节中讨论。 /
3、强制用Cookies
强制用Cookies对于搜索引擎来说相当于直接禁用了Cookies,而有些网站为了实现某些功能。会采取强制Cookies,例如跟踪用户访问路径,记住用户信息,甚至是盗取用户隐私等,如果用户访问这类站点时没有启用Cookies,所显示的页面就会不正常。所以,对于蜘蛛来讲,同样的网页无法正常访问。
4、 框架结构
早期框架网页到处被泛滥使用,而现在很多网站已经很少使用了,一是因为现在随着各大CMS系统的开发问世,网站维护相对越来越简单了,早期网站使用框架是因为对网站页面的维护有一定的便利性,现在已经大可不必了,而且不利于搜索引擎收录也是框架越来越少被使用的原因之一。
5、各种跳转
对搜索引擎来说,只对301跳转相对来说比较友好,对其他形式的跳转都比较敏感。如JavaScritp跳转、MetaRefresh跳转、Flash跳转、302跳转。
有些网站的做法很让人无奈,当打开网页后,会自动转向其他页面,如果打开的页面和你要找的页面丰体相关.+扫.笪讨很去,佃是很大部分的网站转向让你无任何理由和目的,这种转向不推荐大家使用,如果非要做转向,只推荐用301永久跳转,可以将权重进行传递,除此转向其他都不推荐,因为很多其他转向欺骗用户和搜索引擎,也是黑帽的'一种手段,建议大家不要使用。
6、Flash
有的网站页面使用Flash视觉效果是很正常的,例如用Flash做的Logo、广告、图表等,这些对搜索引擎抓取和收录是没有问题的,但很多网站的首页是一个大的Flash文件,这种就叫蜘蛛陷阱。在蜘蛛抓取时,HTML代码中只是一个链接,并没有文字,虽然大的Flash效果看上去很好,外观看着也很漂亮,但可惜搜素引擎看不到,无法读取任何内容,所以,为了能体现网站优化的最好效果,不提倡这种Flash作为首页图片。
7、JavaScript跳转
虽然现在搜索引擎对于JavaScript里的链接可以跟踪,甚至尝试拆解分析,但是我们最好不要寄望于搜索引擎自己克服困难。虽然通过JavaScript可以做一些效果不错的导航,但是CSS同样也可以做到。为了提高网站对搜索引擎的友好度,使网页能够更好地蜘蛛爬行,尽量不要采用JavaScript当然,在SEO中,JavaScript有一个好处就是站长不希望被收录的页面或者友情链接可以采用JavaSc:npt。当然,有一种方法可以消除JavaScript蜘蛛程序陷阱,即使用
8、采用session id的页面
有的销售类站点为了分析用户的某些信息,会采用会话ID来跟踪用户。访问站点时,每个用户访问都会增加一次:?ssion id而加人到URL中。同样,蜘蛛的每一次访问也会被当作一个新用户。每次蜘蛛访问的URL中都会加入一个。Ession id,产生同一个页面但URL不同的情况,这种情况会产生复制内容页面,造成高度重复的内容页,同时也是最常见的蜘蛛陷阱之一。
;
为什么百度蜘蛛每天都来爬的是我的js文件,而不爬正儿八经的页面啊?
设置robots.txt 屏蔽js文件夹或者文件,具体操作看一个博客,会明白
望采纳!
当百度蜘蛛遇到一个嵌有 JS 文件的 HTML 页面,蜘蛛会读取 JS 文件里面的内容吗?
不会的。
目前百度蜘蛛还不能读取js里面的内容。
所以,建议把网站重要的内容和信息不要写在js里面。
蜘蛛是否能爬到公告.js的内容?
不会的,搜索蜘蛛执行的代码是meta name="keywords" content="" /
meta name="description" content="" /
而你的这个代码是HTML脚本语言读取方式,另外“公告”是中文,这个文件有可能读取不到,网站路径严格使用英文;
结果可能是:网站可能无法调用“公告.js”文件,你需要把它改成英文名
PHP中如何调用JS代码实现判断是否是蜘蛛访问
这个理论上是无法做到的,因为蜘蛛可以模仿得和浏览器点开完全相同。
一般的办法是判断浏览器的AGENT标志,一般蜘蛛这里比较特殊,你看看日期里面的AGENT就知道如何识别了。
我的代码如下,可以参考:
百度蜘蛛频繁抓取js和css该怎么办
如果你确实不想让百度蜘蛛抓取js和css,可以通过robots.txt进行屏蔽。新建一个robots.txt放在网站根目录,内容为 (如果禁止所有搜索引擎抓取js和css文件,将下面的User-agent: baiduspider改为User-agent: *):
User-agent: baiduspider
Disallow: /*.js$
Disallow: /*.css$
分享文章:javascript蜘蛛,web蜘蛛网
转载来源:http://cdiso.cn/article/dsdsdes.html