从零学习node.js之简易的网络爬虫(四)-创新互联
前言
创新互联专业为企业提供岚县网站建设、岚县做网站、岚县网站设计、岚县网站制作等企业网站建设、网页设计与制作、岚县企业网站模板建站服务,十多年岚县做网站经验,不只是建网站,更提供有价值的思路和整体网络服务。之前已经介绍了node.js的一些基本知识,下面这篇文章我们的目标是学习完本节课程后,能进行网页简单的分析与抓取,对抓取到的信息进行输出和文本保存。
爬虫的思路很简单:
- 确定要抓取的URL;
- 对URL进行抓取,获取网页内容;
- 对内容进行分析并存储;
- 重复第1步
在这节里做爬虫,我们使用到了两个重要的模块:
- request : 对http进行封装,提供更多、更方便的接口供我们使用,request进行的是异步请求。更多信息可以去这篇文章上进行查看
- cheerio : 类似于jQuery,可以使用$(), find(), text(), html()等方法提取页面中的元素和数据,不过若仔细比较起来,cheerio中的方法不如jQuery的多。
一、 hello world
说是hello world,其实首先开始的是最简单的抓取。我们就以cnode网站为例(https://cnodejs.org/),这个网站的特点是:
- 不需要登录即可访问首页和其他页面
- 页面都是同步渲染的,没有异步请求的问题
- DOM结构清晰
代码如下:
var request = require('request'), cheerio = require('cheerio'); request('https://cnodejs.org/', function(err, response, body){ if( !err && response.statusCode == 200 ){ // body为源码 // 使用 cheerio.load 将字符串转换为 cheerio(jQuery) 对象, // 按照jQuery方式操作即可 var $ = cheerio.load(body); // 输出导航的html代码 console.log( $('.nav').html() ); } });
另外有需要云服务器可以了解下创新互联建站www.cdcxhl.com,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。
当前名称:从零学习node.js之简易的网络爬虫(四)-创新互联
标题来源:http://cdiso.cn/article/deddgo.html