十分感谢大家的点赞和关注。其实,这是我第一次在上写文章。因为我也是前段时间偶然之间才开始了解和学习爬虫,而且学习node的时间也不是很长。虽然用node做过一些后端的项目,但其实在node和爬虫方面我还是一个新人,这篇文章主要是想和大家分享一下node和爬虫方面的基本知识,希望对大家有帮助,也想和大家一起交流,一起学习,再次谢谢大家的支持!
对了,我开通了个人的 个人主页 ,里面有自己的技术文章,还会有个人的随想、思考和日志。以后所有的文章都会第一时间更新到这里,然后同步到其他平台。有喜欢的朋友可以没事去逛逛,再次感谢大家的支持!
网络爬虫(又被称为网页蜘蛛,网络机器人,在社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。WIKIPEDIA 爬虫介绍
爬行对象从一些 扩充到整个 Web,主要为门户站点搜索引擎和大型 Web 服务提供商采集数据。
是 地爬行那些与预先定义好的主题相关页面的网络爬虫。
指对已下载网页采取增量式更新和 的爬虫,它能够在一定程度上保证所爬行的页面是尽可能新的页面。
爬行对象是一些在用户填入关键字搜索或登录后才能访问到的的爬虫。
深度优先策略、广度优先策略
基于内容评价的爬行策略(内容相关性),基于链接结构评价的爬行策略、基于增强学习的爬行策略(链接重要性),基于语境图的爬行策略(距离,图论中两节点间边的权重)
统一更新法、个体更新法、基于分类的更新法、自适应调频更新法
Deep Web 爬虫爬行过程中最重要部分就是表单填写,包含两种类型:基于领域知识的表单填写、基于网页结构分析的表单填写
现代的网页爬虫的行为通常是四种策略组合的结果:
选择策略:决定所要下载的页面;重新访问策略:决定什么时候检查页面的更新变化;平衡礼貌策略:指出怎样避免站点超载;并行策略:指出怎么协同达到分布式抓取的效果;
百度新闻 (http://news.baidu.com/)
······
+
coding ···
1.在合适的磁盘目录下创建项目目录(我的项目目录是:)
注:因为在写这篇文章的时候用的电脑真心比较渣。安装WebStorm或者VsCode跑项目有些吃力。所以后面的命令行操作我都是在Window自带的DOS命令行窗口中执行的。
1.在DOS命令行中进入项目根目录 2.执行,初始化文件
(使用express来搭建一个简单的Http服务器。当然,你也可以使用node中自带的模块) (superagent是node里一个非常方便的、轻量的、渐进式的第三方客户端请求代理模块,用他来请求目标页面) (cheerio相当于node版的jQuery,用过jQuery的同学会非常容易上手。它主要是用来获取抓取到的页面元素和其中的数据信息)
依赖安装完成后你可以在package.json中查看刚才安装的依赖是否成功。安装正确后如下图:
一、使用启动一个简单的本地Http服务器
1、在项目根目录下创建文件(后面都会在这个index文件中进行coding)
2、创建好后,我们首先实例化一个对象,用它来启动一个本地监听端口的Http服务。
对,就是这么简单,不到10行代码,搭建启动一个简单的本地Http服务。
3、按照国际惯例,我们希望在访问本机地址的时候,这个服务能给我们犯规一个在中加入如下代码:
此时,在DOS中项目根目录下执行,让项目跑起来。之后,打开浏览器,访问,你就会发现页面上显示'Hellow World!'字样。这样,在后面我们获取到百度新闻首页的信息后,就可以在访问时看到这些信息。
二、抓取百度新闻首页的新闻信息
1、 首先,我们先来分析一下百度新闻首页的页面信息。
百度新闻首页大体上分为“热点新闻”、“本地新闻”、“国内新闻”、“国际新闻”......等。这次我们先来尝试抓取左侧和下方的两处的新闻数据。
打开的控制台,审查页面元素,经过查看左侧“热点新闻”信息所在的结构,我们发现所有的“热点新闻”信息(包括新闻标题和新闻页面链接)都在为的>下面下下的标签中。用的选择器表示为:。
2、为了爬取新闻数据,首先我们要用superagent请求目标页面,获取整个新闻首页信息
3、获取页面信息后,我们来定义一个函数来抓取页面内的“热点新闻”数据。
这里要多说几点:
- 据说是异步编程的终级解决方案,它可以让我们以同步的思维方式来进行异步编程。解决了异步编程的“回调地狱”,async/await同时使异步流程控制变得友好而有清晰,有兴趣的同学可以去了解学习一下,真的很好用。
- 模块提供了很多比如、、等方法,可以很方便地进行Ajax请求操作。在请求结束后执行回调函数。接受一个函数作为参数,该函数又有两个参数。当请求失败,会包含返回的错误信息,请求成功,值为,返回的数据会包含在参数中。
- 模块的方法,将作为参数传入函数,以后就可以使用类似jQuery的$(selectior)的方式来获取页面元素。同时可以使用类似于中的来遍历元素。此外,还有很多方法,大家可以自行Google/Baidu。
4、将抓取的数据返回给前端浏览器
前面,实例化了一个对象。接受两个参数,第一个参数接受一个String类型的路由路径,表示Ajax的请求路径。第二个参数接受一个函数Function,当请求此路径时就会执行这个函数中的代码。
在DOS中项目根目录下执行,让项目跑起来。之后,打开浏览器,访问,你就会发现抓取到的数据返回到了前端页面。我运行代码后浏览器展示的返回信息如下:注:因为我的安装了JSONView扩展程序,所以返回的数据在页面展示的时候会被自动格式化为结构性的JSON格式,方便查看。
OK!!这样,一个简单的百度的爬虫就大功告成啦!!
简单总结一下,其实步骤很简单:
- 启动一个简单的服务
- 分析目标页面结构,找到所要抓取的信息的相关元素
- 使用请求目标页面
- 使用获取页面元素,获取目标数据
- 返回数据到前端浏览器
现在,继续我们的目标,抓取数据(编码过程中,我们会遇到一些有意思的问题)有了前面的基础,我们自然而然的会想到利用和上面相同的方法“本地新闻”数据。1、 分析页面中“本地新闻”部分的结构,如下图:
打开控制台,审查“本地新闻”元素,我们发现,“本地新闻”分为两个主要部分,“左侧新闻”和右侧的“新闻资讯”。这所有目标数据都在为的中。“左侧新闻”数据又在为的标签下的标签下的标签中,包括新闻标题和页面链接。“本地资讯”数据又在为的下的标签下的标签下的标签中,包括新闻标题和页面链接。
2、OK!分析了结构,确定了数据的位置,接下来和爬取一样,按部就班,定义一个函数,爬取这些数据。
对应的,在中请求页面后,我们需要调用函数,来爬去本地新闻数据。函数修改为:
同时,我们要在路由中也要将数据返回给前端浏览器。路由代码修改为:
编码完成,激动不已!!中让项目跑起来,用浏览器访问
尴尬的事情发生了!!返回的数据只有热点新闻,而本地新闻返回一个空数组。检查代码,发现也没有问题,但为什么一直返回的空数组呢?经过一番原因查找,才返现问题出在哪里!!
为了找到原因,首先,我们看看用请求百度新闻首页在回调函数中的第二个参数res中到底拿到了什么内容?
访问浏览器,页面展示如下内容:
可以看到,返回值中的字段应该就是整个页面的代码的字符串格式。为了方便我们观察,可以直接把这个字段值返回给前端浏览器,这样我们就能够清晰地看到经过浏览器渲染后的页面。
修改给前端浏览器的返回值
访问浏览器,页面展示如下内容:
审查元素才发现,原来我们抓取的目标数据所在的元素中是空的,里面没有数据!到这里,一切水落石出!在我们使用访问百度新闻首页时,中包含的获取的页面内容中,我们想要的“本地新闻”数据还没有生成,节点元素是空的,所以出现前面的情况!抓取后返回的数据一直是空数组。
在控制台的中我们发现页面请求了一次这样的接口:,接口状态 。这应该就是百度新闻获取的接口,到这里一切都明白了!“本地新闻”是在页面加载后动态请求上面这个接口获取的,所以我们用请求的页面再去请求这个接口时,接口中部分变成了本地地址,而本机上没有这个接口,所以,请求不到数据。
找到原因,我们来想办法解决这个问题!!
- 直接使用t访问正确合法的百度的接口,获取数据后返回给前端浏览器。
- 使用第三方包,模拟浏览器访问百度新闻首页,在这个模拟浏览器中当加载成功后,抓取数据,返回给前端浏览器。
以上方法均可,我们来试试比较有意思的第二种方法
可以让你使用纯调用丰富的原生的接口来创造桌面应用。你可以把它看作一个专注于桌面应用的的变体,而不是服务器。其基于浏览器的应用方式可以极方便的做各种响应式的交互是一个基于的框架,针对自动化测试和爬虫,因为其具有跟一样的自动化测试的功能可以在页面上模拟用户的行为触发一些异步数据加载,也可以跟库一样直接访问来抓取数据,并且可以设置页面的延迟时间,所以无论是手动触发脚本还是行为触发脚本都是轻而易举的。
给中新增如下代码:
修改函数为:
修改路由为:
此时,命令行中重新让项目跑起来,浏览器访问,看看页面展示的信息,看是否抓取到了数据!
至此,一个简单而又完整的抓取百度新闻页面“热点新闻”和“本地新闻”的爬虫就大功告成啦!!
最后总结一下,整体思路如下:
- 启动一个简单的服务
- 分析目标页面结构,找到所要抓取的信息的相关素
- 使用请求目标页面
- 动态页面(需要加载页面后运行或请求接口的页面)可以使用模拟浏览器访问
- 使用获取页面元素,获取目标数据
爬虫完整代码GitHub地址:完整代码
本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕,E-mail:975644476@qq.com
本文链接:http://www.gawce.com/tnews/1806.html