什么是信息收集模块

 SEO基础知识     |      2020年03月17日

信息收集模块都包括蜘蛛控制和网络蜘蛛,蜘蛛这个词形象的描述出信息收集模块在网络数据中,形成Web上进行信息获取的功能。总的来说蜘蛛爬虫是从种子页面出发,通过反复下载页面从文档中寻找没被收录的URL,从而进行抓取。  

什么是信息收集模块

而抓取策略有以下两种:  

1、累积式  

就是指从某一个时间点开始,通过遍历的方式抓取系统所能允许存储和处理的所有页面。在理想的环境下,有足够的时间运营,就可以抓取到很多页面。但由于Web数据的动态特性,被抓取的页面时间是不同的,页面更新的情况也是不同的,所以累积式抓取到的页面无法与网络数据保持一致。  

累积式抓取一般用于数据集合的整体建立或大规模更新阶段。  

2、增量式  

就是指有一定量的网站页面的基础上,采用更新数据的方式对网站内的页面进行抓取,以保证所抓取到数据和真实数据相似。增量式抓取是有条件的,那就是已经抓取到了很多页面,并且具有这些页面抓取的时间信息。  

增量式抓取主要针对数据集合的日常维护和即时更新。  

在确定了抓取策略之后,就需要充分的利用带宽,并且合理确定页面数据更新的时间带点,这就成为了蜘蛛爬虫运行策略中的核心问题。  

总的来说,对网络数据即时抓取方面,已经形成了比较成熟的技术和实用性解决方案,现在需要解决的是,如何更好的处理动态网络数据,以及更好的根据页面质量抓取策略的问题。  


原创·大金SEO http://www.dajinseo.com/p/330.html