爬行动物(1)

近两年来，随着大数据的兴起，爬虫及其党逐渐进入大众视野。？

而我是一个菜鸟，也因为一系列的巧合，慢慢变成了专门从事爬虫行业的一员。

我在这里，就是说，简要的，我对爬行动物的认识，欢迎大家拍砖！

爬行动物:

网络爬虫(Web crawler，也称为web spider，web robot，在FOAF社区中，更常被称为web chaser)是一种按照一定规则自动抓取万维网上信息的程序或脚本。其他不常用的名字是蚂蚁、自动索引、模拟器或蠕虫。——摘自百度百科

在我的理解中，他是一个模拟网络协议和人工行为的程序。功能是收集数据。为了方便大数据的统计分析等等。

爬行动物的分类:

通用爬虫、聚焦爬虫、增量爬虫和深度爬虫。——摘自百度百科

在我的理解中，如果从本质上区分，他可以分为两种类型。一种是增量爬虫，适合爬全站。一种是通用的，适合收集指定类型的页面。

简单来说，如果是增量，就是一进一出。线程的数量将会增加。一般来说，线程的数量不会增加。只有一些指定的页面被爬取用于数据收集。

如果从构图上做一个区分，也可以分为两种。

？一种是通过渲染抓取。

？一种是抢包抢数据！两者各有利弊。？

如果按功能来分，可以分为两种。

一种是作为程序内置模块运行，所以不存在数据遗漏，在响应时间上也有一定要求，需要保证及时性和准确性。

一个是作为爬行动物的一个单独模块来测量的。对于反应时间和数据遗漏，不能说没有要求，但是要求会低很多。

爬虫好像没有语言要求，只要你能解析数据，发送请求就行。这两个是基本条件。似乎所有的语言都能做到这一点。而且我认识的从事爬虫方向的都是c#、java、php、python甚至js。

增量爬虫:适用于爬全网站，爬全网站所有页面。爬虫内部的url库会不断增加。并增加线程的数量。

通用爬虫:适用于轮训、监控等目的监控抓取固定数据。

渲染爬虫:是采用渲染模式的爬虫，使用浏览器内核加载渲染页面。它的特征可以模拟老鼠。键盘等行为，但是速度慢。

抓取包的爬虫:用抓取包的方式模拟固定的http协议，满足一些需求。特点，速度快。

内置爬虫:对信息的准确性和时效性要求很高。比如一个关键词3秒内，获取淘宝上该关键词的所有商品信息，以便及时反馈给app。

普通爬虫:监测某一类商品或某一种商品的价格变化，对数据要求的准确性低于上述。毕竟1年的现状。在数据量巨大的情况下，对这些词的影响并不大！