Overview

话说最近工作中有一些去别人网站抓数据的需求，一般就是写俩脚本搞定，一两个需求还好，多了挺麻烦的，而且网页就丢硬盘上，太多了的话速度也慢。话说做了5年搜索一直都没做过spider，只是有一些了解，所以想尝试着自己设计一套抓取系统，这套系统的实现不一定严谨，可能平时接触的一些开源库就直接拿来用了，也算是练手吧。

这套系统命名为naive-qie，naive意为simple，怎么简单怎么来，如果以后不坑，会出一系列naive-xxx的。窃，抓取无非就是到别人网站上偷数据嘛，但是互联网人的事情怎么能叫做偷呢，要叫“窃”，所以这套抓取系统就命名为naive-qie了。

当然，除了日常工作外，还有各种事情，还要玩各种游戏，所以这个系列坑不坑无法保证，所以系列名为大型坑。

大致想了一下，这套系统包含三个部分，网页库naive-pagedb，抓取端naive-spider还有任务中心naive-crawlcenter。大概有些想法的是前面两个，最重要的crawlcenter还没想好包括哪些职能，大体架构如下：
naive-qie抓取系统

数据环

qie的设计场景是垂直抓取，也就是定向抓取，不做网页大搜索的爬取只用，也是比较懒，省略了抓取后抽取回灌的步骤。一切任务从crawlcenter发起，crawlcenter提交任务(url等)到task-queue中，spider从task-queue总获取任务，抓取到网页，灌入pagedb。而crawlcenter根据配置定时从pagedb中seek出一批网页增量，解析内部的定向url，再提交都task-queue中，从而完成一个数据回路。

对于垂直抓取来说，还有一个比较重要的问题，时效性问题。因为crawlcenter从设计上不接收spider直接发回网页数据，而是通过pagedb进行交互，因此这条通路并不具备时效性。这里给pagedb添加一个订阅功能，crawlcenter可以向pagedb发起订阅请求，订阅那些需要时效性关注的页面抓取状况，由pagedb实时push给crawlcenter。