爬虫基础

爬虫基础

除了常用的java, python可以做爬虫之外,其实任何后端语言都可以做爬虫,其中也包括了node.js。
node.js做爬虫的优势是异步和高并发。

流程

获取需要的数据的流程是:抓取 - 存储 - 分析 - 展示。
整个流程应该做到以上步骤的分离。

抓取

第一步就是抓取需要的页面。

从效率上来讲需要爬虫能够异步和并发爬取。

抓取回来的页面会有很多问题待解决,比如cookie、认证、编码、文件处理、url合规、多线程多进程、压缩等问题。

存储

抓取到的页面按照一定的策略存储(fs, db)起来.

分析

分析链接。
按需求提取数据。

展示

数据可视化

评论