diff --git a/dataCollection.md b/dataCollection.md index 26ee5d3..0c4af6b 100644 --- a/dataCollection.md +++ b/dataCollection.md @@ -1,3 +1,6 @@ +(待续,未完...) + + ## 项目简述 舆情系统中数据采集是一个关键部分,此部分核心技术虽然由爬虫技术框架构建,但抓取海量的互联网数据绝不是靠一两个爬虫程序能搞定,特别是抓取大量网站的情况下,每天有大量网站的状态和样式发生变化以后,爬虫程序能快速的反应和维护。一旦分布式的爬虫规模大了以后将会出现很多问题,都是种种技术挑战,会有很多门槛,例如: @@ -26,10 +29,9 @@ 12数据爬回来,你怎么展示?怎么可视化?怎么利用?怎么发挥价值? -13等等 - +13等等... -由此可见,在大规模采集互联网数据的时候,必须要构建一个完整的数据采集系统,否则,你的项目开发效率和数据采集效率会很低下,同时,还会很多让你意想不到的问题发生。 +在大规模互联网数据采集时,必须要构建一个完整的数据采集系统。否则,你的项目开发效率和数据采集效率会很低下。同时,还会很多让你意想不到的问题发生。

## 开源技术栈 @@ -137,8 +139,11 @@ ## 爬虫管理 - 爬虫状态 +爬虫分布式在很多台服务器上,不知道在哪个服务器上的哪个爬虫程序出了问题是很痛苦的事情。所以,我们需要能对服务器监控,对服务器上每一个爬虫程序进行监控。监控每个爬虫运行是否正常,监控每个运行爬虫的服务器是否正常。 + - 采集状态 +抓取的站点时常发生变化,我们就需要知道每个目标采集的站点抓取的数据是否都正常的采集下来了,通过给每个爬虫编上采集任务编号,展示在web界面上,就可以直观的看见数据采集下来的效果。通过邮件告警和每天发送邮件统计数据,可以实时对采集状态进行监控。
@@ -153,19 +158,24 @@ ## 采集分类 -##### 网站采集 +- 网站采集 + x -##### app 采集 +- app 采集 + x -##### 公众号采集 +- 公众号采集 + x -##### 小程序采集 +- 小程序采集 + x -##### (短)视频采集 +- (短)视频采集 + x