Browse Source

更新了分布式采集和项目简述。

tags/v1.0.1-224.11141
思通数科 StoneDT Gitee 2 years ago
parent
commit
a1507773bf
No known key found for this signature in database GPG Key ID: 173E9B9CA92EEF8F
1 changed files with 9 additions and 2 deletions
  1. +9
    -2
      dataCollection.md

+ 9
- 2
dataCollection.md View File

@@ -29,7 +29,7 @@
13等等
由此可见,在大规模采集互联网数据的时候,必须要构建一个完整的数据采集系统,否则,将会很多,很多,让你意想不到的问题发生。
由此可见,在大规模采集互联网数据的时候,必须要构建一个完整的数据采集系统,否则,你的项目开发效率和数据采集效率会很低下,同时,还会很多让你意想不到的问题发生。
<br><br>
## 开源技术栈
@@ -121,10 +121,17 @@
## 分布式采集
- 控制器(master)
爬虫工厂有一个web控制管理后台,开发者可以在上面添加需要采集的任务计划和数据采集抓取的规则策略,控制器只对采集任务下发抓取指令,不做任何抓取操作。
- 分发器(dispatch)
控制器(master)通过rabbitMQ消息将抓取的任务下发给任何一台执行端, 消息中包含抓取的策略指令及采集目标,分发器只管发送指令和策略。
- 执行器 (downloader)
执行端可以部署在全世界任何一台能连接互联网的机器上,只要这台机器能上网,能接受分发器下发的采集任务 就能把数据采集下来,同时把采集的数据回传给中央数据仓库。
<br>
## 爬虫管理


Loading…
Cancel
Save