This website works better with JavaScript.
Home
Issues
Pull Requests
Milestones
AI流水线
Repositories
Datasets
Forum
实训
竞赛
大数据
Register
Sign In
hummingbird
/
yuqing
Not watched
Unwatch
Watch all
Watch but not notify
2
Star
0
Fork
0
Code
Releases
13
Wiki
Activity
Issues
0
Pull Requests
0
Datasets
Model
Cloudbrain
Browse Source
更新了分布式采集和项目简述。
tags/v1.0.1-224.11141
思通数科 StoneDT
Gitee
2 years ago
parent
c84578528d
commit
a1507773bf
No known key found for this signature in database
GPG Key ID:
173E9B9CA92EEF8F
1 changed files
with
9 additions
and
2 deletions
Split View
Diff Options
Show Stats
Download Patch File
Download Diff File
+9
-2
dataCollection.md
+ 9
- 2
dataCollection.md
View File
@@ -29,7 +29,7 @@
13等等
由此可见,在大规模采集互联网数据的时候,必须要构建一个完整的数据采集系统,否则,
将会很多,很多,
让你意想不到的问题发生。
由此可见,在大规模采集互联网数据的时候,必须要构建一个完整的数据采集系统,否则,
你的项目开发效率和数据采集效率会很低下,同时,还会很多
让你意想不到的问题发生。
<br><br>
## 开源技术栈
@@ -121,10 +121,17 @@
## 分布式采集
- 控制器(master)
爬虫工厂有一个web控制管理后台,开发者可以在上面添加需要采集的任务计划和数据采集抓取的规则策略,控制器只对采集任务下发抓取指令,不做任何抓取操作。
- 分发器(dispatch)
控制器(master)通过rabbitMQ消息将抓取的任务下发给任何一台执行端, 消息中包含抓取的策略指令及采集目标,分发器只管发送指令和策略。
- 执行器 (downloader)
执行端可以部署在全世界任何一台能连接互联网的机器上,只要这台机器能上网,能接受分发器下发的采集任务 就能把数据采集下来,同时把采集的数据回传给中央数据仓库。
<br>
## 爬虫管理
Write
Preview
Loading…
Cancel
Save