|
@@ -9,9 +9,9 @@ |
|
|
爬虫,一词,让我直接的联想到的是Google以及很多顶尖技术和团队,绝不是灰色产业和简单的技术。
|
|
|
爬虫,一词,让我直接的联想到的是Google以及很多顶尖技术和团队,绝不是灰色产业和简单的技术。
|
|
|
|
|
|
|
|
|
<br><br>
|
|
|
<br><br>
|
|
|
传说中,美国中央情报局(CIA)创建了一个开放源代码中心负责收集,研发生产和推广[开源情报(OSINT)](https://wiki.mbalib.com/wiki/%E5%BC%80%E6%BA%90%E6%83%85%E6%8A%A5),而开源情报的90%大部分数据来源就是互联网和公开数据源。
|
|
|
|
|
|
|
|
|
传说中,美国中央情报局(CIA)创建了一个开放源代码中心负责收集,研发生产和推广 **[开源情报(OSINT)](https://wiki.mbalib.com/wiki/%E5%BC%80%E6%BA%90%E6%83%85%E6%8A%A5)**,而开源情报的90%大部分数据来源就是互联网和公开数据源。
|
|
|
|
|
|
|
|
|
因此,2021年末,我们给爬虫技术和数据采集,有了一个新的定义: **[开源情报(OSINT)](https://wiki.mbalib.com/wiki/%E5%BC%80%E6%BA%90%E6%83%85%E6%8A%A5)** 。
|
|
|
|
|
|
|
|
|
因此,2021年末,我们给爬虫技术和数据采集,有了一个新的定义:**[开源情报(OSINT)](https://wiki.mbalib.com/wiki/%E5%BC%80%E6%BA%90%E6%83%85%E6%8A%A5)**。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
<br>
|
|
|
<br>
|
|
@@ -37,7 +37,7 @@ |
|
|
|
|
|
|
|
|
推到,重来,再推到,再重来.... 整个项目设计方案过了3个月才完成,目前我们还在砺砺前行。
|
|
|
推到,重来,再推到,再重来.... 整个项目设计方案过了3个月才完成,目前我们还在砺砺前行。
|
|
|
|
|
|
|
|
|
迄今为止,我们对此的投入的研发费用早已超过的一辆劳斯莱斯汽车的售价。
|
|
|
|
|
|
|
|
|
迄今为止,我们对此的投入的研发费用早已超过的一辆 **[劳斯莱斯汽车](https://www.yoojia.com/s-322)** 的售价。
|
|
|
|
|
|
|
|
|
2022年,新年伊始,
|
|
|
2022年,新年伊始,
|
|
|
|
|
|
|
|
@@ -58,6 +58,13 @@ |
|
|
- MySQL
|
|
|
- MySQL
|
|
|
- VUE
|
|
|
- VUE
|
|
|
|
|
|
|
|
|
|
|
|
## 总体架构
|
|
|
|
|
|
![输入图片说明](ProIMG/Qon4S9stvKHpWoe8RSYMLw.png)
|
|
|
|
|
|
(这是最早期系统架构图)
|
|
|
|
|
|
|
|
|
|
|
|
## 数据处理流程
|
|
|
|
|
|
![输入图片说明](ProIMG/-SaHmZ-9GeADfc121RJbqw.png)
|
|
|
|
|
|
(这是最早期系统设计图)
|
|
|
|
|
|
|
|
|
## 信源管理
|
|
|
## 信源管理
|
|
|
信源,信息来源的简称。
|
|
|
信源,信息来源的简称。
|
|
@@ -128,9 +135,7 @@ |
|
|
|
|
|
|
|
|
- 执行器 (downloader)
|
|
|
- 执行器 (downloader)
|
|
|
|
|
|
|
|
|
<br><br>
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
<br>
|
|
|
|
|
|
|
|
|
## 爬虫管理
|
|
|
## 爬虫管理
|
|
|
- 爬虫状态
|
|
|
- 爬虫状态
|
|
@@ -146,8 +151,6 @@ |
|
|
|
|
|
|
|
|
- 代理IP池
|
|
|
- 代理IP池
|
|
|
|
|
|
|
|
|
- 验证码打码
|
|
|
|
|
|
|
|
|
|
|
|
<br>
|
|
|
<br>
|
|
|
|
|
|
|
|
|
|
|
|
|
|
@@ -168,9 +171,11 @@ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
## 数据储存
|
|
|
## 数据储存
|
|
|
##### 异步调用 <br>
|
|
|
|
|
|
|
|
|
##### 异步调用
|
|
|
|
|
|
|
|
|
通过kafka中间件将数据通过消息的形式发送给储存端子系统。
|
|
|
通过kafka中间件将数据通过消息的形式发送给储存端子系统。
|
|
|
<br><br>
|
|
|
<br><br>
|
|
|
##### 更多内容:<br>[【数据处理】技术架构说明文档](https://gitee.com/stonedtx/yuqing/blob/master/dataProcessing.md)
|
|
|
|
|
|
|
|
|
##### 更多内容
|
|
|
|
|
|
[【数据处理】技术架构说明文档](https://gitee.com/stonedtx/yuqing/blob/master/dataProcessing.md)
|
|
|
|
|
|
|
|
|
<br><br><br><br>
|
|
|
<br><br><br><br>
|