|
|
@@ -1,6 +1,3 @@ |
|
|
|
# 开源舆情 【数据采集】部分技术架构说明文档
|
|
|
|
<br>
|
|
|
|
|
|
|
|
## 项目简述
|
|
|
|
爬虫,在很多人眼里很简单、廉价一点都不奇怪,因为网上有大量9.9块Python培训课,其中包含爬虫教学。
|
|
|
|
|
|
|
@@ -42,27 +39,38 @@ |
|
|
|
|
|
|
|
迄今为止,我们对此的投入的研发费用早已超过的一辆劳斯莱斯汽车的售价。
|
|
|
|
|
|
|
|
2022年,新年伊始,
|
|
|
|
|
|
|
|
我们相信: **把任何事情做到极致,就是一门艺术!**
|
|
|
|
我们做了一个更大的决定,将我们的研发成果全部开源!
|
|
|
|
|
|
|
|
目的是为了能让更多的人了解我们,使用我们的研发成果,或者参与我们的项目。
|
|
|
|
|
|
|
|
我们相信: **把任何事情做到极致,就是一门艺术!**
|
|
|
|
|
|
|
|
<br><br>
|
|
|
|
## 开源技术栈
|
|
|
|
- Java EE
|
|
|
|
- SpringBoot
|
|
|
|
- HttpClient
|
|
|
|
- webMagic
|
|
|
|
- Spider-flow
|
|
|
|
- Redis
|
|
|
|
- MySQL
|
|
|
|
- VUE
|
|
|
|
|
|
|
|
|
|
|
|
## 信源管理
|
|
|
|
信源,信息来源的简称。
|
|
|
|
<br><br>
|
|
|
|
我们需要对采集 类型,内容,平台,地区 等多种属性进行管理。我们对此开发了三代信源管理平台。
|
|
|
|
一代产品形态
|
|
|
|
![输入图片说明](ProIMG/spider-factory-1.png)
|
|
|
|
|
|
|
|
二代产品形态
|
|
|
|
![输入图片说明](ProIMG/spider-factory-2.png)
|
|
|
|
|
|
|
|
|
|
|
|
## 信源管理
|
|
|
|
信源,信息来源简称。
|
|
|
|
<br><br>
|
|
|
|
我们需要对采集 类型,内容,平台,地区 等多种属性进行管理。我们对此开发了三代管理平台。
|
|
|
|
三代产品形态
|
|
|
|
![输入图片说明](ProIMG/spider-factory-3.png)
|
|
|
|
|
|
|
|
## 站点画像
|
|
|
|
|
|
|
|