|
|
@@ -1,51 +1,6 @@ |
|
|
|
## 项目简述
|
|
|
|
爬虫,在很多人眼里很简单、廉价一点都不奇怪,因为网上有大量9.9块Python培训课,其中包含爬虫教学。
|
|
|
|
|
|
|
|
爬虫,在多数人眼里是灰色产业,这也不奇怪。中国在2019年出现了很多“大数据”公司,他们采用了爬虫技术窃取用户隐私。
|
|
|
|
|
|
|
|
但是,爬虫,一词对我们来说是一门博大精深的技术,掌握这门技术是不容易的,这门技术更不是为灰色产业服务的。
|
|
|
|
|
|
|
|
<br>
|
|
|
|
爬虫,一词,让我直接的联想到的是Google以及很多顶尖技术和团队,绝不是灰色产业和简单的技术。
|
|
|
|
|
|
|
|
<br><br>
|
|
|
|
传说中,美国中央情报局(CIA)创建了一个开放源代码中心负责收集,研发生产和推广 **[开源情报(OSINT)](https://wiki.mbalib.com/wiki/%E5%BC%80%E6%BA%90%E6%83%85%E6%8A%A5)**,而开源情报的90%大部分数据来源就是互联网和公开数据源。
|
|
|
|
|
|
|
|
因此,2021年末,我们给爬虫技术和数据采集,有了一个新的定义:**[开源情报(OSINT)](https://wiki.mbalib.com/wiki/%E5%BC%80%E6%BA%90%E6%83%85%E6%8A%A5)**。
|
|
|
|
|
|
|
|
|
|
|
|
<br>
|
|
|
|
大多数创业团队初期都是手工作坊。
|
|
|
|
|
|
|
|
在2017年初,我们跟其他的团队也没有例外。
|
|
|
|
|
|
|
|
刚刚开始抓取互联网数据的时候,我们采用的是最原始的代码开发java和Python。
|
|
|
|
|
|
|
|
由于,我们的运气和勤劳 团队和名气慢慢变大,手工作坊的模式反而给我们带来巨大的维护成本以及极低的稳定性。
|
|
|
|
<br><br>
|
|
|
|
于是,我们狠下心来,开始研发一套可以管理分布式的爬虫系统,我们定义为: **爬虫工厂** 。
|
|
|
|
|
|
|
|
梦想总是美好的,现实总是残酷的。
|
|
|
|
|
|
|
|
在研发的过程中我们一次次的试错和尝试,让我们积累了很多经验与总结。
|
|
|
|
|
|
|
|
截止积累到2021年9月份,
|
|
|
|
|
|
|
|
我们最后决定将之前研发的系统重新定义和研发,代号为: **发动机计划** 。
|
|
|
|
|
|
|
|
最后,到2021年12月份,
|
|
|
|
|
|
|
|
推到,重来,再推到,再重来.... 整个项目设计方案过了3个月才完成,目前我们还在砺砺前行。
|
|
|
|
|
|
|
|
迄今为止,我们对此的投入的研发费用早已超过的一辆 **[劳斯莱斯汽车](https://www.yoojia.com/s-322)** 的售价。
|
|
|
|
|
|
|
|
2022年,新年伊始,
|
|
|
|
|
|
|
|
我们做了一个更大的决定,将我们的研发成果全部开源!
|
|
|
|
|
|
|
|
目的是为了能让更多的人了解我们,使用我们的研发成果,或者参与我们的项目。
|
|
|
|
|
|
|
|
我们相信: **把任何事情做到极致,就是一门艺术!**
|
|
|
|
|
|
|
|
<br><br>
|
|
|
|
## 开源技术栈
|
|
|
|