From c84578528d3ae0eaf0c24c614298dfb0f05c10a1 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?=E6=80=9D=E9=80=9A=E6=95=B0=E7=A7=91=20StoneDT?=
<13913853100@163.com>
Date: Mon, 21 Feb 2022 02:55:30 +0000
Subject: [PATCH] update dataCollection.md.
---
dataCollection.md | 29 +++++++++++++++++++++++++++++
1 file changed, 29 insertions(+)
diff --git a/dataCollection.md b/dataCollection.md
index 97a09c0..846db84 100644
--- a/dataCollection.md
+++ b/dataCollection.md
@@ -1,6 +1,35 @@
## 项目简述
+舆情系统中数据采集是一个关键部分,此部分核心技术虽然由爬虫技术框架构建,但抓取海量的互联网数据绝不是靠一两个爬虫程序能搞定,特别是抓取大量网站的情况下,每天有大量网站的状态和样式发生变化以后,爬虫程序能快速的反应和维护。一旦分布式的爬虫规模大了以后将会出现很多问题,都是种种技术挑战,会有很多门槛,例如:
+1.检测出你是爬虫,拉黑你IP(人家究竟是通过你的ua、行为特则还是别的检测出你是爬虫的?你怎么规避?)
+
+2人家给你返回脏数据,你怎么辨认?
+
+3对方被你爬死,你怎么设计调度规则?
+
+4要求你一天爬完10000w数据,你一台机器带宽有限,你如何用分布式的方式来提高效率?
+
+5数据爬回来,要不要清洗?对方的脏数据会不会把原有的数据弄脏?
+
+6对方的部分数据没有更新,这些未更新的你也要重新下载吗?怎么识别?怎么优化你的规则?
+
+7数据太多,一个数据库放不下,要不要分库?
+
+8对方数据是JavaScript渲染,那你怎么抓?要不要上PhantomJS?
+
+9对方返回的数据是加密的,你怎么解密?
+
+10对方有验证码,你怎么破解?
+
+11对方有个APP,你怎么去得到人家的数据接口?
+
+12数据爬回来,你怎么展示?怎么可视化?怎么利用?怎么发挥价值?
+
+13等等
+
+
+由此可见,在大规模采集互联网数据的时候,必须要构建一个完整的数据采集系统,否则,将会很多,很多,让你意想不到的问题发生。
## 开源技术栈