采用模拟浏览器请求技术,对整个站点进行 全站扫描、储存分析、输出分析结果。
siteMeta,识别整个网站的结构,并且解析存储,给每一个抓取的网站都建立一个“小档案”库。
siteIndex,在识别的基础上把所有网页都预存储下来,并且提取各种特征值进行分析计算。
siteFeatures,最后将整体分析演算的结果,还原成这个网站的抓取画像和特性,以便于机器将会知道采用哪种抓取策略自动去匹配这个网站的特性抓取。
同时采用可视化技术将整个站点的标签提取出来给开发工程师,他们将可以快速的对网站的抓取进行配置。
我们在采集任何一个网站的时候将会有各种“探头”对网站的结构,广告位,关键性内容,导航栏,分页,列表,站点特性,站点数据量,抓取难易度,站点更新频率,等等。
用“探头机器人”对整个网站预抓取一遍,相当于一个先头部队,把抓取网站的情报搞清楚以后,。
在这里我们提出了两个理念:1.日志跟踪ID,2.数据生命周期。
通过kafka中间件将数据通过消息的形式发送给储存端子系统。