(待续,未完...)
经历了很多版本的迭代升级,期间采用过机器学习、深度学习、tensorflow 和 PaddlePaddle,经历大量的开发测试与项目实战经验。
(开源技术清单)
(思维导图)
通过SmarterAPI与Elasticsearch对接,将内部整套数据处理流程完成后对外输出。
URL去重
采用了redis集群
内容去重
采用Elasticsearch内部的查询将文章标题一样的内容检索过滤掉。
自动提取字段,标题、正文、时间、作者、来源 等。
HaNLP
百度飞桨
将文章通过“海明距离”算法生成加密串码存储在clickhouse集群中,通过clickhouse距离查询方法实现,文章相似度聚类。
自研算法
自研算法
分为多个部分存储,MySQL、redis、kafak、Elasticsearch、Mongodb、clickhouse
需要定期对 Elasticsearch、Mongodb 中存储的数据删除,同时还要将Mongodb中的表删除,否则磁盘空间容量不会减少。