Crawlab(分布式爬虫管理平台) [V0.5.1免费版]
- 大小:
- 下载:0
- 分类:鸿蒙下载
- 发布者:zhangliang
资源介绍
Crawlab是根据Golang的分布式爬虫管理系统,适用Python、NodeJS、Go、Java、PHP等多种多样计算机语言及其多种多样爬虫架构,分成Docker、立即布署、Kubernetes三种安裝方法!
软件简介
Crawlab架构:
Crawlab的架构包含了一个主节点(Master Node)和好几个工作节点(Worker Node),及其承担通讯和数据信息储存的360030.html">Redis和MongoDB数据库查询。
前端开发运用向主节点要求数据信息,主节点根据MongoDB和Redis来执行任务发放生产调度及其布署,工作节点接到每日任务以后,刚开始实行爬虫每日任务,并将每日任务結果储存到MongoDB。架构相对性于v0.3.0以前的Celery版本号有一定的精减,去除开多余的节点监管控制模块Flower,节点监管关键由Redis进行。
主节点
主节点是全部Crawlab架构的关键,归属于Crawlab的多媒体系统。主节点承担与前端开发运用开展通讯,并根据Redis将爬虫每日任务派发送给工作节点。另外,主节点会同歩(布署)爬虫给工作节点,根据Redis和MongoDB的GridFS。
工作节点
工作节点的关键作用是实行爬虫每日任务和储存爬取数据信息与系统日志,而且根据Redis的PubSub跟主节点通讯。根据提升工作节点总数,Crawlab能够保证横着拓展,不一样的爬虫每日任务能够分派到不一样的节点上实行。
MongoDB
MongoDB是Crawlab的运作数据库查询,储存有节点、爬虫、每日任务、计划任务等数据信息,此外GridFS文档储存方法是主节点储存爬虫文档并同歩到工作节点的正中间媒体。
Redis
Redis是十分火爆的Key-Value数据库查询,在Crawlab中关键完成节点间数据通讯的作用。比如,节点会将自身信息内容根据HSET储存在Redis的nodeshach目录中,主节点依据hach目录来分辨线上节点。
前端开发
前端开发是一个根据Vue-Element-Admin的单页应用。在其中器重了许多 Element-UI的控制来适用相对的展现。