博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
分布式scrapy_redis源码总结,及其架构
阅读量:2072 次
发布时间:2019-04-29

本文共 725 字,大约阅读时间需要 2 分钟。

分布式scrapy的组件源码介绍完了,大致总结一下,相关组件目录如下:

《》

《》

《》

《》

《》

《》

《》

其架构如图:

2019-03-19-23_06_13.png

在对比scrapy架构:

2019-03-19-23_06_13.png

在架构上scrapy_redis比scrapy多了一个中介Redis,正是通过Redis实现的去重和数据储存,同时scrapy_redis实现了四个组件的重写,Scheduler(调度)、Duplication Filter(去重)、 Item Pipeline(数据管道)、Base Spider(爬虫基类)

分布式爬虫运行机制如下:

  • 要求运行在不同机器上的源码一致,尤其是Redis的配置,相同的Redis才能实现共同去重和分布式爬虫之间的通信,同时相应的在配置文件setting.py中启用scrapy_Rediszi自定义实现的组件

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" SCHEDULER = "scrapy_redis.scheduler.Scheduler" SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"

至于pipeline在需要使用Redis储存数据的情况下也可以启用

  • Spider开始运行,构造Request对象,然后根据Request对象的URL及其其他headers信息对Request去重

  • 去重后的Request,会被调度序列化后放入Redis实现的队列或者堆栈或者优先级队列中

  • 适当时候会取出Request交给下载器,然后开始下载,下载完的resposne对象会交给Spider解析,从而继续上一个流程。

转载地址:http://swxmf.baihongyu.com/

你可能感兴趣的文章
普通视图和物化视图的区别(转)
查看>>
物化视图加DBLINK实现数据的同步_20170216
查看>>
Redis在京东到家的订单中的使用
查看>>
idea 注释模板设置
查看>>
单例模式singleton为什么要加volatile
查看>>
Oracle_spatial的空间操作符
查看>>
SDO_GEOMETRY结构说明
查看>>
oracle 的 SDO_GEOMETRY
查看>>
往oracle中插入geometry的两种方式
查看>>
Oracle Spatial中的Operator操作子 详细说明
查看>>
Oracle Spatial中SDO_Geometry详细说明
查看>>
oracle 聚合函数 LISTAGG ,将多行结果合并成一行
查看>>
Oracle列转行函数 Listagg() 语法详解及应用实例
查看>>
LISTAGG函数的用法
查看>>
Oracle Spatial操作geometry方法
查看>>
IDEA类和方法注释模板设置(非常详细)
查看>>
Java程序初始化的顺序
查看>>
Dubbo和Spring结合配置文件内容解析为bean的过程
查看>>
fastJson注解@JSONField使用的一个实例
查看>>
fastjson的@JSONField注解的一点问题
查看>>