当当抓取系统
抓取
使用scrapy抓取京东、亚马逊、天猫、苏宁、易迅、一号店的商品信息
负责各个网站爬取规则和抽取规则的维护
保证竞品、店铺、全品、新品等各个子系统运行的稳定性
根据服务器机器配置调整scrapy框架各项运行参数,提高抓取效率
每天上千万更新量数据库优化、问题定位、索引优化
匹配
利用一淘、京东、天猫的关键词搜索作为匹配结果,建立当当商品与对手网站的匹配关系,提供
给价格系统、报表组使用
对商品名称进行分词,根据IDF计算权重,计算匹配度,利用opencv计算商品图片相似度
反屏蔽
使用通用爬虫抓取各个免费代理网站的代理
自动检测代理的可用性,代理不可用及时反馈给代理池
代理池:实现针对每个代理对每个网站的流量控制,可以根据不同网站的封禁策略对代理ip的流
量配额进行配置,根据代理评分变化代理rank。
实时抓取服务
使用twisted作为web服务器,结合scrapy程序,提供异步非阻塞的实时抓取服务
对手商品API
提供京东、天猫、亚马逊等网站的商品信息,使用twisted框架开发,异步处理连接请求
爬虫管理和监控