猿急送>

深圳Node.js兼职程序员

ID：183426

Mr.c

高级node.js工程师，高级python工程师

公司信息：
深圳市万拓科创有限公司

工作经验：
6年

兼职日薪：
700元/8小时

兼职时间：
下班后
周六
周日
可工作日远程

所在区域：
深圳
南山
桃源街道平山民企科技园1栋B座3楼

技术能力

1、node.js / Express / Koa 框架，API接口输出，web页面搭建。
1.1、node-crawler 爬虫框架

2、python / Flask / Django 框架，API接口输出，web页面搭建。
2.1、scrapy 高并发爬虫框架

3、RestFul API 接口架构设计，提供高可用性的对外输出数据接口。

项目经验

hsb_spider工程

内容：
● Scrapy框架搭建起来的一个项目

用途:
1. 为内部估价系统提供外部数据分析做支撑。
2. 机型机况自动更新、各渠道价格对比。
3. 历史数据沉淀至BI系统，做大数据分析。

@requests
4. 提供实时的API接口，供估价系统做单个机型下某个机况的询价或机况更新。

● 负责设计、开发、维护爬虫系统
● 参与数据层建设，专注于垂直领域的数据爬取，进行多平台信息的抓取和分析
● 设计爬虫反屏蔽规则，提升网页、APP抓取的效率和质量
● 实现数据提取、清洗、结构化、入库、统计分析等需求

技术:
1. rabbitMQ做消息队列，将机况数据推送至队列里面，消费者消费数据获取价格。
2. 分布式消费者，在确保IP代理和账号安全访问次数满足的情况下提供消费速度。
3. Redis缓存，存储在定期时间内的机型价格数据，避免重复爬取，减少资源开销。
4. 针对爬虫的不稳定性情况，接入了钉钉预警处理。在捕获到不能正常采集到数据时，
第一时间自动通知到指定负责人。
5.进程多开: 在业务需要的情况下开启多进程处理量大的友商渠道爬取任务。

业绩：
● 搭建了Scrapy框架统一的管理业务中各个渠道的爬虫，统一管理，统一部署。
● 摆脱了之前的临时脚本处理爬虫零散的状态。

估价系统
研发
内容：● 各个友商渠道的机型数据采集、分析、入库。
● 机型机况组合，获取价格。
● 友商价格对比。
● 自有价格估价调整。
● 价格预测。
● 历史数据分析。
业绩：稳定提供外部友商数据给内部业务做数据支撑。

二、vantop_spider_x
1、搭建针对电商网站的大批量高并发爬虫架构。
2、经过验证的量有当日最高采集量5000W，采用的消息队列的方式实现分布式高并发采集架构。

案例展示

compare_price

所有的外部数据采集工作，采集完了之后包括数据筛选过滤，分析，价格对比，价格预测。以及价格以接口的形式输出到公司的各个业务方。
vantop_spider

独立构建通用爬虫框架，支持node.js , python。 1、支持分布式高并发爬取目标网站数据。 2、支持数据下载和分析隔离，最大程度的保证了在高并发时采集数据的完整性。 3、