在北京神鹰城讯科技股份有限公司5年爬虫开发经验,重构scrapy+redis+mongo采集架构,带领团队完成署过日生产亿+量采集系统
1、担任python工程师5年,数据抓取分析清洗,维护稳定。2、精通python,linux,shell,mongodb主从集群搭建,redis,MySQL数据库。3、熟悉api接口规范,多线程应用,多进程应用,4、合理搭建dns拨号代理ip使用,反编译微信小程序,熟练使用selenium采集 5、熟练使用主流第三方采集平台工具6、自主搭建mongo主从+redis+scrapy分布式采集 7、合理搭建采集检测报警系统
公司:神鹰城讯科技股份有限公司(主营房产大数据)
研发部数据采集组
1、根据需求进行网站分析、时时跟进各网站spider的采集情况,使用xpath和正则进行源码解析。
2、使用python scrapy框架,搭建docker+scrapy+redis+mongo分布式采集系统,高效率,高频率,高质量的高量的快速采集,同时对近百个网站,二十多个类型,近百个爬虫同时维护,并合理分配任务。
3、根据客户的定制需求,定向采集 (雪枭情报系统的数据采集:三网合一采集达到一亿+,重庆商圈采集,公司定制采集等)
4、利用Fiddler和夜神模拟器对手机APP采集,微信小程序解包反编译
5、地图api接口采集区域性基建信息,教育、交通、医疗等信息
6、网站验证码解析,打码,DNS自动拨号代理IP管理优化分配
7、结合公司营销业务,采集各种素材,如公众号文章,商家信息,视频,音频,图片等各种领域数据
基于全国各类房产信息平台采集所有房产信息如:贝壳网,安居客,房天下等所有主流网站房产信息采集,支撑公司房产情报数据来源,用于分析帮助房产中介公司进行资源分配合理投放。在项目中以负责人身份带领团队以数据完整度和可靠性保证了项目运营2016年至今
贵客多项目主要以负责人身份带领团队根据天眼查、爱企查、企查查等国内主流相关企业信息网站采集企业信息数据,每日更新采集数据2000万+企业信息,为企业信息准确性提供保证,为客户匹配优质公司信息,为客户拓客提供有力信息帮助;项目从2021年8月稳定运营至今