熟悉Python,Java,MySQL,Redis,网络爬虫,RPA,分布式爬虫架构,熟悉各种反爬,代理IP,验证码识别,,JS加密,CSS加密
熟悉Python的数据分析和计算,numpy和pandas各种库、深度学习CNN
熟悉Selenium,pywin32, UIAutomation 等各种自动化
1、【全国工程招标中标信息】Python+RabbitMQ+Redis+MySQL分布式爬虫框架,抓取全国700+个政府网站,每两分钟抓取一次增量数据
2、【音乐平台爬虫】抓取某Q音乐和某易音乐的全量数据并解析真实播放地址,以及每日的增量数据爬虫
2、【地图平台AC搜索接口】构建深度学习模型,对搜索关键词的错别字纠正,以及省略词的自动补全
http://www.baicaimp3.top 抓取各大音乐平台的全量数据,以及每日的增量数据的抓取,经过清洗、去重,存入mysql 用Django搭建后端,从库中调用数据
抓取全国所有省份的工程 招标、中标 数据和截图,并进行数据清洗,过滤 并搭建分布式增量爬虫框架、实时抓取最新发布的数据。