熟练掌握python语言,
了解前端所用的html,js.ajax.css等,
熟悉使用numpy,pandans,re,jieba等对数据进行处理分析。
熟悉python的相关的爬虫库(xpath,re正则,request等)以及自动化测试工具,以及分布式爬虫框架scrapy等,
熟悉python的多进程,多线程以及协程,python打包成exe技术,高并发,
反反爬技术(数据的解密以及加密,数据清洗,数据的存储,验证码处理,代理池),
web的后端加部分前端的开发技术(django,flask,mysql,redis,js,html)
主要致力于python爬虫副业是网站搭建
1基于电商平台对商品的价格评论以及数量进行爬取,日均10万条数据左右,将数据储存在数据库当中进行舆论分析进行处理
2 通过手机号查看用户是否注册过微信以及性别
3 对企业的招投标信息进行爬取,将数据储存在mysql数据库中
4对新旧全国建筑市场的企业信息进行爬取,使用了requests,xpath以及selenuim自动化测试工具,期间使用了数据加密的梳理,以及对各种验证码的处理,
5 使用django框架,xadmin后台搭建自己的网站,目前已在阿里云部署(http://www.wensong.xyz:8888/)
独立爬取这个网站的信息,对建筑市场的企业以及人员和工程信息的爬取,并且能够做到实时更新保证跟网站的上的内容一致,并且在给企业名字之后能够将公司爬取进行爬取,实现增量爬取。在项目中使用了request,xpath等爬虫相关库,期间遇到了数据的加密解密等操作以及对验证码的处理,代理I
对各省所有的招投标信息的爬取,对各省市或者区的信息进行爬取以及信息的提取跟清洗,主要是每天新增的处理进行爬取。以及定点定时爬取等。
非常耐心的一个程序员,有问必答