1、 掌握Python及java语言,具有扎实的编程基础和良好的编程习惯以及代码规范。
2、 精通Python爬虫技术,熟练掌握Python爬虫中所使用的常用库如requests库、Urllib库,Scrapy框架以及分布式爬虫scrapy_redis框架。
3、 精通常见的反爬技术,如登录的登录参数解密,等
4、 数量使用各种抓包软件,如fidder,charles,packet capture等
5、 精通python后台开发技术常用框架Flask,Django。
6、 熟练使用常见的数据库Mysql,Mangodb,Oracle。
7、 熟练操作Linux,及项目部署
8、 了解过大数据的一些组件Hadoop,Spark,Pig,Hive,Kafka等等。
项目一 实时彩票监控系统
项目时间:2019-02到2019-03
目标:对时时彩网页中的重庆时时彩,北京赛车,幸运飞艇等数据实时返回,根据每个球或者车的大小,单双,进行实时统计,并返回展示。
技术,scrapy + flask + SQLalchemy
个人负责模块:使用scrpy将全站数据爬取,使用flask,做一个数据数据展示页面,不负责提供分析的结果。该网站相对来说不算难爬取,只需要一个token值,我使用uuid库的uuid.uuid1().hex完美绕过它网站的认证,无限访问数据接口。至今还可以访问。不需代理ip.
项目二 针对支付宝、淘宝、学信网、qq通讯录、京东、三大运营商的爬虫系统
项目时间:2018-07到2018-12
要求:通过来实名认证的用户来认证的项目,进入不同爬虫,爬取不同的项目
技术要点:各个搭建一个分布式的scrapy爬虫框架:使用到了scrapy+redis来实现对该分布式爬虫系统,及Gerapy爬虫管理系统
个人负责:淘宝,京东,学信网,qq通讯录,三大运营商(app,web,pc)的爬虫登录破解,爬取登录人消费信息,账户月,通话情况等信息,遇到难点登录认证关键参数获取,具体流程可以闲聊。
该项目主要用于高校上课签到系统,目前还在开发中,主要使用django+layui来实现,还有很大的扩展空间
该作品作妖用于提取简历中的,姓名 性别,手机号,年龄,出生年月日等字段,相当于个快速提取pdf的工具