1、熟悉PEP8规范,代码风格良好
2、熟练掌握Python语言,熟悉面向对象的思想
3、熟悉Python多进程,多线程
4、熟悉Django、Flask框架,了解Tornado框架,熟悉MVC、MTV
5、熟悉爬虫框架Scrapy、分布式爬虫框架Scrapy-Redis,熟悉Requests库、XPath解析
6、熟悉Selenium库,熟悉使用Selenium + Scrapy抓取动态网页
7、熟悉使用Fiddler、Charles等抓包工具抓取移动端APP数据
8、熟悉常见的反爬虫策略,有能力解决各种反爬限制
1、拉勾网爬虫项目
项目描述:
该项目主要使用requests库,爬取拉勾网一线城市Java、Python、PHP、UI设计、前端、数据分析、爬虫、机器学习等岗位的职位要求、薪资状况、公司名称、地址、网址、规模等信息。
技术要点:
1、使用Chrome浏览器开发者工具分析js请求的request地址和response内容
2、使用requests库携带Request Headers发送请求破解反爬虫
3、使用json模块将json字符串转化为字典,遍历提取数据
4、使用openpyxl模块将数据保存到excel文件中
5、使用logging模块生成日志文件,便于排查错误
2、链家网爬虫项目
项目描述:
该项目主要使用Scrapy框架,爬取一线城市各种二手房信息以及历史成交记录,数据保存至MySQL数据库,存入excel中对各个城市的房价进行分析。
技术要点:
1、使用Selenium模拟用户登录、爬取js加载的动态网页
2、使用Xpath进行页面解析
3、使用Selenium模拟点击下一页的操作进行分页爬取
4、通过使用随机User-Agent破解反爬虫
5、使用IP代理池,防止IP被封获取不到数据,影响效率
6、通过配置pipelines将数据存入MySQL数据库
3、淘书阁
项目描述:
淘书阁是网络纸质书销售平台,该系统主要是应用Django框架,搭建系统架构,网站主要功能包含用户注册、登录、邮箱验证、书籍展示、Xadmin后台管理、商品评论、购物车、订单管理、商品购买等。
项目职责:
1、实现用户的注册登录,邮箱验证,密码修改功能
2、实现首页商品分页展示,关键字查询功能
3、实现购物车和支付功能
4、实现Xadmin后台管理功能
技术要点:
1、使用Django框架,实现快速开发相关功能模块
2、使用Django-Celery实现异步处理逻辑,如发送邮件,耗时操作等
3、使用Session检验用户登录情况
4、使用Django提供的Paginator类实现分页功能
5、通过Ajax的方式更新购物车商品数量
6、使用Redis作为MySQL的缓存服务器,实现读写分离
7、通过安装和配置Xadmin实现后台管理功能