猿急送>

广州Python兼职程序员

ID：189920

星🌟 🌟

python爬虫

公司信息：
广州瓷肌有限公司

工作经验：
3年

兼职日薪：
600元/8小时

兼职时间：
下班后

所在区域：
广州
白云

技术能力

1.熟练掌握Python的面向对象编程，具有良好的编码规范
2.熟悉Python设计模式，能够封装常用类库
3.熟悉使用Python中的Urllib、Requests框架对数据进行抓取以及selenium、appium分别对pc端和手机端的数据动态抓取。同时熟练使用fiddle、charles、mitmproxy等抓包工具的使用
4.熟悉使用Scrapy框架，熟悉搭建Scrapy-redis分布式并发爬虫系统。
5.熟悉分布式框架celery,搭建过celery+django+supervisor整套框架并实际运用过
6.熟悉Python多线程、多进程、协程的实现原理以及HTTP协议，TCP/UDP等网络协议
7.熟悉对网页的反爬策略：用户代理设置、ip代理使用、cookie池创建，动态网页的抓取
8.熟悉基于 Cookie 的登录原理以及图片验证码识别、UserAgent/Referer、了解js加密以及app反编译相关知识
9.熟悉HTML、CSS、JavaScript前端技术，并能熟练使用re、XPath、Css,BeautifulSoup对网页信息进行解析提取
10.熟悉Mysql，Mongdb，Redis，elasticsearch数据库的使用,具有百万级数据优化经验，以及消费队列kafka使用
11.熟悉Linux常见命令，能够配置常用开发、测试及生产环境
12.掌握Git版本管理工具进行
13.了解Numpy，Pandas，Matplotlib第三方库，用Jupyter对数据进行清洗和简单的分析熟练使用ORM操作Mysql
14.了解Python相关数据分析库：Numpy、Pandas、Scipy、Matplotlib；
15.了解数据预处理相关方法：如处理缺失值、异常值检验、PCA降维、特征提取、归一化、零均值化
了解KNN、朴素贝叶斯、逻辑回归、SVM、决策树、随机森林、K-means等机器学习算法

项目经验

项目一：全国各省违章查询数据爬取（手机app+公众号+小程序）(2019.3-2020.1)
软件工环境：python + charles + requests
项目描述：
本项目基于django+celery+supervisor整套框架，抓取了诸如：粤警民通app、深圳交警公众号、东莞、佛山交警公众号等全国各省的数据接口，基于cookie的登录原理模拟用户违章查询请求返回车辆违章的具体信息给用户。
技术描述：
1、手机和charles抓包工具分别配置好，抓取违章查询接口
2、分析接口，模拟请求获取违章查询数据。解决图片验证码、ip被禁、app反编译等难点反爬。
3、使用正则、xpath解析数据
4、每写完一个数据接口，自定义一个爬虫类，并且更新到redis爬虫字典中
5、在web端接请求，获取用户的车辆信息info，并且根据车牌号适配到对应的爬虫，然后在web界面将违章具体信息返回给用户。
6、在linux上部署supervisor监控所有进程以及进程重启。

项目二：电商网站的单品爬虫（拼拼侠项目）(2018.8-2019.2)
开发环境：Python3 + PyCharm + requests + redis + mysql + kafak
项目描述：该项目主要抓取淘宝、天猫、韩国乐天等网站单品的具体信息，包括商品名称、商品价格+尺码+颜色，商品图片地址、商品小视频链接、宝贝详情、商品评论，以及店铺名称，爬取完毕后进行字段的规范存入kafka队列消费
项目职责：
1、主要负责项目信息的抓取
2、根据需求对信息进行提取
3、将抓取的数据存入本地数据库
技术要点：
1.从mysql爬虫库中获取淘宝、京东的单品链接并对链接进行分类，从而分别开启淘宝、京东爬虫进行具体信息的抓取，并对爬取过的链接进行状态的更改以及去重工作
2.为防止ip被禁购买代理ip放进请求中请求数据，另外诸如淘宝里面的评论需要cookie信息验证，使用pypeteer模拟登陆淘宝网站进行有效cookie的获取，并且搭建简单的cookie池
3.使用re、xpath对数据进行解析提取并将数据规范化按照要求放进kafka消费队列
4.将评论单独存入redis中
5.对mysql数据库进行监控，一旦数据库中有新的链接就自动开启爬虫

项目三：搜图比价爬虫(2018.2-2018.8)
软件环境：Python +requests+fiddle+ multiprocessing+gevent+mysql
项目描述：该项目是对三大电商网站，包括淘宝、京东、唯品会，分别通过上传图片地址来获取商品列表，爬取列表中销量前三商品的商品名称、商品价格、商品销量、商品地址，通过比较这三类网站上面对应商品的价格，给公司app上面的商品指定价格规则。
技术描述：
1、通过fiddle抓包工具抓取淘宝、京东、唯品会上传图片的接口，其中唯品会的是
通过app端抓取
2、遍历爬虫数据库中的所有图片地址，通过post请求来获取商品列表，将销量前三
三个商品返回
3、通过正则和xpath对数据进行解析
4、使用redis缓存对爬取过的图片地址进行过滤
5、使用代理ip，有效cookie解决反爬
6、使用多进程+协程爬取，提高爬取效率
7、将爬取的数据存入mysql数据库

项目四：爆款商品爬虫(2017.6-2018.2)
软件环境：Python + Scrapy+mysql
项目描述：爬取韩国乐天、搜款网、1688网等网站的爆款，具体包括商品名称、图片、url，价格以及店铺名称、店铺地址、店铺排名等了解市场上的爆款商品，然后到市场上进货售卖
技术描述：1. 使用scrapy框架，搭建增量式爬虫
2、为防止ip被禁，在中间件中编写代理中间件，使用有效代理ip添加在下载器上
3、在爬虫文件中用xpath解析数据
4.在管道中将迭代过来的数据存入mysql数据库中

项目五：分布式爬虫（自己练手的爬虫）
软件工环境：python + scrapy-redis + Linux + redis
项目描述：
分别有爬取过读书网里面不同类别的书籍信息，直聘网里面所有地区有关 pyhthon的工作职位信息。
技术描述：
1.使用Linux Slave作为服务器端，管理windows的爬虫
2、搭建分布式工程框架，在setting文件中配置redis组件的管道
3、在爬虫文件中使用xpath对目标页面进行解析
4、编写服务器端脚本，爬取起始url并将其压入服务器端，开启爬虫
5、防止ip被禁，在中间件中编写代理池中间件，并将有效代理加入下载器