ID:189920

星🌟 🌟

python爬虫

  • 公司信息:
  • 广州瓷肌有限公司
  • 工作经验:
  • 3年
  • 兼职日薪:
  • 600元/8小时
  • 兼职时间:
  • 下班后
  • 所在区域:
  • 广州
  • 白云

技术能力

1.熟练掌握Python的面向对象编程,具有良好的编码规范
2.熟悉Python设计模式,能够封装常用类库
3.熟悉使用Python中的Urllib、Requests框架对数据进行抓取以及selenium、appium分别对pc端和手机端的数据动态抓取。同时熟练使用fiddle、charles、mitmproxy等抓包工具的使用
4.熟悉使用Scrapy框架,熟悉搭建Scrapy-redis分布式并发爬虫系统。
5.熟悉分布式框架celery,搭建过celery+django+supervisor整套框架并实际运用过
6.熟悉Python多线程、多进程、协程的实现原理以及HTTP协议,TCP/UDP等网络协议
7.熟悉对网页的反爬策略:用户代理设置、ip代理使用、cookie池创建,动态网页的抓取
8.熟悉基于 Cookie 的登录原理以及图片验证码识别、UserAgent/Referer、了解js加密以及app反编译相关知识
9.熟悉HTML、CSS、JavaScript前端技术,并能熟练使用re、XPath、Css,BeautifulSoup对网页信息进行解析提取
10.熟悉Mysql,Mongdb,Redis,elasticsearch数据库的使用,具有百万级数据优化经验,以及消费队列kafka使用
11.熟悉Linux常见命令,能够配置常用开发、测试及生产环境
12.掌握Git版本管理工具进行
13.了解Numpy,Pandas,Matplotlib第三方库,用Jupyter对数据进行清洗和简单的分析熟练使用ORM操作Mysql
14.了解Python相关数据分析库:Numpy、Pandas、Scipy、Matplotlib;
15.了解数据预处理相关方法:如处理缺失值、异常值检验、PCA降维、 特征提取、归一化、零均值化
了解KNN、朴素贝叶斯、逻辑回归、SVM、决策树、随机森林、K-means等机器学习算法

项目经验

项目一:全国各省违章查询数据爬取(手机app+公众号+小程序)(2019.3-2020.1)
软件工环境:python + charles + requests
项目描述:
本项目基于django+celery+supervisor整套框架,抓取了诸如:粤警民通app、深圳交警公众号、东莞、佛山交警公众号等全国各省的数据接口,基于cookie的登录原理模拟用户违章查询请求返回车辆违章的具体信息给用户。
技术描述:
1、手机和charles抓包工具分别配置好,抓取违章查询接口
2、分析接口,模拟请求获取违章查询数据。解决图片验证码、ip被禁、app反编译等难点反爬。
3、使用正则、xpath解析数据
4、每写完一个数据接口,自定义一个爬虫类,并且更新到redis爬虫字典中
5、在web端接请求,获取用户的车辆信息info,并且根据车牌号适配到对应的 爬虫,然后在web界面将违章具体信息返回给用户。
6、在linux上部署supervisor监控所有进程以及进程重启。



项目二:电商网站的单品爬虫(拼拼侠项目)(2018.8-2019.2)
开发环境:Python3 + PyCharm + requests + redis + mysql + kafak
项目描述:该项目主要抓取淘宝、天猫、韩国乐天等网站单品的具体信息,包括商品名称、商品价格+尺码+颜色,商品图片地址、商品小视频链接、宝贝详情、商品评论,以及店铺名称,爬取完毕后进行字段的规范存入kafka队列消费
项目职责 :
1、主要负责项目信息的抓取
2、根据需求对信息进行提取
3、将抓取的数据存入本地数据库
技术要点:
1.从mysql爬虫库中获取淘宝、京东的单品链接并对链接进行分类,从而分别开启淘宝、京东爬虫进行具体信息的抓取,并对爬取过的链接进行状态的更改以及去重工作
2.为防止ip被禁购买代理ip放进请求中请求数据,另外诸如淘宝里面的评论需要cookie信息验证,使用pypeteer模拟登陆淘宝网站进行有效cookie的获取,并且搭建简单的cookie池
3.使用re、xpath对数据进行解析提取并将数据规范化按照要求放进kafka消费队列
4.将评论单独存入redis中
5.对mysql数据库进行监控,一旦数据库中有新的链接就自动开启爬虫

项目三:搜图比价爬虫(2018.2-2018.8)
软件环境:Python +requests+fiddle+ multiprocessing+gevent+mysql
项目描述:该项目是对三大电商网站,包括淘宝、京东、唯品会,分别通过上传图片地址来获取商品列表,爬取列表中销量前三商品的商品名称、商品价格、商品销量、商品地址,通过比较这三类网站上面对应商品的价格,给公司app上面的商品指定价格规则。
技术描述:
1、通过fiddle抓包工具抓取淘宝、京东、唯品会上传图片的接口,其中唯品会的是
通过app端抓取
2、遍历爬虫数据库中的所有图片地址,通过post请求来获取商品列表,将销量前三
三个商品返回
3、通过正则和xpath对数据进行解析
4、使用redis缓存对爬取过的图片地址进行过滤
5、使用代理ip,有效cookie解决反爬
6、使用多进程+协程爬取,提高爬取效率
7、将爬取的数据存入mysql数据库

项目四:爆款商品爬虫(2017.6-2018.2)
软件环境:Python + Scrapy+mysql
项目描述:爬取韩国乐天、搜款网、1688网等网站的爆款,具体包括商品名称、图片、url,价格以及店铺名称、店铺地址、店铺排名等了解市场上的爆款商品,然后到市场上进货售卖
技术描述:1. 使用scrapy框架,搭建增量式爬虫
2、为防止ip被禁,在中间件中编写代理中间件,使用有效代理ip添加在下载器上
3、在爬虫文件中用xpath解析数据
4.在管道中将迭代过来的数据存入mysql数据库中


项目五:分布式爬虫(自己练手的爬虫)
软件工环境:python + scrapy-redis + Linux + redis
项目描述:
分别有爬取过读书网里面不同类别的书籍信息,直聘网里面所有地区有关 pyhthon的工作职位信息。
技术描述:
1.使用Linux Slave作为服务器端,管理windows的爬虫
2、搭建分布式工程框架,在setting文件中配置redis组件的管道
3、在爬虫文件中使用xpath对目标页面进行解析
4、编写服务器端脚本,爬取起始url并将其压入服务器端,开启爬虫
5、防止ip被禁,在中间件中编写代理池中间件,并将有效代理加入下载器

案例展示

  • 拼拼侠(电商网站)

    拼拼侠(电商网站)

    1、主要负责项目信息的抓取 2、根据需求对信息进行提取 3、将抓取的数据存入本地数据库 主要负责数据抓取工作

  • 全国违章查询

    全国违章查询

    1、主要负责项目信息的抓取 2、根据需求对信息进行提取 3、将抓取的数据存入本地数据库 主要负责数据爬取这块

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服