ID:167704

大潘

python 开发工程师

  • 公司信息:
  • 暂不方便公开
  • 工作经验:
  • 3年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 所在区域:
  • 杭州
  • 余杭

技术能力

熟练掌握python开发,能使用python完成爬虫及web后端开发相关工作;
熟悉linux开发环境及常用命令;
熟悉MVC开发模式,掌握使用Django框架进行项目开发,了解Flask、Tornado;
掌握request,Scrapy ,scrapy-redis分布式爬虫等技能;
掌握Selenium和Chrome以及Pyppeteer获取动态数据,了解Shell 脚本的编写;
掌握常见的反爬虫机制及应对策略;
熟悉使用Mysql、Redis数据库,了解MogoDB;
熟悉HTML,XML、Json、JavaScript,Ajax等,了解 Restful API;
掌握Xpath、正则表达式等解析工具,能从结构化和非结构化数据中提取目标数据;
熟悉python GUI开发知识,掌握PyQt5相关技术
熟悉http/tcp相关知识,了解线程、进程、协程之间的区别联系;
熟悉Matplotlib基本功能实现图形显示,简单了解Numpy、Pandas;
会抓包、安卓逆向分析,反编译等技术。

项目经验

淘宝分布式数据采集系统
项目介绍:
本项目主要用于采集淘宝PC端及APP端搜索关键词获取各类排序商品列表及详细数据,是用于给另一个网站项目提供页面搜索功能的后台程序,类似于看店宝网站VIP会员的搜索功能。
技术选型:
1.考虑到后期可能存在的高并发情况,采用scrapy-redis分布式解决,Master端维护cookie池、IP池以及制作请求url添加到请求队列中,slave端负责爬取请求以及解析数据
2.由于需要提供搜索数据的接口,所以使用轻量级的Flask框架提供路由等功能
3.为了降低与网站项目的耦合度,使用前后端分离技术
职责描述:
1.负责项目需求分析,技术栈选取以及整体架构的搭建;
2.负责反爬措施应对策略的研究与实现,以及接口的编写

招聘类网站数据采集
项目介绍:
本项目主要用于采集招聘平台爬虫相关职位的数据,并使用Flask进行数据的分析与可视化。
遇到问题及解决方案:
1.爬取量较大,采用scrapy-Redis进行爬取,因为该框架实现URL和数据去重、持久化、分布式比较方便,构建RedisSpider分布式爬虫,爬取数据更快
2.使用 Selenium + Chrome模拟登陆获取 cookie信息,携带 cookie问网页内容,采用动态ip代理和随机User-Agent反反爬
3.数据保存在json字符串中,转化成 python字典,提取数据
4.保存数据到 MongoDB数据库和CSV本地文件
5.使用logging模块编写监控程序进行爬虫监控,并根据时间定向输出日志到本地log文件
职责描述:
1.负责分析采集任务的目标网页结构和一些反爬手段,参与方案设计;
2.负责完成数据的抓取、清洗;
3.针对爬取过程当中出现的一些反爬虫策略,想出对应的解决办法。

工商企业信息数据采集
项目介绍:
本项目合作方需要获取关于企业方面的信息,如公司名称,工商局相关信息等;
技术描述:
1.使用 Scrapy框架Crawlspider 类实现数据爬取
2.使用Crawipider类过滤所有的页面链接,找到需求网页
3.使用Xpath、正则进行页面分析并提取数据
4.添加请求头,绕过反爬措施
5.后期采用过redis分布式爬虫爬取数据,存取到MongoDB中

案例展示

  • 淘宝分布式数据采集系统

    淘宝分布式数据采集系统

    本项目主要用于采集淘宝PC端及APP端搜索关键词获取各类排序商品列表及详细数据,是用于给另一个网站项目提供页面搜索功能的后台程序,类似于看店宝网站VIP会员的搜索功能。

  • 优客居

    优客居

    优客居商城是一个综合性家具类的B2C平台,这个项目实现了用户注册,用户登录,搜索商品, 添加购物车,修改收货地址,提交订单,在线支付等功能;

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    4
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服