ID:276974

Hijack'-,

python 爬虫、数据分析

  • 公司信息:
  • 百度
  • 工作经验:
  • 3年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 周六
  • 周日
  • 可工作日远程
  • 所在区域:
  • 成都
  • 成华

技术能力

1.Python 基础扎实, 有良好的编码习惯;
2.熟练基于 Requests, Scrapy, Selenium 各模块的数据抓取,利用Xpath, BeautifulSoup,Re 的数据清洗, 验证码,登录,js异步加密,等各种反爬措施的应对;
3.熟练Python Web技术, Django 框架, Django + uWSGI + Nginx 部署, Socket 编程;
4.熟悉数据库MySQL, Redis, MongoDB;
5.了解HTML + CSS 网页设计, 熟悉JavaScript, Ajax, JQuery脚本技术运用, 和基于BootStrap框架流式布局、响应式布局;
6.Linux平台,Git 协同开发;
7.熟悉面向对象思想,了解计算机基础、数据结构和算法
8.熟悉numpy、pandas数据分析
9.熟悉matplotlib、seaborn、plotnine等数据可视化方法

项目经验

项目名称:分布式爬虫爬取
项目描述:这个项目是通过scrapy-redis搭建分布式爬虫爬取企业信用信息网公布栏,爬取列表页每一项下的子页获取数据
我的职责:
首先爬取首页后通过xpath匹配每个的信息块的span后构建请求,并通过scrapy.Request发送请求,用xpath匹配需要的信息。
同时循环创建下一页请求的form表单,通过scrapy.FormRequest发送POST请求。所有爬取的信息缓存到redis数据库中,
最后通过编写python脚本将redis数据库中数据读取出来加入mysql数据库。
其他爬取的网站:搜狐新闻、豆瓣、腾讯新闻网

项目名称:通过异步爬虫爬取HGMD,构建mysql数据库
项目描述:对高通量测序数据进行数据分析时,需要对snp数据进行相关性筛选,为此需要构建基于mysql的基因突变数据库,对HGMD网站相关基因突变信息进行爬取,爬取内容包括基因名,染色体坐标,突变信息,致病信息等。爬取结果存储于mysql。
我的职责:
1,采用asyncio+aiohttp以达成高并发,异步请求。
2,通过timeout设置超时重发机制,因为HGMD为国外网站,防止因为网络卡顿导致页面抓取不到产生数据不全的现象。
3,通过继承aiohttp.ClientSession类来保存cookie对象,以应对基于cookie的反扒策略
4,使用xpath进行页面解析,解析出的数据通过PyMysql模块存储于mysql数据库中

数据分析经历:
> 系统数据及天猫,淘宝,当当网提取,采集(Python 爬虫,定向爬虫/通用爬虫)/通过数据库获取信息;
> 通过销售部数据需求进行各类报表制作(VBA制作自动化处理模型)利用 jupyter notebook制作透视表及高级透视表,图形呈现(数据清洗及数据分布分析);
>负责平台所有汽车数据(进行流量分类进仓及按时更新)并处理日,周,月报及其它各类报表及临时性报表制作(优化),月度及各类数据处理,趋势动态 每月提供领导(有关部门);
> 平台数据处理及为平台运营提供数据技术支持,为各部门提供vba需求自动化数据报表。

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服