猿急送>

成都Python兼职程序员

ID：276974

Hijack'-，

python 爬虫、数据分析

公司信息：
百度

工作经验：
3年

兼职日薪：
500元/8小时

兼职时间：
周六
周日
可工作日远程

所在区域：
成都
成华

技术能力

1.Python 基础扎实，有良好的编码习惯；
2.熟练基于 Requests， Scrapy， Selenium 各模块的数据抓取，利用Xpath， BeautifulSoup，Re 的数据清洗，验证码，登录，js异步加密，等各种反爬措施的应对；
3.熟练Python Web技术， Django 框架， Django + uWSGI + Nginx 部署， Socket 编程；
4.熟悉数据库MySQL， Redis， MongoDB；
5.了解HTML + CSS 网页设计，熟悉JavaScript， Ajax， JQuery脚本技术运用，和基于BootStrap框架流式布局、响应式布局；
6.Linux平台，Git 协同开发；
7.熟悉面向对象思想，了解计算机基础、数据结构和算法
8.熟悉numpy、pandas数据分析
9.熟悉matplotlib、seaborn、plotnine等数据可视化方法

项目经验

项目名称：分布式爬虫爬取
项目描述：这个项目是通过scrapy-redis搭建分布式爬虫爬取企业信用信息网公布栏，爬取列表页每一项下的子页获取数据
我的职责：
首先爬取首页后通过xpath匹配每个的信息块的span后构建请求，并通过scrapy.Request发送请求，用xpath匹配需要的信息。
同时循环创建下一页请求的form表单，通过scrapy.FormRequest发送POST请求。所有爬取的信息缓存到redis数据库中，
最后通过编写python脚本将redis数据库中数据读取出来加入mysql数据库。
其他爬取的网站：搜狐新闻、豆瓣、腾讯新闻网

项目名称：通过异步爬虫爬取HGMD，构建mysql数据库
项目描述：对高通量测序数据进行数据分析时，需要对snp数据进行相关性筛选，为此需要构建基于mysql的基因突变数据库，对HGMD网站相关基因突变信息进行爬取，爬取内容包括基因名，染色体坐标，突变信息，致病信息等。爬取结果存储于mysql。
我的职责：
1，采用asyncio+aiohttp以达成高并发，异步请求。
2，通过timeout设置超时重发机制，因为HGMD为国外网站，防止因为网络卡顿导致页面抓取不到产生数据不全的现象。
3，通过继承aiohttp.ClientSession类来保存cookie对象，以应对基于cookie的反扒策略
4，使用xpath进行页面解析，解析出的数据通过PyMysql模块存储于mysql数据库中

数据分析经历:
> 系统数据及天猫，淘宝，当当网提取，采集（Python 爬虫，定向爬虫/通用爬虫）/通过数据库获取信息；
> 通过销售部数据需求进行各类报表制作（VBA制作自动化处理模型）利用 jupyter notebook制作透视表及高级透视表，图形呈现（数据清洗及数据分布分析）；
>负责平台所有汽车数据（进行流量分类进仓及按时更新）并处理日，周，月报及其它各类报表及临时性报表制作（优化），月度及各类数据处理，趋势动态每月提供领导（有关部门）；
> 平台数据处理及为平台运营提供数据技术支持，为各部门提供vba需求自动化数据报表。