猿急送>

武汉后端兼职程序员

ID：284446

徐小🐑

爬虫工程师

公司信息：
巨焰科技

工作经验：
5年

兼职日薪：
600元/8小时

兼职时间：
下班后
周六
周日

所在区域：
武汉
全区

技术能力

1.Python基础扎实，熟悉常用的类库

2.掌握Tornado、Django、Flask其中任一web框架，至少两年左右的web开发经验

3.熟悉常用的工具如Redis，Memcached，Mongodb，Mysql，Nginx等的基本原理和使用

4.掌握linux环境下的开发和部署，掌握gitlab的使用

5.熟悉常用的数据结构、算法和设计模式等

自我评价：

1.精通python及人工智能，云计算技术，精通Linux操作系统，分布式服务架构。

2.分布式架构开发经验，Openresty及其相关模块的使用、Lua或者C++开发经验7.3爬虫开发经验。

3.大数据开发经验（Hadoop，Storm，Spark等）

4.前端开发经验（Html、Css、Javascript、jQuery、Angularjs等）。

5.能够承担一定的工作压力，具有小团队领导经验，独立承担责任的实践；

适应能力较强，有良好的团队合作精神，这与良好的交流、沟通能力好；

6. 具备良好的自学能力，有刻苦钻研的精神。对技术精进有要求，愿意学习大数据相关知识，并付诸实践。

项目经验

项目经历（案例一）

项目时间：2017-01到2011-10

项目名称：引物自动化设计软件

项目描述：

项目介绍

这个软件开发原因是因为随着每日数据分析量的加大，组内人员较少，对引物设计这种工作变成了工作效率的阻碍，遂提出了设计软件以达到自动化设计的目的。而且引物设计主要费时在于多种验证操作，可以通过软件自动验证减少人力成本。

我的职责

1，软件基础功能设计，完成相关函数如自连互连验证，温度验证等功能

2，分析NCBI网页格式，设计API调用接口

3，编写测试脚本对软件进行测试

项目经历（案例二）

项目时间：2017-01到2011-10

项目名称：分布式爬虫爬取北京市企业信用信息网

项目描述：

项目介绍

这个项目是通过scrapy-redis搭建分布式爬虫爬取企业信用信息网公布栏，爬取列表页每一项下的子页获取数据

我的职责

首先爬取首页后通过xpath匹配每个的信息块的span后构建请求，并通过scrapy.Request发送请求，用xpath匹配需要的信息。

同时循环创建下一页请求的form表单，通过scrapy.FormRequest发送POST请求。所有爬取的信息缓存到redis数据库中，

最后通过编写python脚本将redis数据库中数据读取出来加入mysql数据库。

其他爬取的网站：搜狐新闻、豆瓣、腾讯新闻网

项目经历（案例三）

项目时间：2016-03到2011-10

项目名称：基于django的基因产品选购系统

项目描述：

项目介绍

该项目为了满足部分人群不方便抽血，但是又想通过基因检测了解自己情况的人群，通过让客户在线选购基因检测套餐，而后通过快递将唾液采集器送达客户家中，客户只需按流程收集唾液后快递给公司，就可以在规定的天数后在系统中查询自己的检测项目结果

我的职责

1，通过bootstrap，及js，css完成前端页面的构建

2，通过django搭建后端框架，使用cookie和session共同保存用户的登录状态，通过ajax发送post请求将用户选择的套餐编号发送到服务器

3，测序结果使用ajax请求，返回json数据，通过判定json中result键的值判断是否有测序结果，如果有结果便通过jquery动态加载到页面上

项目经历（案例四）

项目时间：2015-12到2011-10

项目名称：通过异步爬虫爬取HGMD，构建mysql数据库

项目描述：

项目介绍

对高通量测序数据进行数据分析时，需要对snp数据进行相关性筛选，为此需要构建基于mysql的基因突变数据库，对HGMD网站相关基因突变信息进行爬取，爬取内容包括基因名，染色体坐标，突变信息，致病信息等。爬取结果存储于mysql。

我的职责

1，采用asyncio+aiohttp以达成高并发，异步请求。

2，通过timeout设置超时重发机制，因为HGMD为国外网站，防止因为网络卡顿导致页面抓取不到产生数据不全的现象。

3，通过继承aiohttp.ClientSession类来保存cookie对象，以应对基于cookie的反扒策略

4，使用xpath进行页面解析，解析出的数据通过PyMysql模块存储于mysql数据库中