精通 Python 开发语言,拥有多年的一线开发经验
了解主流的 WEB 服务器,对于 Nginx、Apache 的配置、优化、机制、维护有一定的经验
了解 Mysql 服务的使用,对于 Mysql 的优化、业务设计、集群配置、运维有多年的实践
具备 Shell 编程能力,了解 CentOS、Ubuntu 操作系统,会基本的 Linux 操作和管理 。
主要使用 Flask、Codeigniter、CakePHP 等语言开发框架。
熟练使用 Redis、Memcached、MongoDB 等数据库。
项目时间:2015-12到2011-10
项目名称:通过异步爬虫爬取HGMD,构建mysql数据库
项目描述:
项目介绍
对高通量测序数据进行数据分析时,需要对snp数据进行相关性筛选,为此需要构建基于mysql的基因突变数据库,对HGMD网站相关基因突变信息进行爬取,爬取内容包括基因名,染色体坐标,突变信息,致病信息等。爬取结果存储于mysql。
我的职责
1,采用asyncio+aiohttp以达成高并发,异步请求。
2,通过timeout设置超时重发机制,因为HGMD为国外网站,防止因为网络卡顿导致页面抓取不到产生数据不全的现象。
3,通过继承aiohttp.ClientSession类来保存cookie对象,以应对基于cookie的反扒策略
4,使用xpath进行页面解析,解析出的数据通过PyMysql模块存储于mysql数据库
企业产生的数据 企业在生产运营中会产生与自身业务相关的大量数据,例如:百度搜索指数、腾讯公司业绩数据、阿里巴巴集团财务及运营数据、新浪微博微指数等。 大型互联网公司拥有海量用户,有天然的数据积累优势,还有一些有数据意识的中小型企业,也开始积累自己的数据。 数据平台购
独立完成.爬虫针对某电影网站,收集电影名,下载链接,评分,等信息;当天更新的电影,特别的打印出来;同时通过评分调用迅雷下载,当然先判断下,是否已经下载过了,再决定是否下载;然后,就是可以看了.视频格式等等不同,所以无法全部一概而论