1、熟悉C、C++、C#等编程语言的知识; 2、熟练掌握Web前端,HTML5,Python开发工具; 3、熟练应用Eclipse、SQL、Developer和sublime_t ext 等开发软件; 4、熟练掌握Java基本语法和Oracle数据库简单的linux系统的基础命令; 5 、熟悉 HTML、CSS、JavaScript 等技术。
项目介绍: 对高通量测序数据进行数据分析时,需要对snp数据进行相关性筛选,为此需要构建基于mysql的基因突变数据库,对 HGMD网站相关基因突变信息进行爬取,爬取内容包括基因名,染色体坐标,突变信息,致病信息等。爬取结果存储于 mysql 。 我的职责: 1、采用asyncio+aioht t p以达成高并发,异步请求。 2、通过t imeout 设置超时重发机制,因为HGMD为国外网站,防止因为网络卡顿导致页面抓取不到产生数据不全的现象。 3、通过继承aioht t p.Client Session类来保存cookie对象,以应对基于cookie的反扒策略。 4、使用xpat h进行页面解析,解析出的数据通过PyMysql模块存储于mysql数据库中。