Python语言基础:掌握Python脚本、Python界面编程能力、掌握数据库、掌握基本爬虫、掌握多线程多进程开发能力,能胜任基本的Python开发工作。
二、Pythonweb开发:掌握前端知识、掌握Python三大后端框架、独立开发网站,能胜任web全栈开发工作。
三、Python爬虫:掌握Python爬虫技术、掌握多线程爬虫技术、掌握分布式爬虫技术,能胜任爬虫工作。
四、Python数据分析:掌握Python数据分析、掌握Python数据可视化、掌握Python机器学习,能胜任数据分析和人工智能工作。
项目名称:通过异步爬虫爬取HGMD,构建mysql数据库
项目描述:
项目介绍
对高通量测序数据进行数据分析时,需要对snp数据进行相关性筛选,为此需要构建基于mysql的基因突变数据库,对HGMD网站相关基因突变信息进行爬取,爬取内容包括基因名,染色体坐标,突变信息,致病信息等。爬取结果存储于mysql。
我的职责
1,采用asyncio+aiohttp以达成高并发,异步请求。
2,通过timeout设置超时重发机制,因为HGMD为国外网站,防止因为网络卡顿导致页面抓取不到产生数据不全的现象。
3,通过继承aiohttp.ClientSession类来保存cookie对象,以应对基于cookie的反扒策略
4,使用xpath进行页面解析,解析出的数据通过PyMysql模块存储于mysql数据库中