对于Python全栈工程师来说,需要掌握以下知识结构:
第一,Python语言基本语法。Python语言的基本语法掌握起来并不困难,甚至可以说非常简单,因为Python是脚本语言,所以语法也比较直接
第二,Python做Web开发。
Python是Web开发的传统三大解决方案之一(还包括Java和PHP),Web开发是全栈工程师必须掌握的内容。用Python做Web开发需要学习对应的框架,比如Django。
第三,Python做数据分析。Python做数据分析是一个比较常见的应用场景,Python做数据分析需要学习对应的算法以及实现过程。会使用到的库包括Numpy、matplotlib等。
第四,Python做爬虫。Python做爬虫应用是一个非常常见的应用,有大量的案例可以参考。
第五,Python做机器学习类应用。Python目前在机器学习领域(人工智能相关)的应用非常普遍,所以对于Python全栈工程师来说,掌握机器学习相关的内容也是有必要的。需要掌握的算法包括决策树、朴素贝叶斯、回归、kNN分类等,同时需要掌握基本的线性代数和概率论相关知识。
项目经历(
项目名称:通过异步爬虫爬取HGMD,构建mysql数据库
项目介绍
对高通量测序数据进行数据分析时,需要对snp数据进行相关性筛选,为此需要构建基于mysql的基因突变数据库,对HGMD网站相关基因突变信息进行爬取,爬取内容包括基因名,染色体坐标,突变信息,致病信息等。爬取结果存储于mysql。
我的职责
1,采用asyncio+aiohttp以达成高并发,异步请求。
2,通过timeout设置超时重发机制,因为HGMD为国外网站,防止因为网络卡顿导致页面抓取不到产生数据不全的现象。
3,通过继承aiohttp.ClientSession类来保存cookie对象,以应对基于cookie的反扒策略
4,使用xpath进行页面解析,解析出的数据通过PyMysql模块存储于mysql数据库中
————————————————