熟练操作 python 当中的面向对象编程,以及对函数的封装和模块导入
熟练使用 Python 常用的 Web 框架,如:Django,Tornado
熟悉 HTML, CSS, Javascript,jquery, Ajax等前端技术和框架
熟悉比较常用的数据库,如,mysql
掌握爬虫技术,能够用 scrapy 等框架搭建爬虫环境
熟悉进程、线程、协程的作用原理,并掌握这三者在实际工作中的运用
熟悉正则表达式,掌握贪婪模式和非贪婪模式的应用场景
了解数据结构,二叉树,深度搜索遍历和广度搜索遍历
了解动态、静态 web 服务器运行脚本的编写,wsgi 协议加载文件
了解深度学习以及目前常用的关于Python接口的深度学习库,如 Theano,TensorFlow,Caffe
项目名称:用决策树预测获胜球队
职责描述:
用 pandas 库加载、处理数据,实现数据集的清洗,让原始数据变得规整。
决策树是一种有监督的机器学习算法,经由训练阶段和预测阶段完成决策树模型的建立,用到 scikit-learn 库,从中导入 DecisionTreeClassifier 类,用它创建决策树。
随机森林算法,创建多棵决策树,分别预测,再根据少数服从多数的原则从多个预测结果中选择最终预测结果,在 scikit-learn 库中导入 RandomForestClassifier。
项目总结:
在项目中发现,改变特征对算法的表现有很大的影响,仅仅是选用不同的特征,正确率提升了 10%,有多种算法计算特证,通常情况下是一次性处理所有特征,这样的效率比较高。
在这个项目中,特征抽取比较麻烦,遇到不懂问题会从 StackOverflow 社区寻求帮助。
因为在训练数据集的过程中,发现有些球队的名字改了,但仍然是同一个球队,所以在查找球队时,需要把它换成原来的名字。
通过人机交互的方式进行目标数据的爬取,实现模拟人为动作,避开反扒机制,从而有效的成功地获取到目标数据。
从人机交互的角度,实现批量发送消息,全程仅需确认要发送的内容,以及需发送的对象即可,它将全自动完成这一动作,其他搜索类的也能做。