在本科期间学习过爬虫相关技术,跟随老师做过相关项目,如爬取航空数据(数十万条)。熟练掌握python中的request,beautifulsoup,re,xpath工具的使用。会使用scrapy异步爬虫框架,和selenium自动化测试框架。了解http协议。
1、九元航空公司数据分析平台:我主要的工作是爬取全国所有的航班信息,并进行数据清洗。
2、基于Python的网络爬虫和数据清洗:主要使用的技术是scrapy、selenium、browsermobproxy。爬取全国所有城市的航班信息,清洗后存入mongodb中,再用django框架一个供用户个性化查询航班信息的一个web网站。
角色:主要负责人 作品的功能是:用户可以选择时间和城市,系统将会返回对应的航班信息,在数据页面中还增加了排序功能,可以按照价格和航班到达准确率进行排序以方便用户查询结果。
角色:项目成员 项目功能:本项目主要包括以下几个部分:航班数据的爬取,数据的图形可视化,重要客户的挖掘等。本人负责的工作是,航班数据的爬取和数据可是化模块的功能。
角色:项目成员 项目功能:本项目主要包括以下几个部分:航班数据的爬取,数据的图形可视化,重要客户的挖掘等。本人负责的工作是,航班数据的爬取和数据可是化模块的功能。