1.熟悉 HTTP协议,熟悉 HTML5,JavaScript,XPath
2. 熟悉 Django,了解前端MVVM框架如Angular,vue,react
3. 熟练使用 Python 进行抓取及格式化信息提取
4. 能使用Django搭建后台服务,数据分析
5. 熟练掌握关系型数据库sql编程
项目1:基于lxml的href属性和文本内容提取
本项目通过利用python编程,并调用lxml网页解析库的etree模块中的xpath接口实现了对网页中的href属性和文本内容进行提取。
项目2:基于Python的有道翻译手机端网页数据爬取
本项目实现了利用python中的requets库爬取有道翻译手机端网页数据,然后利用lxml库对页面进行解析提取所需要的翻译结果。
项目3:基于Scrapy框架的腾讯招聘数据爬取
本项目实现了通过Scrapy框架爬取腾讯招聘数据的职位名称,职位所在城市,职位描述信息,职位发布时间等关键字段信息,爬取完毕后存入mongodb数据库。
本项目实现了利用python中的requets库爬取有道翻译手机端网页数据,然后利用lxml库对页面进行解析提取所需要的翻译结果。
本项目实现了通过Scrapy框架爬取腾讯招聘数据的职位名称,职位所在城市,职位描述信息,职位发布时间等关键字段信息,爬取完毕后存入mongodb数据库。