● 开发语言:熟悉python、Java语言了解scala语言。
● 开发能力:熟悉requests模块使用, 熟悉scrapy框架爬虫 ,熟悉使用selenium BeautifulSoup、re、json、xpath提取数据,有js逆向解析经验,,熟悉Flask,Django框架,熟悉Docker,熟悉FastDFS
● 数据能力:熟悉MySql,oracle等关系型数据库,熟悉mongo、redis 了解hive 等nosql 数据库
● 工具使用:熟悉 git代码管理工具 熟悉使用pycharm IDE工具。
● 问题解决:熟练掌握Linux常用命令,熟悉shell脚本,了解JS,jQuery,Vue等前台开发技术,并会解决常见linux环境问题。
项目1:知乎人脉关系爬取(2018/8-2018/9)
项目描述: 该项目是通过爬取用户兴趣与行为相关的海量数据,分析数据的合理性并挖掘出潜在的商业价值 .
利用知乎用户ID,爬取用户的信息、粉丝列表、关注列表,通过每个用户的粉丝列表和关注列表,获取每个粉丝和关注的用户信息,实现递归爬取
利用用户ID爬取用户回复的文章、点赞数、评论数等信息 .
项目2:腾讯新闻,新浪新闻爬虫(2018/6-2018/8)
项目描述: 本项目采用scrapy框架,运用代理池,随机取出代理,对腾讯新闻网的内容进行爬取,包括大标题,小标题,文章具体内容。对抓取的内容进行清晰,存到数据库中