Python
(1)Python 基础扎实,有良好的编码习惯及编码风格。
(2)熟悉Python常用第三方库,并能阅读官方文档。
(3)数据爬取和数据分析
a.熟练使用requests进行数据爬取
b.熟悉scrapy框架
c.熟练使用selenium+chrome和selenium+phantomjs进行模拟操作和数据爬取
d.熟悉pandas和pyecharts的使用
e.熟悉User-Agent控制访问、限制ip访问、使用js脚本反爬、等反爬技术的应对方法
f.熟悉HTTP、AJAX等各类网络请求分析,正则表达式、Xpath、CssSelector、Jsonpath、beautiful Soup等网
页解析技术。
g.熟悉使用appium爬取app信息
(4)熟练使用pycharm和jupyter,熟悉Finder抓包工具的使用
数据库:
(1)熟悉MySQL等关系数据库,熟悉SQL语句的编写与优化。
(2)熟悉Redis、MongoDB非关系型数据库语言环境,了解数据存储的原理及使用
其他语言
(1) 熟悉HTML语言的基础语法。
(2) 了解Java的基础语法。
(3) 了解C语言的基础语法
Linux系统
熟悉Linux,了解其常用命令行的使用。
其他
(1) 熟悉操作Excel进行数据分析,掌握常用处理函数的使用技巧。
一、 项目名称:检查机关公益诉讼智能应用平台
项目描述:为更好开展公益诉讼工作,向检察院设计制作了检查机关公益诉讼智能应
用平台。采集网络各大新闻网站、各大报纸、各大论坛、app、政府问政平台、 市民留言等数据,经过滤筛选汇总后在前端进行展示,便于检查机关人员快速
有效的获取信息,执行工作。
技术描述:1.使用selenium+Chrome、ruquests对网站进行请求操作
2.获取网站json接口或者使用lxml、bs4、re解析网页初步获取数据
3.将处理好的数据使用pymysql存入数据库,在存入前做url去重
责任描述:1.分析所有网站包括(今日头条客户端、济南日报、济南商报、微博、人民网
央视网、舜网、齐鲁晚报、济南网、澎湃新闻、天下泉城等119个网站),寻
找合适的爬取方法。
2. 将获取的数据进行处理,根据字段将数据存入数据库
3. 定期更新维护爬虫程序,并向检察院的工作人员提供更新
二、 项目名称:山东品牌农商品商城数据爬取
项目描述:公司为了更好的了解客户的需求以及各个店铺的销售情况,要求获取商城内所
有店铺的销售情况,以及店铺的评分,将低于三分的店铺信息(店铺名以及电
话)返回给商城运营人员。获取到每个店铺销量前三的商品,最后制成图表.
技术描述:1.使用requests请求网站使用xpath、re等获取数据
2.使用SMTP给运营发送不合格店铺信息
3. 使用pandas和pyecharts对数据清洗并制成图表
责任描述:1.分析网站,选择工具爬取
2.获取数据并进行处理
2.定义店铺是否合格规则,进行判定
三、 项目名称:Web自动化测试程序
项目描述:公司所设网站太多,网站更新迭代太快,如果每次更新都要手动对十几个网站
进行测试的话,太繁琐切浪费人力。写自动化测试脚本对蚂蚁企服、数字短信、
便民通等十几个网站进行监测和测试。主要监测网站功能是否正常,网站是否
有死链接等等。将测试报告发送给管理员。
技术描述:1.使用selenium+Chrome对网站进行模拟操作
2. 使用unittest框架处理测试结果并生成测试报告
3. 使用SMTP发送测试报告
责任描述:1.分析网站,熟悉网站业务,建立测试用例
2. 生成并检查测试报告
3. 网站更新迭代时及时更改测试脚本代码
四、 项目名称:腾讯分析数据爬取
项目描述:公司一些网站使用了腾讯分析作为网站监测和网站安全的工具,由于腾讯分析
信息返回比较慢,比如‘邮件提醒 ’功能缺失,所以公司要求做一个爬虫系统,
爬取腾讯分析的数据,及时展现在本地,在数据异常时发送邮件给管理员
技术描述: 1.使用selenium登模拟录请求网址,获取cookie
2.使用requests添加获取到的cookie并请求地址获取数据json文件
3.使用jsonpath处理获取的数据,在数据异常时发送邮件提醒
4.使用pymysql将数据存入数据库后交给前端
责任描述:1.分析目标网站,选择合适的爬取方式
2.获取数据并做公司要求的功能
3..将获取的数据存入数据库
五、 项目名称:拉钩网公司招聘信息爬取
项目描述:
公司要求爬取某招聘网站公司信息,公司描述,职位描述等,把公
司和招聘信息进行整理,将可视化数据保存为Excle格式
技术描述:
1.使用selenium+ phantomjs对网站进行请求
2.使用selenium模拟点击进入招聘详情页面
3.获取数据,并进行处理,将可视化数据存储为csv格式
责任描述:
1.分析网站,找到数据接口,获取数据并进行处理后保存
六、 项目名称:网站漏洞检测资源整合工具
项目描述:
公司在测试的过程中,需要对网站的漏洞和安全进行检测,其中就包括使用第
三方工具对网站进行安全检测。公司要求将公司所用的第三方检测工具(站长工
具、360网站安全检测、腾讯网站安全检测、百度安全检测、ShoDan等)进行
整合减少工作量。
技术描述:
1.使用requests携带检测网址对各个安全网站进行请求
2.使用xpath、re、jsonpath等处理返回内容,获取检测结果数据(被屏蔽域
名
独立完成山东所有行政区域代码。包括省、市级、区县、街道、村委等等。爬取数据存入数据库!累计数据大约100000条。
为销售部门开发了标书信息管理系统。向销售人员呈现各地市政府的采购信息,如采购公告,中标公告,采购更改信息、以及上诉信息的url链接。