1.熟悉使用Python语言进行编程,有良好的编程习惯,遵循PEP8编码规范;
2.熟悉使用Linux中vim、ls等基本命令,可在Linux系统设置定时任务,部署SVN版本控制器;
3.熟悉requests模块的的使用,熟悉使用Scrapy爬虫框架;
4.熟悉使用re、xpath、bs4等模块完成对网页数据的处理;
5.熟悉使用numpy、matplotlib、pandas对数据进行处理;
6.熟悉使用fiddler、charies软件对浏览器和手机app进行抓包,熟悉使用浏览器的调试功能对网站数据进行抓包;
7.熟悉网页爬虫的逆向技术,可以通过Nodejs、PyExecjs以及前端的相关技术实现有关md5、rsa、sm4、base64的接口请求;
8.熟悉MySQL、Redis、MongoDB、ES数据库,熟悉MySQL数据库以及ES数据库的基本操作命令;
9.了解Python多进程、多线程的使用;
10.了解HTTP、TCP/IP,UDP协议及相关网络传输技术;
11.了解sklearn机器学习算法库,包括回归,分类,聚类基本算法训练模块;
项目描述:大数据洞察项目是一个对网站、app、电子报纸、论坛、自媒体进行数据采集并清洗数据然后按需求展示的大数据平台项目,包含新闻推荐、新闻快报、本地资讯、热点追踪、数据建工、数据分析等模块。
责任描述:
1.负责实现批量采集app数据爬虫的框架的设计以及网站爬虫框架的设计;
2.负责完成对手机app的抓包,找到相应的接口,并生成对应的模板,完成对app数据的采集;
3.负责完成对网站数据的抓包,并生成对应的模板,完成对网站数据的采集;
4.负责根据DBSCAN算法完成对新闻的专题分类模块