1.计算机专业,具有良好的计算机基础与逻辑思维能力以及代码编写规范;
2.熟练使用Scrapy、Django等Python主流框架,实现数据发掘和后台开发;
3.熟悉Mysql、Mongodb、Redis等数据库,熟悉Linux平台开发;
4.拥有各种主流网站的爬虫经验,包括但不局限于微信,微博类爬虫;
5.熟练使用Selenium、Xpath、Bs4、正则表达式等网页解析技术;
6.了解Nginx、vsftpd、celery、负载均衡、分布式等运维技术;
7.对搜索引擎、数据分析、数据展示、有一定的了解和使用经验;
8.了解Bootstrap、HTML、Jquery等前端开发技术结合Django将数据前端展示;
项目简介:
根据公司业务需求,爬取58同城网简历。
个人职责:
1)使用scrapy爬虫框架;正则和xpath解析响应数据;mysql数据库存储。
2)数据清洗(numpy,pandas,matplotlib)模块,
3)项目部署项目部署在Linux系统。
4)定期备份MySQL数据,删除已备份的数据。
5)反爬手段:
a.赶集网出现画S曲线验证码,此验证码的破解难度高于滑块验证码和一般数字、字符验证码;
58同城网反爬手段为自定义字体库。
b.解决画S曲线验证码方案: 第一为设置IP代理池,通过更换IP,定期维护IP代理池; 第二为利用图像处理技术,使用pyhton图像处理模块Tesseract,对S曲线验证码图片处理,获得S曲线的坐标信息,然后将此曲线与验证码合成作为模拟人为画的S曲线,最终达到破解反爬。
c.解决58同城网简历自定义字体同样可以使用Tesserocr,获取自定义字体文件woff,转化为(fontTools)XML获得轮廓点,轮廓可视化(matplotlib/pillow)转化图片,获得自定义字体训练集(jTessBoxEditorFX),利用tesserocr的ORC文字识别技术识别(注意自定义字体映射关系与训练集的映射关系)。 项目业绩: 在规定时间内完成指定网站数据的采集