猿急送>

北京Python兼职程序员

ID：185121

。。

python开发

公司信息：
西安联创佳讯网络科技有限公司

工作经验：
3年

兼职日薪：
500元/8小时

兼职时间：
周六
周日
可工作日远程

所在区域：
北京
昌平

技术能力

1.计算机专业，具有良好的计算机基础与逻辑思维能力以及代码编写规范；
2.熟练使用Scrapy、Django等Python主流框架，实现数据发掘和后台开发；
3.熟悉Mysql、Mongodb、Redis等数据库，熟悉Linux平台开发；
4.拥有各种主流网站的爬虫经验，包括但不局限于微信，微博类爬虫；
5.熟练使用Selenium、Xpath、Bs4、正则表达式等网页解析技术；
6.了解Nginx、vsftpd、celery、负载均衡、分布式等运维技术；
7.对搜索引擎、数据分析、数据展示、有一定的了解和使用经验；
8.了解Bootstrap、HTML、Jquery等前端开发技术结合Django将数据前端展示；

项目经验

项目简介：
根据公司业务需求，爬取58同城网简历。
个人职责：
1)使用scrapy爬虫框架；正则和xpath解析响应数据；mysql数据库存储。
2)数据清洗(numpy，pandas，matplotlib)模块，
3)项目部署项目部署在Linux系统。
4)定期备份MySQL数据，删除已备份的数据。
5)反爬手段：
a.赶集网出现画S曲线验证码，此验证码的破解难度高于滑块验证码和一般数字、字符验证码；
58同城网反爬手段为自定义字体库。
b.解决画S曲线验证码方案：第一为设置IP代理池，通过更换IP，定期维护IP代理池；第二为利用图像处理技术，使用pyhton图像处理模块Tesseract，对S曲线验证码图片处理，获得S曲线的坐标信息，然后将此曲线与验证码合成作为模拟人为画的S曲线，最终达到破解反爬。
c.解决58同城网简历自定义字体同样可以使用Tesserocr，获取自定义字体文件woff，转化为（fontTools）XML获得轮廓点，轮廓可视化（matplotlib/pillow）转化图片，获得自定义字体训练集（jTessBoxEditorFX），利用tesserocr的ORC文字识别技术识别（注意自定义字体映射关系与训练集的映射关系）。项目业绩：在规定时间内完成指定网站数据的采集