猿急送>

苏州其它兼职程序员

ID：168655

你真有意思

爬虫工程师

公司信息：
巨人网络有限公司

工作经验：
1年

兼职日薪：
500元/8小时

兼职时间：
下班后
周六
周日
可工作日远程
可工作日驻场（自由职业原因）

所在区域：
苏州
全区

技术能力

1、熟练掌握爬虫requests、scrapy爬虫流程，熟练基于re正则、XPath等网页解析技术
2、熟悉常见网站反爬策略，能根据网页分析出常见反爬手段，使用工具包括不限于：伪造User_Agent、IP代理、设置并发数量及下载速度
3、熟悉Http协议、TCP/IP协议等网络基础
4、熟悉Django框架

项目经验

web后台
1、 Django后台，xadmin/admin管理
2、主要功能：会员管理、文章管理、govbuy活动、首页广告、用户注册统计等
3、其他：上传、下载服务器文件功能、详情/列表页的模板继承和视图编写、富文本框、图标展示功能
4、负责Centos7下使用apache部署django，配置apache配置文件
5、定期查看项目日志并清理，学习新技术，完善项目代码并上传到git服务器

caleprocure网站
1、该网站需要保持会话一直进行post，postman无法请求。使用工具：fiddle、pycharm、scrapy
2、请求网站需要带上User-Agent和Accept
3、进一步请求start_urls，返回278状态码，解析json得到下一个链接和参数
4、请求详情页的过程，分析url拼接方法其中一个片段在另一个网页下载文件里
5、下载xls文件，用python读取文件，得出全部详情页及url片段
6、网站进入下载页，所有网站post链接都相同，参数也相同，只有第一个链接能成功进入下载页
7、查阅scrapy为后进先出队列，故创建详情页队列，依次进行网站请求
8、最后判断下载页是否有多余参数，有就必须添加，判断文件下载数量与网页上数量是否相同
9、数据保存在json字符串中，转化成python字典，提取信息
10、保存数据在mysql
11、使用logging模块监控爬虫，并定向输出日志到log文件

bidsync网站
1、项目网站需要登录，详情页根据列表页得到的href分3种形式
2、编写登录模块，账号密码及需要的参数post请求start_url，xpath解析出信息及详情页链接
3、将详情页分类，编写3段函数，指定链接指定解析，利用re、xpath提取、清洗
4、保存数据在mysql
5、使用logging模块监控爬虫，并定向输出日志到log文件