ID:168655

你真有意思

爬虫工程师

  • 公司信息:
  • 巨人网络有限公司
  • 工作经验:
  • 1年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 可工作日远程
  • 可工作日驻场(自由职业原因)
  • 所在区域:
  • 苏州
  • 全区

技术能力

1、熟练掌握爬虫requests、scrapy爬虫流程,熟练基于re正则、XPath等网页解析技术
2、熟悉常见网站反爬策略,能根据网页分析出常见反爬手段,使用工具包括不限于:伪造User_Agent、IP代理、设置并发数量及下载速度
3、熟悉Http协议、TCP/IP协议等网络基础
4、熟悉Django框架

项目经验

web后台
1、 Django后台,xadmin/admin管理
2、 主要功能:会员管理、文章管理、govbuy活动、首页广告、用户注册统计等
3、 其他:上传、下载服务器文件功能、详情/列表页的模板继承和视图编写、富文本框、图标展示功能
4、 负责Centos7下使用apache部署django,配置apache配置文件
5、 定期查看项目日志并清理,学习新技术,完善项目代码并上传到git服务器

caleprocure网站
1、该网站需要保持会话一直进行post,postman无法请求。使用工具:fiddle、pycharm、scrapy
2、 请求网站需要带上User-Agent和Accept
3、 进一步请求start_urls,返回278状态码,解析json得到下一个链接和参数
4、 请求详情页的过程,分析url拼接方法其中一个片段在另一个网页下载文件里
5、 下载xls文件,用python读取文件,得出全部详情页及url片段
6、 网站进入下载页,所有网站post链接都相同,参数也相同,只有第一个链接能成功进入下载页
7、 查阅scrapy为后进先出队列,故创建详情页队列,依次进行网站请求
8、 最后判断下载页是否有多余参数,有就必须添加,判断文件下载数量与网页上数量是否相同
9、数据保存在json字符串中,转化成python字典,提取信息
10、保存数据在mysql
11、使用logging模块监控爬虫,并定向输出日志到log文件

bidsync网站
1、项目网站需要登录,详情页根据列表页得到的href分3种形式
2、 编写登录模块,账号密码及需要的参数post请求start_url,xpath解析出信息及详情页链接
3、 将详情页分类,编写3段函数,指定链接指定解析,利用re、xpath提取、清洗
4、保存数据在mysql
5、使用logging模块监控爬虫,并定向输出日志到log文件

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服