ID:278307

python爬虫工程师

  • 公司信息:
  • 唯诺得
  • 工作经验:
  • 3年
  • 兼职日薪:
  • 600元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 可工作日远程
  • 所在区域:
  • 深圳
  • 龙华

技术能力

1. 熟悉Python中re、requests、lxml,selenium等常用库的使用
2. 熟练使用python面向对象编程,具有良好的编程习惯和代码风格。
3. 熟悉常用的关系型数据库产品MySQL在日常工作中的使用。
4. 熟悉Linux日常工作环境,熟练掌握常用命令。
5. 熟悉scrapy框架和Flask框架在日常工作中的使用。
6. 了解JavaScript、Ajax、jQuery,HTML, Vue等前端开发技术。

项目经验

项目一
软件环境: Python 3.9
开发工具 : Pycharm
项目描述: 根据公司业务要求,需要将在TI网站上获取的型号在IC交易(https://www.ic.net.cn)中进行搜索,并提取符合条件的搜索结果,并且将爬取到的产品数据根据提供的Mysql数据库接口保存到数据库中。
责任描述:
1. 分析IC交易网的页面结构及反爬措施,以制定稳定的爬取方案。
2. 由于一个型号可能要进行多次搜索请求,且需要进行每天的数据爬取,所以需要采取多线程爬虫。
3. 该网站的反爬措施包括:IP封锁、cookie验证,且cookie中含有带js加密之后的数据。所以需要构建IP代理池和构建新的cookie进行爬取。
4. 根据提供的数据库接口,将爬取到的数据以json的格式请求提交到数据库中。
4. 设置定时任务,让爬虫每天爬取一次。
5. 对爬虫程序进行后期维护与功能添加。

项目二
软件环境: Python 3.9
开发工具 : Pycharm
项目描述: 由于公司业务要求,需要将亚德诺半导体(简称ADI)网站(https://www.analog.com)的产品数据进行爬取,其中需要爬取的有产品的型号,价格区间,库存等数据。并且将爬取到的产品数据根据提供的Mysql数据库接口保存到数据库中。
责任描述:
1. 分析ADI网站的页面结构及反爬措施,以制定稳定的爬取方案。
2. 由于该网站的数据量在十多万条左右,且需要在每周的周末这一天爬取完成,所以还是使用多线程进行产品数据爬取。
3. 该网站的反爬措施包括:IP封锁、POST请求参数进行了js加密,所以需要做的是构建IP代理池和进行js解密,这些项目用的代理池都是芝麻代理的IP,而且不能使用隧道IP,因为这涉及到了第二次的请求验证。
4. 根据提供的数据库接口,将爬取到的数据以json的格式请求提交到数据库中。
4. 设置定时任务,让爬虫在每周的周末开始进行产品数据爬取。
5. 对爬虫程序进行后期维护。

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服