ID:132371

︶⌒︶メ╭∩╮

python研发工程师

  • 公司信息:
  • 烽火通信
  • 工作经验:
  • 2年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 所在区域:
  • 远程
  • 全区

技术能力

python爬虫开发,能熟练使用python网络库、scrapy框架以及selenium库爬取数据。了解web前端技术,包括HTML、XML、CSS、JavaSCript、AJAX等,熟悉正则表达式、XPATH和beatifulsoap4能够从结构化和非结构化的数据中获取信息。对于反盗链,反封 IP,反爬虫的页面有一定应对能力。能使用多线程,多进程,协程加快爬取速度。使用过从数据库包括MySQL、Redis、mongodb等。熟悉restful接口的开发,能够通过抓包分析开发APP爬虫。会使用python的numpy、pandas、Matplotlib进行数据分析。

项目经验

爬虫开发
1.分别利用python requests以及scrapy爬取58同城,安居客,房天下的青岛二手房数据,爬取58同城数据时候,由于PC网页端数据不完整,而单爬安卓手机浏览器数据也不完整,但是通过组合爬取可以获得较完整数据,故同时爬取pc端以及手机端链接,封禁ip的解决方法是限制爬取速率,scrapy版本采用了middleware添加代理的方法绕过封禁ip问题。
2.利用re,xpath,bs4进行数据挖掘,并隔月增量爬取利用哈希算法进行数据去重,利用ps批处理功能去图片水印等数据清洗工作
3.利用百度地图开发者api根据爬下来的地名区块名获得经纬度,使数据更加精确

案例展示

  • 基于爬虫的ansible界面自动化部署

    基于爬虫的ansible界面自动化部署

    ansible-tower是一款开源的ansible ui。用户可以在ui上完成配置后通过界面操作ansible-playbook,并能实时查看到playbook的运行过程与结果。由于相关业务较为复杂,对于界面的配置比较繁琐。因此通过浏览器调试工具获取到相关的rest接口后通过p

  • 公司内网出勤数据爬虫

    公司内网出勤数据爬虫

    由于公司每个月有最低加班率要求,开发了一款内网出勤数据爬虫来获取出勤数据,自动计算当月加班率,当数据达标后就不用刻意加班。同时还能根据迟到早退数据提供最优补签策略,保证迟到早退时间总和不超过公司限制。

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    2
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服