ID:182213

神经

爬虫工程师

  • 公司信息:
  • 成都数维特科技有限公司
  • 工作经验:
  • 1年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 可工作日远程
  • 所在区域:
  • 成都
  • 高新

技术能力

熟练掌握Python编程语言,有良好的代码编程习惯,掌握面向对象编程思维,熟悉Linux开发环境
● 熟练掌握网页抓取原理及Xpath、正则表达式、样式表选择器等页面解析技术
● 熟练掌握Scrapy框架的使用熟练掌握反爬原理及反反爬技术,熟练使用Scrapy-Redis 分布式爬虫及部署,了解Scrapyd,Gerapy分布式爬虫框架
● 熟练掌握动态IP代理池的搭建与使用
● 熟练掌握Python多线程、多进程、协程开发
● 熟悉正则表达式的编写及Python内置re模块的使用,熟悉jieba+Counter关键字的抓取及统计
● 熟练使用MongoDB、Redis 等非关系型数据库的应用场景和使用,熟悉Postgresql、es数据库
● 熟练使用Selenium实现页面动态内容抓取
● 熟练操作Excel表格
● 熟悉MySQL关系数据库及基本的SQL语句的编写
● 熟悉页面js、css加密与构造加密等信息熟悉html

项目经验

商业地产精算

项目描述: 此项目为公司产品其中一个模块,主要为各大开发商进行地产精算和价值预估

项目职责:
1. 调研各大房源网站,挑选合适的网站针对各个网站不同的情况采集不同的房源
2. 针对赶集网、房天下、58同城采集其中的二手房、出售商品、出租商铺、出售写字楼、出租写字楼、出租房
3. 针对贝壳网、楼盘网分别采集新楼盘与二手楼盘
4. 对采集到的数据进行清洗、统计、生成统计表格
5. 编写数据采集状况,统计各类房源的均价与数量
技术要点:
1.破解58字体加密文件
2.采集各个城市下区县的url,在修改url分类字段,将全国区县URL存入redis依次爬取,可以做到随时停止随时启动,并且可以同时开启多个进程,大大提高爬取效率与采集灵活性
3.房天下每种分类房源的页面解析都不同,在写解析函数时通过获取url关键字将页面解析分类
4.解决页面重定向问题

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服