ID:130503

DASWDHU第四个蜗牛

Java后端与爬虫工程师

  • 公司信息:
  • 北京城垣数字科技有限公司
  • 工作经验:
  • 2年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 所在区域:
  • 北京
  • 海淀

技术能力

1.具有良好的java基础(多线程、IO、JVM等)。
2.前端技术方面:掌握HTML/CSS/JavaScript/JQuery等前端技术,了解Ant Design Pro前端框架使用。
3.开发框架方面:Spring + SpringMVC + Mybatis、SpringBoot等开发框架,以及了解微服务SpringClound + feign + eureka使用。
4.数据库方面:Mysql、postgreSQL等关系型数据库;Redis、Elasticsearch等非关系型数据库。
5.分布式框架:dubbo、zookeeper、kafka、RabbitMQ等的使用。
6.项目管理方面:git、maven等工具使用。
7.服务器方面:熟练使用Linux操作系统、shell脚本语言,以及服务部署。
8.Python匿名函数、列表推导式、装饰器的熟练使用。
9.Python中re、requests、beautifulSoup、selenium、PhantomJS、chromedriver等库的熟练使用。
10.熟悉使用消息队列(MQ)、celery等异步框架实现分布式任务原理。
11.Python与scrapy-redis、Scrapy分布式爬虫框架的基本使用。
12.Python爬虫中代理IP、UserAgent的熟练使用,熟悉基于正则表达式、Xpath、CSS等网页信息抽取技术。
13.熟练Python对Mysql、postgreSQL等常见关系型数据库操作;了解elasticsearch、MongoDB等非关系型数据库。
14.python科学计算库numpy、scipy和数据分析库pandas的熟练使用。
15.熟悉Linux能熟练使用shell脚本语言,熟练掌握常用命令。

项目经验

1.热点检索(基于微信小程序)
背景:提供公司内部信息流的推荐
相关模块:检索模块、爬虫模块、存储模块、前端
相关技术:Elasticsearch、Spring Boot、爬虫
业务流程:1)、使用python抓取公众号历史文章;2)、使用perl模拟微信登陆监控微信好友发送消息,获取微信公众号实时发送新的公众号文章,获取其他好友发送的相关公众号文章;3)、将获取的文章链接,请求并解析文章内容存入Elasticsearch中,以供后续查询;

2.数据抓取
项目需求:抓取微信公众号文章、链家房产、大麦网、大众点评、微博数据。
相关技术:python、celery、scrapy、xpath、lxml、re、requests等。
业务流程:抓取规划相关的公众号,发布的历史文章和实时推送的文章,以及微信中好友发送的公众号文章。每个月定时对链家小区、二手房等房产信息进行抓取,并将获取的数据存入空间数据库postgreSQL中。抓取用户注册时编辑的基本资料信息、发布微博、相册、以及签到的足迹,将其存入postgreSQL中。

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服