ID:273018

毛毛

Java高级工程师

  • 公司信息:
  • 滴滴出行
  • 工作经验:
  • 10年
  • 兼职日薪:
  • 1000元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 所在区域:
  • 北京
  • 昌平

技术能力

熟悉Java、python
熟练使用MySQL、Mongodb数据库、Redis分布式缓存、hadoop等开源系统
熟练使用Grafana、influxdb、ehcache
熟悉SpringBoot 、Html、JavaScript、JSP及MVC开发模式
熟悉ES、Kafka、zookeeper
熟悉Linux操作,熟练使用Apache与Tomcat配置

项目经验

分布式爬虫系统架构设计及开发,本着高可靠性、高并发、高性能、可扩展性强的原则设计系统:
1. 根据公司业务系统的要求,借鉴开源爬虫的特点,将整个爬虫系统划分:seed准备 -> 爬取 -> 解析去重 –> 转码;
2. seed准备模块采用分布式内存队列系统beanstalk,另外我们采取了定时增加seed版本的方式全量更新队列,以解决网络、爬虫系统等导致seed缺失问题;
3. 爬取模块采用agent、proxy等组合模式对seed进行爬取,爬取的网页内容通过kafka传给解析去重模块;
4. 解析网页提取URL(可根据正则、css selector提取指定位置的URL),跟已经发现的新闻URL去重,为了提升性能采取了ehcache、redis、mongo多级去重,新增新闻URL通过Kafka传给转码系统;
5. 转码模块通过解析网页内容提取出标题、内容、作者、发布时间、语言等内容,针对一些特殊网站,可以采用自定义模板方式解析;
6. 为了更好的对每一个环节的数据采用grafana+influxdb方式监控报警,采用es做为数据统计分析及查找问题。
7. 目前我们30W seed,每5分钟爬取一轮,主要服务器有beanstalk 服务器2台、爬虫服务器60台(低配)、解析去重服务器(6台)、转码服务器12 台。

案例展示

  • 巨潮咨询网

    巨潮咨询网

    本人作为新版巨潮网的项目负责人,带领开发团队成员与需求人员、测试人员、运维人员等多个部门成员一起合作,顺利完成巨潮网改版项目的上线

  • LuckyWin

    LuckyWin

    挂卡类休闲小游戏,后端主要功能: 1. 控制挂卡奖励 2:控制Slots次数及Slots结果 3:日赚取金币排行榜 4: 发布Push通知,拉活用户等

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服