1.具有良好的java基础(多线程、IO、JVM等)。
2.前端技术方面:掌握HTML/CSS/JavaScript/JQuery等前端技术,了解Ant Design Pro前端框架使用。
3.开发框架方面:Spring + SpringMVC + Mybatis、SpringBoot等开发框架,以及了解微服务SpringClound + feign + eureka使用。
4.数据库方面:Mysql、postgreSQL等关系型数据库;Redis、Elasticsearch等非关系型数据库。
5.分布式框架:dubbo、zookeeper、kafka、RabbitMQ等的使用。
6.项目管理方面:git、maven等工具使用。
7.服务器方面:熟练使用Linux操作系统、shell脚本语言,以及服务部署。
8.Python匿名函数、列表推导式、装饰器的熟练使用。
9.Python中re、requests、beautifulSoup、selenium、PhantomJS、chromedriver等库的熟练使用。
10.熟悉使用消息队列(MQ)、celery等异步框架实现分布式任务原理。
11.Python与scrapy-redis、Scrapy分布式爬虫框架的基本使用。
12.Python爬虫中代理IP、UserAgent的熟练使用,熟悉基于正则表达式、Xpath、CSS等网页信息抽取技术。
13.熟练Python对Mysql、postgreSQL等常见关系型数据库操作;了解elasticsearch、MongoDB等非关系型数据库。
14.python科学计算库numpy、scipy和数据分析库pandas的熟练使用。
15.熟悉Linux能熟练使用shell脚本语言,熟练掌握常用命令。
1.热点检索(基于微信小程序)
背景:提供公司内部信息流的推荐
相关模块:检索模块、爬虫模块、存储模块、前端
相关技术:Elasticsearch、Spring Boot、爬虫
业务流程:1)、使用python抓取公众号历史文章;2)、使用perl模拟微信登陆监控微信好友发送消息,获取微信公众号实时发送新的公众号文章,获取其他好友发送的相关公众号文章;3)、将获取的文章链接,请求并解析文章内容存入Elasticsearch中,以供后续查询;
2.数据抓取
项目需求:抓取微信公众号文章、链家房产、大麦网、大众点评、微博数据。
相关技术:python、celery、scrapy、xpath、lxml、re、requests等。
业务流程:抓取规划相关的公众号,发布的历史文章和实时推送的文章,以及微信中好友发送的公众号文章。每个月定时对链家小区、二手房等房产信息进行抓取,并将获取的数据存入空间数据库postgreSQL中。抓取用户注册时编辑的基本资料信息、发布微博、相册、以及签到的足迹,将其存入postgreSQL中。