爬虫方面:熟悉整个爬虫的设计及实现流程,有网络爬虫、网页信息抽取开发经验,熟悉反爬虫技术,有分布式爬虫架构经验;熟悉Linux操作系统,能够使用pip或anaconda搭建开发环境;熟练使用python语言,熟悉github;熟练使用Python常用模块及web框架,可以使用Django、Flask、Sanic开发后端api接口,了解restful,Graphql设计风格。
后端接口方面:一年以上Python/Java/Kotlin相关的后端开发经验,极强的编程语言适应能力,熟悉关系型数据库,如MySQL,也了解NoSQL,比MongoDB ,熟悉Linux ,对可扩展性、稳定性、性能、质量有特别的执着
深圳某项目(涉密)爬虫方面工作负责:
负责设计开发分布式网络爬虫,进行多平台信息抓取分析工作;
根据业务需求,实现文本、图片数据抓取、清洗、存储工作;
根据业务需求通过抓包技术Wireshark,包括代理、selenium、验证码处理等;
根据业务需求获取各大平台cookies实现模拟登录和模拟请求接口获取数据。
完成爬虫主要包括,Telegram公开群组成员信息,聊天信息采集;Facebook个人主页,公开主页,发帖信息,关联关系采集;Twitter个人信息,发帖信息,关联关系信息采集等。
某开源情报平台后端研发:
前期使用Java+SpringBoot+MySQL的技术栈,配合Restful设计风格,开发1.0平台接口
后期使用Kotlin+SpringBoot+ES+MongoDB的技术栈,配合Graphql设计风格,开发2.0平台接口