精通Python语言,熟练使用常用的爬虫框架:包括但不限于Scrapy,Feapder等,熟练使用数据提取(正则,Xpath,BeautifulSoup等),数据处理(numpy,pandas等),数据可视化(Matplotlib,Echarts等)
有基本的反爬意识,能过常见的验证码(图片识别,滑块,点选,九宫格等),基本的参数加密(cookie,header,请求参数),对js逆向有一定的了解(AST,OB混淆等),字体加密,IP代理池。熟练使用自动化模拟框架(Selenium,Phantomjs)。
熟练使用常用的抓包工具(Fiffler,Wireshark),熟练使用MYSQL,Redis,MongoDB等数据库进行数据存储,缓存等操作,对异步,协程,多线程,分布式有一定的使用经验。
了解Linux操作系统,具有在Linux系统(Centos,Ubuntu)开发的经验,掌握基本的Linux命令,以及Git命令操作。有一定的框架搭建以及开发的经验(需求分析,数据库表设计,采集框架应用,数据入库请洗等流程)
有一定的api开发的经验以及web开发应用(Django,Flask,Fastapi),能够进行基本的模型训练操作(yolo等),对代码有一定的规范要求
设计Scrapy框架模板,针对200多个结构相似的网站进行数据抓取。对极验的图片,滑块,点选,九宫格验证码能够进行突破,包含yolo模型的目标检测,孪生模型的图片相似度计算等进行训练。设计了Feapder框架对多个网站进行分布式采集以及监控,并同时保证数据的能够正常更新
螺丝帽验证码识别,通过yolo模型对相关验证图片进行训练,最后对图片进行学习。对极验的相关验证吗也会,例如滑块,九宫格,点选等
在django开发后台的基础上,实现文件的上传,下载,搜索,删除。利用middleware对网页访问进行限制。文件上传:先存入到mysql数据库再上传到搭建的Hadoop平台上,下载同理,实现简易的网盘存储,利用mysql的模糊查询实现搜索功能,利用回收站机制,即页面删除和平台删