一、编程语言: 主要是:Python ,简单写Java。熟悉 linux 基础操作指令, 简单编写js代码。
二、拥有技能:
1.在过往的经验之中主要是进行爬虫开发,熟悉爬虫开发框架Scrapy,接口框架FastAPI,Web框架Falsk,Django。 通用组件: R
equets,Redis,RabbitMq ,Selenium,Pywin32,Puppeteer,Pyinstaller,Pyqt。 了解Frida扩展组件。
2.熟悉国内大部分反爬虫原理。 包括RS4-6,网站加密Token。 擅于逆向JS破解,纵深挖掘。 了解APP的加壳解壳,了解APP的HTT
PS解密。
3.熟悉掌握正则表达式、Xpath、CSS等页面抽取技术。IP代理池、应用IP池,熟练使用Fiddler、Wireshark等抓包工具。
4.熟悉Python 机器学习,针对图片验证码,滑动验证码,旋转验证码等,通过 Python 机器学习能够解决部分验证码。
5.对MySQL,PgSQL,Hive,Hadoop有过建模数据操作经历,在之后的工作生活中有自学数据开发工程师相应课程。
1.企业信息获取,通过爱企查官网获得企业相关信息。
2.税务发票查验平台接口,解决验证码,日访问量5-12万不等。
3.有其他平台接口破解(知识产权等)。生成签名 token-sign。
4.国内瑞数4 ,5 , 6。
5.国内外航空公司加密加密。
6.国际物流网站加密解密.
7.验证码突破,机器学习识别。
8.搭建全球爬虫系统,包含(北美,澳洲,欧洲,亚洲)数据爬取,收集,清洗,处理,优化,展示。
破解17track,51track等物流查询平台 1.17track平台为目前最大的国际物流查询平台,反爬手段是lastevent-id,此cookie值会对浏览器指纹,浏览器版本参数等进行加密。 2.51track平台功能物流网站涉及没17track全面,反爬手段是参数会被
加密,反混淆加密js,在js中找到要点逆向编译得出生成cookie值。 在处理接口因为参数复杂,接口携带cookie赋值多,需要仔细处理每个关键接口。
1.获取发票查验四要素(发票代码、发票号码、开票日期、校验码) 2.破解网站混淆JS,拿到Token. 3.用TensorFlow进行循环卷积神经网络对验证码识别训练。 4.携带验证码以及Token进行发票验真, 5.发票返回结果通过网站混淆,获取到的结果进行反混淆曲正。
1.通过逆向反混淆加密JS,反VMP结构,获得加密Token。 2.获取旋转验证码,通过Pytorch进行训练。 3.利用Flask提供接口提供内外部使用。