2024年本科毕业于华中科技大学网络空间安全学院
编程语言:Python, C/C++, Java, Javascript, Assemble
Python技能库:机器学习(NumPy, sklearn),深度学习(Pytorch),RAG(Llamaindex, DSPy, Langchain), 爬虫(request, lxml),编译器(Tree-sitter),后端(Django),图形数据库(graphviz, igraph),数据分析(pandas, matplotlib),自动化测试(UIautomation, playwright),图形数据库(graphviz, igraph)
自动化测试(爬虫):Playwright爬虫,UiAutomation自动化控制电脑应用程序,autoxjs自动化控制手机程序
机器学习:线性回归、逻辑回归、聚类算法、树模型(决策树桩、随机森林、集成)、遗传算法、支持向量机
深度学习:Bert、CodeBert、Code T5大模型微调,包括分类任务和生成任务,以及对抗攻击和后门攻击
强化学习:DPO、SFT有监督微调、MCTS蒙特卡洛树
AIGC大模型:RAG(数据增强检索)、MoE(混合专家系统)、LoRA(高效参数微调)、指令微调、QLoRA(内存高效技术)、Agent(代理模型)
高性能民航旅客行程推荐系统 2022年8月
项目描述:linux系统开发软件,后端实现多乘客、多代理人、多个航班联程的低价行程推荐,并能够更新航班余座信息,代码使用C++,前端使用vue框架,自研HTTP协议。
实现效果:简单测试用例40ms,复杂测试用例80ms,具有多线程、高并发、低延时的特点;前端能够实时响应,界面美观。
基于API HOOK的软件行为检测与分析 2022年10月
项目描述:针对软件五大行为:弹窗、文件、堆、注册表和网络通信,对软件进行注入,并对每一类行为实现挂钩,分析异常行为。
实现效果:能够检测到堆申请和释放不一致、重复的堆的释放、文件自我复制、修改可执行程序、上传文件至网络、增加自启动执行文件注册表项等异常行为,前端使用QT。
基于TFTP协议的鲁棒文件传输系统 2022年12月
项目描述:仅使用socket编程,搭建TFTP客户端实现上传、下载数据功能,并能够进行错误检测、重传,及时应对错误情况。
实现效果:为应对各种情况,包括正常、超时重传、重复包、丢包、乱序等,后端采用有限状态机,对每一种状态实现不同的处理函数,用户能够以超过4Mb/s的吞吐量上传下载文件;前端使用QT,实时显示吞吐量以及传输情况和错误信息。
基于SSL加密与认证的的VPN隧道通信 2023年6月
项目描述:在内网和互联网之间实现VPN网关,编写VPN用户端和服务端程序。
实现效果:使用TUN技术实现隧道通信,能够利用TLS协议实现加密,利用口令技术验证用户身份,使用CA证书验证服务器,能够自动分配虚拟IP并配置路由,使用管道技术支持多客户端共同使用VPN。
基于异常损失值的代码模型后门攻击与防御系统 2023年7月
项目描述:使用不可见字符、风格转换、插入死代码和替换变量名对AI代码模型进行后门攻击,能够防御这种新的攻击方式,需要掌握pytorch库的使用,后门攻击知识,编译原理。
实现效果:攻击上实现了100%的攻击成功率;防御上使用基于异常损失值检测是否有后门,基于置信度聚类和显著性剔除中毒样本,攻击成功率下降至0%,剔除大部分的中毒样本。
基于Netfilter的状态检测防火墙系统 2023年9月
项目描述:在linux系统上实现防火墙,运行在内核态,用户能够添加或删除防火墙规则,防火墙能够维护状态表,进行状态检测,并实现NAT转换。
实现效果:用户通过输入指令来配置防火墙规则,用户能够将规则保存至文件,方便下次导入规则,并能够获得当前的状态信息,具有良好用户体验。
多语言语义等价转换器的设计于实现 2023年10月
项目描述:使用Python的tree-sitter库对C/C++,Python,Java四种语言的代码进行解析,设计每种风格的匹配规则和替换规则,实现每种语言的风格转换。
实现效果:设计了四种语言一共100多种风格转换,使用增删算法提升转换速度,平均在1s中内转换150份代码,比基线方法提升了40倍。
代码属性图生成以及漏洞切片提取 2023年11月
项目描述:使用Python的tree-sitter库对C语言生成AST树,并进行静态分析,递归遍历AST节点生成程序控制流图、数据流图,并根据图算法计算出控制依赖关系,得到代码属性图,并从漏洞行开始,经过前向、后向传播生成漏洞切片。
实现效果:为每种属性图设计对应对象,使用graphviz可视化图,使用igraph图形数据库存储图,对比Joern工具提升了可扩展性,并大大提高了生成速度。
本发明公开了一种后门攻击方法和防御方法,属于代码检测技术领域,其提供的基于不可见字符的后门攻击方法,其目的在于,在代码样本中植入不可见字符作为后门攻击的目标触发器,该目标触发器自然性,隐蔽性,攻击性极高,不会改变代码的语法和语义,后门建立效率高于以往的方法;由此解决现有后门攻击方
由于CV领域和NLP领域的后门攻击和风格转换技术已经很成熟,本文主要针对PL领域进行风格转换。代码风格转换不同于CV领域插入肉眼不可见的像素点,代码是不连续的,不能插入连续的触发器,也不同于NLP领域,自然语言的语法没有PL受限,代码风格转换前后的代码除了要保证语义等价外,还得保
在微调BERT模型进行文本到标签的任务中,主要涉及两个类,`MyDataset`(位于my_dataset.py)和`Trainer`(位于trainer.py),主要的训练函数在run.py文件中。 数据源文件必须为'jsonl'、'csv'或'tsv'格式,每种格式的文件都
RAG类是一个用于集成检索增强生成(Retrieval-Augmented Generation)模型的Python类,它封装了一系列方法来处理文本数据、生成回答并进行索引。以下是对RAG类各个方法的摘要介绍: __init__: 构造函数,用于初始化RAG类的实例。它接受模型
使用Python的tree-sitter库对C语言生成AST树,并进行静态分析,递归遍历AST节点生成程序控制流图、数据流图,并根据图算法计算出控制依赖关系,得到代码属性图,并从漏洞行开始,经过前向、后向传播生成漏洞切片。 为每种属性图设计对应对象,使用graphviz可视化图
Autoxjs Autoxjs用于app自动化,文件夹里面有记录.md总结了环境的搭建以及操作的一些技巧,api中包含一些常用的api函数 点击指定坐标点——click.js 获取截图——capture.js 通过OCR匹配图片位置——matchPicture.js