1. 了解常用的 OCR 方法,如 CTPN,EAST,PSENet,PANNet,DBNet,CRNN,LayoutXLM*。
2. 熟悉深度学习基本原理,如目标检测,图像分类,图像分割,并有丰富实战经验。
3. 了解 stable diffusion 原理,具备基于 SD 的文生图,图像风格迁移,图像局部修改等能力。
4. 熟悉基于 lora的 stable diffusion 模型微调原理,并有实战经验。
5. 熟悉 Pytorch和 PaddlePaddle 框架。
6. 具有良好的论文阅读和代码能力。
1. 参与PaddleOCR 开源repo建设,将PaddleOCR star从2.5k提升到30k,成为业界第一开源OCR库。
2. 参与研发PP-OCRv2,使用CopyPaste策略帮助检测模型在内部数据集上提升1%。
3. 深度参与PP-Structure和PP-StructureV2系列模型研发,完成PP-Structure系列模型大部分研发工作。重点负责的表格识别模型SLANet在10M大小内做到速度和精度的平衡,在PubTabNet表格数据集上精度达到77.74%,达到SOTA。
4. 复现LayoutXLM系列算法,补全PaddleOCR在KIE任务领域的短版。
5. 负责PaddleOCR的whl、hub serving、cpp、lite和Android等部署方式的开发和维护。