研究成果:一篇以第一作者IF:5的SCI ii区论文已发表,一篇以第三作者IF:4的SCI vi区已录用未见刊,两篇专利
研究方向:Image Captioning,Video Captioning, Medical Report Generation
实习经验:科大讯飞华南人工智能研究院-助力核心技术研究员;
即将入职:广州汽车集团汽车工程研究院(广汽研究院)
一年的研究实习经验:具备网络模型搭建、复现网络模型、算法流程分享等经验
编程能力:具备pytorch框架搭建网络模型、调优;理解theano、tensorflow等框架代码;C语言编程等经验
比赛经历:在信也科技杯、讯飞AI平台和kaggle平台的算法比赛中,取得较为优异的成绩
基本素质:具备强抗压能力;对科研富有激情及兴趣;不畏难且热衷于挑战新事物;具备一定的逻辑思维能力和创新能力;饱有团队合作精神和责任感;较强的拼搏和奋斗精神
21.05-10 科大讯飞华南人工智能研究院 助理核心技术研究员
1、个人参与第六届信也科技杯图像算法大赛-智能零售柜商品识别
① 从无到有搭建三个比赛 baseline (SSD+VGG16+cosine_similarity, Yolov5+PCB_RPP 和
Yolov5+face_recognition)
② 工程实践 baseline 的可视化分析,并针对误判例做出相应的调整措施(模型 trick 微调)
③ 优化代码和调整模型参数,进一步加速推理并减少显存占用
2、调研并微调 Novel Image Captioning 和 Vision-Language Pre-training 任务的
SOTA 方法
① 研究并复现 nocaps_updown_baseline, VinVL 和 OSCAR 模型
② 针对 VinVL 模型设计进一步的微调策略应用于 Nocaps 任务,并展示和分享其模型和方法
In the field of computer vision, it is a challenging task to generate natural language captions from videos as input. To deal with this task
nnUNet的出现,一棒子打死了近年来所有的新的网络结构。作者认为网络结构上的改进并没有什么用,应该更多的关注结构以外的部分,比如预处理、训练和推理策略、后处理等部分。 目前为止nnUNet的代码已经被很多地方使用并且证明了它的效果,这不禁引起我们的深思,确实网络结构在这么