1、项目内容:该平台采用前后端分离的架构设计,数据同步部分使用 Flask 框架、Mysql 数据库和 Redis 缓存。主要模块包括数据同步模块、数据标注模块、数据质检模块、数据管理和统计模块以及数据备份模块。
2、项目难点:由于该平台属于大型项目,数据同步流程包含17个节点,整体流程复杂。解决方案是开发一套单独的流程控制服
务,用于统筹和监控数据同步流程,每个节点的开始和完成都需要上报到该服务,再由该服务进行流程状态的流转。此外,同步的
数据量达到了百万级别,对高并发要求较高。解决方案是使用 Redis 消息队列和 Celery 分布式架构。
3、项目业绩:
1. 成功将标注工作迁移到线上,显著提升了标注团队的工作效率。
2. 通过深度优化,确保了在高并发环境下,服务能够稳定运行并进行数据同步。
3. 实现了累计49个项目、15316个数据包的平台数据同步,涵盖了超过200万张图片。