缺陷检测模型分布训练系统

基本信息

案例ID:225162

技术顾问:阿月 - 10年经验 - 华为

联系沟通

微信扫码,建群沟通

项目名称:缺陷检测模型分布训练系统

所属行业:人工智能 - 智能硬件

->查看更多案例

案例介绍

以下是去掉代码后的项目介绍,精简到1000字以内:
项目概述
本项目旨在构建一个分布式深度学习训练系统,涵盖客户端、主服务器和从服务器,实现用户登录、数据上传、任务管理、模型训练、监控与可视化等功能。系统支持高并发、易扩展和高容错的训练任务处理,适用于大规模深度学习任务的分布式管理。
客户端功能(PyQt)
客户端基于PyQt开发,提供用户登录、数据上传和任务状态查看功能。用户通过账号密码登录,获取JWT令牌以验证身份。数据上传模块支持多线程上传标注数据压缩包,并提交包含用户信息和任务参数的训练请求。任务状态查看模块定期查询主服务器,以表格形式展示任务列表,支持按状态、提交时间排序和筛选功能。
主服务器功能(Django + Nginx + Kafka + NFS + Prometheus + Grafana)
主服务器采用Django框架,结合Nginx、Kafka、NFS、Prometheus和Grafana,实现用户管理、任务管理、数据存储、监控与可视化功能。
使用Django内置用户认证系统,支持用户注册、登录和权限分配。管理员可通过Django Admin界面操作用户数据,实现灵活的用户角色管理。
主服务器接收客户端的训练请求,解析任务信息并存储到数据库中。任务通过Kafka队列管理,分发给从服务器。系统提供任务状态查询接口,返回任务的当前状态,包括任务ID、提交时间、状态、预计完成时间和结果路径等信息。
使用NFS构建共享存储,上传的训练数据存储在主服务器的/nfs/data/<user_id>/<project_id>路径下,供从服务器拉取。任务信息中包含数据路径,确保从服务器能够高效获取所需数据。
监控与可视化
Prometheus用于监控主服务器和从服务器的运行状态,包括CPU、内存、磁盘等指标。Grafana集成用于展示系统运行状态、任务轨迹和性能数据,支持系统状态、任务状态和历史统计的可视化。通过Django模板,将Grafana仪表盘嵌入到管理界面,实现直观的系统监控。
从服务器负责任务执行和状态监控。通过Kafka消费任务,从NFS拉取数据,执行深度学习模型训练,并将结果上传到主服务器。从服务器运行Prometheus Node Exporter监控资源使用情况,并将任务执行状态上传到Kafka,供主服务器监控。

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服