眙宝(上海)光电有限公司在上海张江高科技园区,成立国内高端AI算力设备服务团队,专注於GPU伺服器检测、硬体晶片维修与售后维保服务,能够为客户提供全方位的AI算力设备维修与维保的全方位解决方案,并备有自身研发产品,为客户量订做的AI健康诊断和实时决策系统。
基於多年伺服器维保经验,开发了先进的AI一体机系统主动监测平台,为客户提供全方位的AI伺服器全生命周期健康管理服务。
1 AI一体机系统软体架构
我司自主研发的AI一体机智能监控系统采用多层架构设计,集成了先进的AI技术,能够实现对GPU伺服器的全天候主动监测、预警和智慧诊断。
系统架构主要包括:
1.1 维修管理平台:整合设备管理、故障跟踪、维修流程管理等功能的顶层应用平台
1.2 API层:
- 专业测试API:提供标准化测试介面
- 知识库检索API:智慧检索故障解决方案
- 报告生成API:自动生成维修和测试报告
- 对话交互API:支援技术人员与系统交互
1.3 专业测试设备层:
- 自动测试系统:执行标准化测试流程
- 视觉检测系统:识别硬体外观异常
- 资料获取系统:收集伺服器运行资料
- AR辅助系统:辅助现场技术操作
1.4 CteEdge-N边缘运算推理系统**:
- Worker架构设计
- 实现当地语系化AI推理能力
1.5 资料型AI 平台:
- 专注於资料处理和模型训练
- 为故障预测和预防性维护提供支援
2 AI监控管理平台模型训练资料流程
我司的AI主动监测系统具有完整的资料流程闭环,通过以下方式实现智慧化资料获取,仪表视觉化监测和潜在系统风险预警:
2.1 资料收集:
- 从客户现场设备收集运行资料
- 通过专业测试设备获取测试资料
- 历史故障维修记录整合
2.2 资料处理与分析:
- 测试资料通过 API层传送至AI训练平台
- 利用AI模型进行资料分析和异常检测
- 模型训练成果部署到CteEdge-N边缘推理系统
2.3预测性维护:
- 即时监测设备运行状态
- 预测潜在故障风险
- 自动生成预防性维护建议
3 AI预训练平台功能
我司AI一体机系统软体架构的核心优势在於其预训练平台:
3.1 基於API的核心层:
- 包含专业测试、知识库检索、报告生成和对话交互等API
- 提供与协力厂商系统集成的标准介面
3.2 AI模型预训练平台:
- 资料型AI SaaS平台
- 专注於资料处理、模型训练和部署
- 提供回归、分类、时间序列、异常检测等分析工具
- 具备30种以上AI训练模型整合训练
3.3 系统整合优势:
- 互补性整合:AI模型提供资料处理和异常检测底层支援,系统专注於测试执行和视觉检测
- API层整合:提供SDK API,可整合到客户的AI一体机系统中
- 资料流程整合:实现资料获取、分析和报告生成的完整闭环
4 主动监测服务内容
作为维保服务的一部分,我司提供的AI主动监测服务包括:
4.1 即时性能监测:
- GPU利用率和性能指标监控
- 温度和功耗即时监测
- 网路连接状态监控
- 存储性能监测
4.2 异常行为检测:
- 基於AI模型的异常模式识别
- 与历史资料对比分析
- 针对特定GPU型号的优化检测规则
4.3 预警机制:
- 多级预警系统(一般、重要、严重)
- 自订预警阈值设置
- 多管道通知(短信、邮件、系统通知)
- 预警事件追踪管理
4.4故障预测:
- 基於历史资料和故障模式的预测分析
- 部件寿命预测
- 性能退化趋势分析
- 预防性维护建议生成
4.5 智能报告生成:
- 定期健康状况报告
- 故障分析报告
- 性能优化建议报告
- 设备使用效率分析报告
5 部署方案
根据客户需求,我司提供两种主要部署模式:
5.1 本地部署方案:
- CteEdge-N系统部署在客户本地环境
- 支援客户伺服器、PostgreSQL/MySQL/MSSQL资料库
- 提供完全当地语系化的资料处理能力
- 适合资料安全要求高的客户
系统架构图

5.2 混合云部署方案:
- 客户服务器与CTE云服务相结合
- 数据库、AI训练平台和CteEdge-N组件云端协同
- 提供更高的扩展性和灵活性
- 适合需要远程管理的分布式服务器集群
系统架构图
