眙寶(上海)光電有限公司在上海張江高科技園區,成立國內高端AI算力設備服務團隊,專注於GPU伺服器檢測、硬體晶片維修與售後維保服務,能夠為客戶提供全方位的AI算力設備維修與維保的全方位解決方案,並備有自身研發產品,為客戶量訂做的AI健康診斷和實時決策系統。
基於多年伺服器維保經驗,開發了先進的AI一體機系統主動監測平臺,為客戶提供全方位的AI伺服器全生命週期健康管理服務。
1 AI一體機系統軟體架構
我司自主研發的AI一體機智能監控系統採用多層架構設計,集成了先進的AI技術,能夠實現對GPU伺服器的全天候主動監測、預警和智慧診斷。
系統架構主要包括:
1.1 維修管理平臺:整合設備管理、故障跟蹤、維修流程管理等功能的頂層應用平臺
1.2 API層:
- 專業測試API:提供標準化測試介面
- 知識庫檢索API:智慧檢索故障解決方案
- 報告生成API:自動生成維修和測試報告
- 對話交互API:支援技術人員與系統交互
1.3 專業測試設備層:
- 自動測試系統:執行標準化測試流程
- 視覺檢測系統:識別硬體外觀異常
- 資料獲取系統:收集伺服器運行資料
- AR輔助系統:輔助現場技術操作
1.4 CteEdge-N邊緣運算推理系統**:
- Worker架構設計
- 實現當地語系化AI推理能力
1.5 資料型AI 平臺:
- 專注於資料處理和模型訓練
- 為故障預測和預防性維護提供支援
2 AI監控管理平臺模型訓練資料流程
我司的AI主動監測系統具有完整的資料流程閉環,通過以下方式實現智慧化資料獲取,儀錶視覺化監測和潛在系統風險預警:
2.1 資料收集:
- 從客戶現場設備收集運行資料
- 通過專業測試設備獲取測試資料
- 歷史故障維修記錄整合
2.2 資料處理與分析:
- 測試資料通過 API層傳送至AI訓練平臺
- 利用AI模型進行資料分析和異常檢測
- 模型訓練成果部署到CteEdge-N邊緣推理系統
2.3預測性維護:
- 即時監測設備運行狀態
- 預測潛在故障風險
- 自動生成預防性維護建議
3 AI預訓練平臺功能
我司AI一體機系統軟體架構的核心優勢在於其預訓練平臺:
3.1 基於API的核心層:
- 包含專業測試、知識庫檢索、報告生成和對話交互等API
- 提供與協力廠商系統集成的標準介面
3.2 AI模型預訓練平臺:
- 資料型AI SaaS平臺
- 專注於資料處理、模型訓練和部署
- 提供回歸、分類、時間序列、異常檢測等分析工具
- 具備30種以上AI訓練模型整合訓練
3.3 系統整合優勢:
- 互補性整合:AI模型提供資料處理和異常檢測底層支援,系統專注於測試執行和視覺檢測
- API層整合:提供SDK API,可整合到客戶的AI一體機系統中
- 資料流程整合:實現資料獲取、分析和報告生成的完整閉環
4 主動監測服務內容
作為維保服務的一部分,我司提供的AI主動監測服務包括:
4.1 即時性能監測:
- GPU利用率和性能指標監控
- 溫度和功耗即時監測
- 網路連接狀態監控
- 存儲性能監測
4.2 異常行為檢測:
- 基於AI模型的異常模式識別
- 與歷史資料對比分析
- 針對特定GPU型號的優化檢測規則
4.3 預警機制:
- 多級預警系統(一般、重要、嚴重)
- 自訂預警閾值設置
- 多管道通知(短信、郵件、系統通知)
- 預警事件追蹤管理
4.4故障預測:
- 基於歷史資料和故障模式的預測分析
- 部件壽命預測
- 性能退化趨勢分析
- 預防性維護建議生成
4.5 智能報告生成:
- 定期健康狀況報告
- 故障分析報告
- 性能優化建議報告
- 設備使用效率分析報告
5 部署方案
根據客戶需求,我司提供兩種主要部署模式:
5.1 本地部署方案:
- CteEdge-N系統部署在客戶本地環境
- 支援客戶伺服器、PostgreSQL/MySQL/MSSQL資料庫
- 提供完全當地語系化的資料處理能力
- 適合資料安全要求高的客戶
系统架构图

5.2 混合云部署方案:
- 客户服务器与CTE云服务相结合
- 数据库、AI训练平台和CteEdge-N组件云端协同
- 提供更高的扩展性和灵活性
- 适合需要远程管理的分布式服务器集群
系统架构图
