gkket 发表于 前天 23:44

边缘-云协同的工业 AI 运维 MLOps 参考架构


目录
1 需求:OT 严苛环境倒逼“边缘原生”
2 架构总览:四层两线
2.1 边缘推理节点(IEC 61499 函数块封装)
2.2 边缘训练节点(KubeEdge+Volcano 混部)
2.3 云侧特征中心(DeltaLake+Feature Store)
2.4 云侧重训工厂(Ray 2.9+GPU 池)
3 数据双主线:OT 时序线 vs IT 元数据线
4 安全:零信任+OPC UA 内置加密
5 案例:光伏切片车间 1200 台边缘网关落地
6 未来:把 MLOps 压缩到 16 MB 闪存,实现“单片机级”更新


边缘-云协同的工业 AI 运维 MLOps 参考架构

1 需求:OT 严苛环境倒逼“边缘原生”
2025 年工厂现场出现“三高一限”——高粉尘、高电磁、高温及带宽受限。传统“云端集中训练+下发模型”模式在 200 ms 以内闭环场景频频失效,倒逼 MLOps 必须原生扎根边缘。
2 架构总览:四层两线
我们把整条管线拆成“边缘推理-边缘训练-云特征中心-云重训工厂”四层,同时维护“OT 时序数据”与“IT 元数据”两条主线,实现模型全生命周期可管、可控、可回滚。
2.1 边缘推理节点(IEC 61499 函数块封装)

[*]硬件:Intel Core i7-13800HE + 32 GB LPDDR5,-40 ℃~70 ℃无风扇
[*]推理引擎:OpenVINO™ 2025.0,INT8 量化后 YOLOv8n 仅 3.4 MB
[*]OT 集成:功能块符合 IEC 61499,可直接拖进 CODESYS 运行,PLC 程序员无感调用 AI
2.2 边缘训练节点(KubeEdge+Volcano 混部)

[*]轻量 k8s:KubeEdge 1.19 裁剪版,内存占用 < 1 GB
[*]调度:Volcano 提供 GPU/CPU 混部,白天推理、夜晚训练,GPU 利用率从 22% 提升到 68%
[*]数据:只上传“不确定性>0.7”的难例,带宽节省 85%
2.3 云侧特征中心(DeltaLake+Feature Store)

[*]存储:DeltaLake 3.2,支持 ACID,方便数据版本与回滚
[*]特征:统一 Protobuf Schema,OT 时序与 MES 质量标签自动对齐
[*]血缘:OpenLineage 0.42,实现“特征→模型→服务”全链路追踪
2.4 云侧重训工厂(Ray 2.9+GPU 池)

[*]框架:Ray Train 做分布式微调,Llama-3-8B 增量训练 3 小时完成
[*]发布:模型经 MLflow 注册→ONNX→加密签名→OTA 下发,边缘校验 SHA-256 后热加载,零停机
3 数据双主线:OT 时序线 vs IT 元数据线

[*]OT 线:MQTT over TLS 1.3,单点 10 kHz 振动流通过 MQTT 5 共享订阅,毫秒级到达边缘节点
[*]IT 线:REST/gRPC 拉取 MES、CMMS 元数据,用于标签对齐与因果推理
两线在云侧“时间对齐服务”按 1 ms 粒度拼接,解决“OT 时钟漂移”顽疾
4 安全:零信任+OPC UA 内置加密

[*]设备证书:X.509 短周期证书,24 h 自动轮转
[*]零信任:每次 RPC 调用携带 JWT+设备指纹,非法设备即使拿到 IP 也无法建连
[*]OPC UA:算法模型作为“方法节点”挂载,调用前需经过 Role-Based 授权
5 案例:光伏切片车间 1200 台边缘网关落地
2025-01 在某头部光伏企业上线,场景为 0.08 mm 硅片裂纹检测。

[*]数据:单台相机 2048×1536@150 fps,每天产生 2.3 TB 图像,全部本地推理
[*]成效:
– 模型更新周期从 7 天缩至 16 h
– 边缘-云难例上传流量由 280 Mbps 降至 42 Mbps
– 裂纹过检率 ↓38%,每年节省硅料 210 万元
6 未来:把 MLOps 压缩到 16 MB 闪存,实现“单片机级”更新
正在探索“权重剪枝+知识蒸馏”双压缩,目标把 8 MB 模型+8 MB 运行时装进 Cortex-M7 单片机,直接部署在 IO-Link 微型网关,让每一颗传感器都拥有“自学习”能力。


页: [1]
查看完整版本: 边缘-云协同的工业 AI 运维 MLOps 参考架构