Aximmetry双卡算力解耦

2026年6月3日 Aximmetry 튜토리얼 AximmetryCN

在 4K/8K 广播级虚拟制片（VP）的极端工况下，技术团队在单台工作站上经常会遭遇“GPU 算力红线”。

当你在虚幻引擎 5（UE5）中开启了 Lumen、全动态光追和 Nanite，并试图渲染一个电影级复杂场景时，GPU 的使用率已经逼近 90%。此时，如果你还要在这张 GPU 上同时运行以下任务：

接收两路 4K 60fps 10-bit 的 SDI 物理相机输入；
运行高精度、亚像素级的实时高级绿幕抠像（Chroma Keyer）；
进行 3D 深度图合成、重畸变（Redistort）与 3D 垃圾遮罩计算；
最终输出一路 4K 60fps 视频到转播车。

这会导致 GPU 的显存带宽饱和（VRAM Bandwidth Saturation）与 PCIe 物理总线阻塞。

在单 GPU 架构下，UE5 繁重的 3D 渲染线程与高吞吐量的视频 I/O 线程会在显卡内部激烈争夺 CUDA 核心与 DMA（直接内存访问）通道。这种资源抢占会直接引发物理级的微小掉帧（Micro-stuttering），甚至导致 Direct3D12 驱动响应超时，引发毁灭性的“D3D12 Device Lost（显卡驱动崩溃崩溃）”，使直播瞬间黑屏。

原生的 UE5 对多显卡（Multi-GPU）的并行渲染支持极差（SLI 技术已死，DX12 mGPU 门槛极高且极不稳定）。

Aximmetry 凭借其工业级的 “双 GPU 异构算力解耦（Dual-GPU Offloading）” 拓扑架构，彻底斩断了 3D 渲染与视频 I/O 之间的资源纠缠。

一、物理隔离：GPU 亲和性（Affinity）的底层划分

Aximmetry 解决算力争夺的第一步，是在操作系统底层对硬件进行“物理划区”。

在 Aximmetry 的系统设置中，工程师可以启用硬核的 GPU 亲和性（GPU Affinity）调度策略：

1. GPU 0：专属 3D 渲染沙盒

Aximmetry 将第一张显卡（如 RTX 6000 Ada）完全、干净地分配给虚幻引擎 5。在运行期，UE5 只能“看见”并使用 GPU 0。它所有的 VRAM（显存）和 CUDA 算力被 100% 用于计算复杂的 3D 几何、Lumen 光场和材质着色。任何视频采集、抠像和输出任务绝不占用 GPU 0 的半点带宽。

2. GPU 1：专属 I/O 与合成引擎

Aximmetry 将第二张显卡分配给自己。 Aximmetry 极其强悍的二维/三维混合合成引擎、SDI/NDI 视频输入输出流控制、实时 Keyer（色键器）以及后处理色彩查找表（LUT）计算，全部运行在 GPU 1 的物理芯片上。

这种“一国两制”的物理隔离，确保了即使 UE5 在渲染极其复杂的场景时发生瞬时卡顿，Aximmetry 负责的广播级视频输出流依然能以绝对稳定的 59.94Hz 锁相输出，绝不会向播出端发送任何一帧损坏的信号。

二、显卡直连：基于 P2P 的零 CPU 拷贝跨卡传输

既然渲染和合成被拆分到了两张不同的显卡上，那么就面临一个避无可避的问题：如何将 GPU 0 渲染好的 3D 虚拟背景，传输到 GPU 1 上进行最终的抠像合成？

传统的 Windows 驱动架构下，跨卡传输需要经历极其愚蠢的“回传路径”： GPU 0 显存 -> PCIe 总线 -> 系统内存（CPU） -> PCIe 总线 -> GPU 1 显存。这种二次转译不仅延迟极高，而且会瞬间吃满 PCIe 总线带宽，导致严重的帧延迟（Frame Latency）。

Aximmetry 采用了底层的 PCIe 对等传输（Peer-to-Peer / P2P）与 DirectGMA 技术：

1. 绕过 CPU 的物理直连

在硬件支持（如支持 NVLink，或在 PCIe 4.0/5.0 槽位启用 Resizable BAR）的前提下，Aximmetry 直接在两张显卡之间建立了一条显卡物理对等通道。

2. 显存直接映射（Memory Mapping）

Aximmetry 将 GPU 0 渲染出的最终三维画布（Render Target），直接映射到 GPU 1 的物理寻址空间中。 GPU 1 在进行抠像合成时，通过 PCIe 总线，直接、无感地读取 GPU 0 显存中的像素数据。整个传输过程完全由显卡上的 DMA 控制器硬件级完成，CPU 占用率为 0%，数据传输延迟被压缩到了近乎物理极限的微秒级。

三、动态负载均衡：榨干双卡算力的最优配置

在双卡解耦架构下，Aximmetry 还允许技术总监在流图（Flow Graph）中进行精细化的负载均衡（Load Balancing）配置，以应对不同的拍摄需求：

1. 重载抠像分流

如果现场使用的是 4K 120fps 的超高规格实拍信号，抠像的计算量呈几何级上升。 Aximmetry 会自动将高斯模糊、边缘羽化和暗角补偿等重度后处理着色器（Shaders）调度到 GPU 1 上运行，确保 GPU 0（UE5）能平稳输出。

2. 轻载自适应合并

在不需要极致性能的轻量场景中，Aximmetry 的动态调度器也可以随时将两张显卡合并使用，通过合理分配渲染管线（Render Pipelines），实现能效比的最大化。

结语：榨干硬件的工业级稳压器

在现场直播（Live Production）这片不容许有一丝差错的战场上，“单卡包揽一切”的暴力渲染模式，在面对极限画质与广播级高带宽 I/O 的双重夹击时，注定会成为最危险的系统定时炸弹。

虚幻引擎 5 是一个高能的视觉巨兽，它需要被精细地投喂与保护，而不是被杂乱的外部信号榨干最后一丝力气。

Aximmetry 凭借双卡算力解耦这一硬核架构，充当了系统中最完美的“工业级稳压器”。

它通过 GPU 亲和性硬性隔离渲染与 I/O、利用 P2P 显存直连技术消灭跨卡传输延迟，将工作站的物理硬件效能压榨到了极致。在 Aximmetry 的统御下，虚虚实实的两路算力在各自的轨道上高速奔跑，相互借力却互不干扰，共同撑起了一面兼具极致画质与钢铁般稳定性的电影级实时视界。