Aximmetry双卡算力解耦

在 4K/8K 广播级虚拟制片(VP)的极端工况下,技术团队在单台工作站上经常会遭遇“GPU 算力红线”

当你在虚幻引擎 5(UE5)中开启了 Lumen、全动态光追和 Nanite,并试图渲染一个电影级复杂场景时,GPU 的使用率已经逼近 90%。 此时,如果你还要在这张 GPU 上同时运行以下任务:

  • 接收两路 4K 60fps 10-bit 的 SDI 物理相机输入;
  • 运行高精度、亚像素级的实时高级绿幕抠像(Chroma Keyer);
  • 进行 3D 深度图合成、重畸变(Redistort)与 3D 垃圾遮罩计算;
  • 最终输出一路 4K 60fps 视频到转播车。

这会导致 GPU 的显存带宽饱和(VRAM Bandwidth Saturation)与 PCIe 物理总线阻塞

在单 GPU 架构下,UE5 繁重的 3D 渲染线程与高吞吐量的视频 I/O 线程会在显卡内部激烈争夺 CUDA 核心与 DMA(直接内存访问)通道。 这种资源抢占会直接引发物理级的微小掉帧(Micro-stuttering),甚至导致 Direct3D12 驱动响应超时,引发毁灭性的“D3D12 Device Lost(显卡驱动崩溃崩溃)”,使直播瞬间黑屏。

原生的 UE5 对多显卡(Multi-GPU)的并行渲染支持极差(SLI 技术已死,DX12 mGPU 门槛极高且极不稳定)。

Aximmetry 凭借其工业级的 “双 GPU 异构算力解耦(Dual-GPU Offloading)” 拓扑架构,彻底斩断了 3D 渲染与视频 I/O 之间的资源纠缠。


一、 物理隔离:GPU 亲和性(Affinity)的底层划分

Aximmetry 解决算力争夺的第一步,是在操作系统底层对硬件进行“物理划区”。

在 Aximmetry 的系统设置中,工程师可以启用硬核的 GPU 亲和性(GPU Affinity) 调度策略:

1. GPU 0:专属 3D 渲染沙盒

Aximmetry 将第一张显卡(如 RTX 6000 Ada)完全、干净地分配给虚幻引擎 5。 在运行期,UE5 只能“看见”并使用 GPU 0。 它所有的 VRAM(显存)和 CUDA 算力被 100% 用于计算复杂的 3D 几何、Lumen 光场和材质着色。 任何视频采集、抠像和输出任务绝不占用 GPU 0 的半点带宽。

2. GPU 1:专属 I/O 与合成引擎

Aximmetry 将第二张显卡分配给自己。 Aximmetry 极其强悍的二维/三维混合合成引擎、SDI/NDI 视频输入输出流控制、实时 Keyer(色键器)以及后处理色彩查找表(LUT)计算,全部运行在 GPU 1 的物理芯片上。

这种“一国两制”的物理隔离,确保了即使 UE5 在渲染极其复杂的场景时发生瞬时卡顿,Aximmetry 负责的广播级视频输出流依然能以绝对稳定的 59.94Hz 锁相输出,绝不会向播出端发送任何一帧损坏的信号。


二、 显卡直连:基于 P2P 的零 CPU 拷贝跨卡传输

既然渲染和合成被拆分到了两张不同的显卡上,那么就面临一个避无可避的问题:如何将 GPU 0 渲染好的 3D 虚拟背景,传输到 GPU 1 上进行最终的抠像合成?

传统的 Windows 驱动架构下,跨卡传输需要经历极其愚蠢的“回传路径”: GPU 0 显存 -> PCIe 总线 -> 系统内存(CPU) -> PCIe 总线 -> GPU 1 显存。 这种二次转译不仅延迟极高,而且会瞬间吃满 PCIe 总线带宽,导致严重的帧延迟(Frame Latency)。

Aximmetry 采用了底层的 PCIe 对等传输(Peer-to-Peer / P2P) 与 DirectGMA 技术:

1. 绕过 CPU 的物理直连

在硬件支持(如支持 NVLink,或在 PCIe 4.0/5.0 槽位启用 Resizable BAR)的前提下,Aximmetry 直接在两张显卡之间建立了一条显卡物理对等通道

2. 显存直接映射(Memory Mapping)

Aximmetry 将 GPU 0 渲染出的最终三维画布(Render Target),直接映射到 GPU 1 的物理寻址空间中。 GPU 1 在进行抠像合成时,通过 PCIe 总线,直接、无感地读取 GPU 0 显存中的像素数据。 整个传输过程完全由显卡上的 DMA 控制器硬件级完成,CPU 占用率为 0%,数据传输延迟被压缩到了近乎物理极限的微秒级。


三、 动态负载均衡:榨干双卡算力的最优配置

在双卡解耦架构下,Aximmetry 还允许技术总监在流图(Flow Graph)中进行精细化的负载均衡(Load Balancing)配置,以应对不同的拍摄需求:

1. 重载抠像分流

如果现场使用的是 4K 120fps 的超高规格实拍信号,抠像的计算量呈几何级上升。 Aximmetry 会自动将高斯模糊、边缘羽化和暗角补偿等重度后处理着色器(Shaders)调度到 GPU 1 上运行,确保 GPU 0(UE5)能平稳输出。

2. 轻载自适应合并

在不需要极致性能的轻量场景中,Aximmetry 的动态调度器也可以随时将两张显卡合并使用,通过合理分配渲染管线(Render Pipelines),实现能效比的最大化。


结语:榨干硬件的工业级稳压器

在现场直播(Live Production)这片不容许有一丝差错的战场上,“单卡包揽一切”的暴力渲染模式,在面对极限画质与广播级高带宽 I/O 的双重夹击时,注定会成为最危险的系统定时炸弹。

虚幻引擎 5 是一个高能的视觉巨兽,它需要被精细地投喂与保护,而不是被杂乱的外部信号榨干最后一丝力气。

Aximmetry 凭借双卡算力解耦这一硬核架构,充当了系统中最完美的“工业级稳压器”

它通过 GPU 亲和性硬性隔离渲染与 I/O、利用 P2P 显存直连技术消灭跨卡传输延迟,将工作站的物理硬件效能压榨到了极致。 在 Aximmetry 的统御下,虚虚实实的两路算力在各自的轨道上高速奔跑,相互借力却互不干扰,共同撑起了一面兼具极致画质与钢铁般稳定性的电影级实时视界。

AeroCore 이미지