Notebookcheck Logo

Nvidia GeForce RTX 5090 背离 RTX 3090 Ti 和 RTX 4090 旗舰版传统,放弃专业工作负载的 VRAM ECC

您不再能在 RTX 5090 Blackwell GPU 上切换 ECC 状态
您不再能在 RTX 5090 Blackwell GPU 上切换 ECC 状态
令人奇怪的是,Nvidia 在 RTX 5090 中取消了通过驱动程序切换 VRAM ECC 状态的选项。RTX 3090 Ti 和 RTX 4090 等显卡允许通过驱动程序打开 ECC 状态,以提高专业工作负载的内存可靠性,尽管这些显卡使用的是 "软 ECC",而不是专用的片上 ECC 内存芯片。
Desktop GPU Review Snippet

自 Ampere 时代以来,Nvidia 已将其旗舰产品 泰坦显卡,90 系列产品主要面向专业游戏玩家。

该系列 GeForce RTX 5090的 GB202 GPU 在硬件方面比 RTX 4090的 AD102 和 RTX 3090 TiGA102 GPU 相比,RTX 5090 的 GB202 GPU

虽然 RTX 3090 Ti 和 RTX 4090 都提供了在驱动程序中切换 VRAM ECC 状态的选项,但令人奇怪的是,RTX 5090 却没有这个选项。

究竟什么是 ECC 内存?

ECC 是纠错码的缩写,是一种能使内存自我纠错的技术。如果在数据传输过程中出现位翻转,或在内存单元卸载和补充电荷时数据中出现错误,就会产生内存错误。

自我纠错是由专门的第九内存芯片完成的,该芯片检查 RAM 模块上其他八个芯片之间的奇偶校验(称为片上 ECC),或者在内存控制器一级完成(DRAM ECC)。

消费类 DDR5 系统内存支持 ECC,但并非完全支持。默认情况下,DDR5 内存可检测多位错误,但只能通过内置数据检查纠正单位错误。

由于 DDR5 将 64 位内存拆分为两个 32 位子通道的基本方式,DDR5-ECC 内存采用 72 位 (32+4) EC4 或 80 位 (32+8) EC8 模块。

大多数消费类应用很少需要 ECC 内存。如果您对这个术语不确定,那么您可能并不需要 ECC 内存。

不过,ECC 内存在关键任务和机器学习应用中至关重要,因为在这些应用中,数据完整性必须在整个链条中得到维护。

早在 1999 年,Google 就意识到了这一点 ,当时由于内存损坏,吝啬使用 ECC 内存极大地影响了搜索引擎的性能。

GDDR6X 上的 EDR 可降低 VRAM 超频时崩溃的可能性。(图片来源:Nvidia)
GDDR6X 上的 EDR 可降低 VRAM 超频时崩溃的可能性。(图片来源:Nvidia)

所有采用 GDDR5 和 GDDR6/6X VRAM 的 GPU 都有一种检测内存错误的方法,称为错误检测代码 (EDC)。

Nvidia GPU 将此功能称为错误检测和重放 (EDR),这是一种在执行循环冗余检查 (CRC) 后请求内存控制器重新传输位的方法。

EDR 有助于在 VRAM 超频时最大限度地减少像素伪影,但可能会稍微影响性能。

启用 ECC 对性能的影响

RTX 3090 Ti 和 RTX 4090 实现了一种称为 "软 ECC "的功能。这种方法不涉及用于保持奇偶校验的独立芯片;相反,启用该功能会分配一部分 VRAM,使其发挥类似于片上 ECC 模块的功能。

因此,可用的 VRAM 总容量和内存速度都会降低。就 RTX 4090 而言,可用 VRAM 从 24 GB 减少到 22.5 GB,其中 1.5 GB 用于 ECC 功能。

1.为 ECC 分配了 5 GB VRAM
1.为 ECC 分配了 5 GB VRAM
这也反映在任务管理器中
这也反映在任务管理器中

切换 ECC 状态对性能的影响如下所示。在 RTX 4090 上激活 ECC 后,3DMark Speed Way 分数降低了 6.4%,而Cyberpunk 2077 2.21 Phantom Liberty的平均帧数降低了约 5%。

性能受影响的程度因工作负载而异。

RTX 4090 的 3DMark 速度之道
RTX 4090 的 3DMark 速度之道
启用 ECC 时分数下降
启用 ECC 时分数下降
赛博朋克 2077》2.21 4K RT Ultra(无 DLSS/FG)在 RTX 4090 上的表现
赛博朋克 2077》2.21 4K RT Ultra(无 DLSS/FG)在 RTX 4090 上的表现
开启 ECC 时性能略有下降
开启 ECC 时性能略有下降

RTX 5090 的 GDDR7 VRAM 正式符合片上 ECC 规范

随着 GDDR7 的推出,JEDEC 将片上 ECC 作为 VRAM 规范的一部分,并考虑到更高的内存密度会增加出错的可能性。GDDR7 采用了带有透明协议的片上 ECC,该协议可将遇到的错误类型通知内存控制器。

据 JEDEC 称,GDDR7 能够 100% 纠正 1 位错误,100% 检测到 2 位错误,但对于罕见的 3 位错误,检测率略有下降,仅为 99.3%。

此外,官方规范还包括命令地址奇偶校验与命令阻塞(CAPARBLK),以进一步提高命令地址总线的可靠性。

GDDR7 VRAM 上的片上 ECC 概述。(转载自 JEDEC 文件 JESD239A)
GDDR7 VRAM 上的片上 ECC 概述。(转载自 JEDEC 文件 JESD239A)

不过,尚不清楚 Blackwell 的内存控制器是否默认使用这种片上 ECC 功能。

RTX 5090 的 512 位 GDDR7 内存在快速 28 Gbps 时钟下的额定带宽为 1.792 TB/s,这有可能导致传输错误。此外,Nvidia 将 RTX 5090 推向人工智能工作流,在训练大型数据集时可以受益于 ECC。

尽管如此,Nvidia 的架构白皮书只提到了对 "用于可靠性、可用性和可维护性(RAS)的增强循环冗余校验(CRC)"的支持,这与 ECC 并不相同。

虽然可以肯定的是,Nvidia 将为传闻中的 Blackwell 工作站 GPU 启用 GDDR7 的片上 ECC 功能。不过,ECC 状态切换功能是否会通过未来的驱动程序或 VBIOS 更新应用到消费级 RTX 5090 上还有待观察。

资料来源

拥有

Google LogoAdd as a preferred source on Google
Mail Logo
> Notebookcheck中文版(NBC中国) > 新闻 > 新闻档案 > 新闻档案 2025 02 > Nvidia GeForce RTX 5090 背离 RTX 3090 Ti 和 RTX 4090 旗舰版传统,放弃专业工作负载的 VRAM ECC
Vaidyanathan Subramaniam, 2025-02-13 (Update: 2026-02-18)