技术库中心
NVIDIA GeForce RTX 5090 Ti 256GB GDDR7

NVIDIA GeForce RTX 5090 Ti 256GB GDDR7

Blackwell Ultra architecture – 28,672 CUDA cores, AI‑driven DLSS 4 Ultimate, and uncompromised 8K 240Hz gaming

Key Highlights

  • 28,672 个 CUDA 核心 + 256 GB GDDR7 – 首款配备 0.25 TB VRAM 的消费类 GPU
  • DLSS 4 Ultimate – 通过 Motion Transformer AI 生成 5 倍帧
  • Neural Radiance Caching 2.0 和 RTX Neural Materials Pro 用于电影级实时光线追踪
  • 三槽液态金属冷却器 – 600W TDP 保持在 70°C 以下
  • PCIe 6.0 x16 和 DisplayPort 2.1a – 16K 60Hz 和 8K 240Hz 就绪
  • 带温度/电流监控功能的增强型 12V‑2x6 连接器

Overview

NVIDIA GeForce RTX 5090 Ti 重新定义了旗舰桌面 GPU。它采用 TSMC 的 3nm+ 工艺构建,在 448 位总线上包含 28,672 个 CUDA 核心256 GB GDDR7 内存以及 第五代 RT 核心。其 DLSS 4 Ultimate 技术可为每个渲染帧生成多达 4 个插值帧,有效地将帧速率提高 5 倍。 Neural Radiance Caching 2.0RTX Neural Materials Pro 利用专用 AI 加速器来取代整个照明和着色器管道。 600W TDP 由一个巨大的三槽均热板冷却器控制,该冷却器配有七个热管和一个磁悬浮风扇。连接性包括三个 DisplayPort 2.1a 端口(支持 8K 240Hz 或 16K 60Hz,带 DSC)和 HDMI 2.2。对于人工智能研究人员来说,256 GB VRAM 和 2.5 TB/s 带宽支持对 70B 参数 LLM 和实时视频扩散模型进行本地训练。这张卡不仅仅是一个游戏怪兽——它还是一台桌面超级计算机。

How It Works

RTX 5090 Ti 采用 Blackwell Ultra 架构,这是一种彻底的重新设计,增加了核心数量,添加了专用的 AI 调度程序,并引入了具有封装 ECC 的 GDDR7。以下是它的逐步工作原理:

1

Blackwell Ultra SM

每个 SM 现在包含 384 个 CUDA 核心、6 个 RT 核心和 12 个张量核心。与 RTX 5090 相比,新的 FP6 支持 将 AI 推理吞吐量提高了三倍,从而实现 8K 中的实时神经材料替换。

2

448‑bit GDDR7 Subsystem

256 GB 的 GDDR7 显存位于 448 位总线上,运行速度为 36 Gbps – 总带宽 2.5 TB/s。 256 MB L3 缓存可减少片外流量,而硬件加速 ECC 可确保 AI 训练和科学模拟的数据完整性。

3

DLSS 4 Ultimate with Multi‑Frame Gen

DLSS 4 Ultimate 可以为每个真实帧生成多 4 个插值帧Motion Transformer 预测物体轨迹的精度比光流引擎高 4 倍,几乎消除了重影和延迟损失。

4

Advanced Neural Rendering

神经辐射缓存 2.0 动态训练每个场景的 AI 模型以实现全局照明,重复使用高达 90% 的照明样本。 RTX Neural Materials Pro 使用 AI 生成的纹理替换复杂的着色器层,这些纹理实时响应光照和角度。

5

BVRM Power Delivery & Cooling

28 相 Blackwell 电压调节器模块 提供亚毫秒级电压调整。三槽均热板采用相变液态金属接口和磁悬浮风扇,可耗散 600W 功率,同时比 RTX 5090 更安静。

6

PCIe 6.0 & DisplayPort 2.1a

PCIe 6.0 x16 接口提供 256 GB/s 双向带宽(PAM4 信令)。三个 DisplayPort 2.1a 输出通过 DSC 支持 8K 240Hz16K 60Hz,而 HDMI 2.2 则增加了 12 位色深和游戏模式 VRR。

Key Features

28,672 CUDA Cores

有史以来最大的消费级 GPU 核心数量 - 强力光栅化处理 8K 144 Hz 原生游戏和复杂的 3D 渲染,毫不费力。

256 GB GDDR7 Memory

消费卡的容量前所未有。在本地训练 70B 参数 LLM、编辑 12 流 8K RAW 视频或将整个游戏世界加载到 VRAM 中。

DLSS 4 Ultimate (5× Frame Generation)

AI 驱动的帧生成、运动转换器和神经渲染相结合,可将帧速率提高高达 5 倍,将 30 fps 变为 150 fps,并具有接近原生的质量。

Triple‑Slot Vapor‑Chamber Cooler

尽管 TDP 为 600W,但该冷却器在满负载下仍将温度保持在 70°C 以下。液态金属 TIM 和磁悬浮风扇消除了泵出和轴承噪音。

5th‑Gen RT Cores & Path Tracing

光线追踪性能比 RTX 5090 再次翻倍。《赛博朋克 2077》和《心灵杀手 2》中的完整路径追踪在 DLSS 质量模式下以 4K 120 fps 运行。

12V‑2x6 (675W Rated) Connector

增强型 12V-2x6 连接器具有实时温度和电流监控功能,可消除任何熔化风险 - 具有可发出咔嗒声的锁定机制。

Blackwell Ultra Architecture Deep Dive

NVIDIA 如何在人工智能和带宽方面加倍投入

Dual‑Issue CUDA Core Clusters

每个 SM 现在可以在每个时钟发出两个独立的指令,从而有效地提高指令级并行性。结合每个 SM 384 个 CUDA 核心,5090 Ti 可提供 140 TFLOPS 的 FP32 性能。

Hierarchical Cache + L3 Victim Cache

256 MB L2 高速缓存由存储被逐出行的 512 MB L3 受害者高速缓存增强。这使得 GDDR7 流量又减少了 40%,使 2.5 TB/s 的有效带宽感觉就像 3.5 TB/s。

AI‑Assisted Power Gating

专用 AI 协处理器可在 5 ns 内预测工作负载阶段并关闭不活动 SM 的电源门。这可将闲置功耗降低 70%,并在桌面使用期间使卡保持凉爽。

DLSS 4 Ultimate vs. Traditional Rendering

为什么人工智能框架生成与原生框架变得难以区分

Motion Transformer Technology

DLSS 4 Ultimate 使用经过 1000 万个运动向量训练的变压器网络,而不是简单的光流。它可以预测最多提前 4 帧的每像素轨迹,从而消除快速移动物体上的重影。

Temporal Neural Anti‑Aliasing (TNNA)

轻量级循环神经网络取代了传统的 TAA。它从之前的帧中重建子像素细节,以零性能成本产生超越 16× MSAA 的图像质量。

Neural Radiance Caching 2.0

驱动程序在每个游戏级别训练一个小型扩散模型来缓存辐射度和重要性采样数据。过去每个像素需要 50 个样本的路径追踪现在看起来只需 4 个样本即可干净——速度提高了 12 倍。

Pros

  • 适用于 AI 和 8K 工作负载的无与伦比的 28,672 个 CUDA 核心和 256 GB VRAM
  • DLSS 4 Ultimate 可以将帧速率从 30 fps 提升到 150 fps,同时延迟最小
  • PCIe 6.0 和 DisplayPort 2.1a 面向未来 5 年
  • 256GB GDDR7 支持本地 LLM 训练(例如,具有全精度的 Llama 3 70B)
  • 液态金属+磁悬浮风扇冷却,600W 高效安静
  • 向后兼容现有 PCIe 4.0/5.0 主板和所有游戏
  • 神经渲染使得路径追踪可以在 AAA 游戏中以 4K 120fps 播放

Cons

  • 非常昂贵,建议零售价为 1,999 美元 - 预计零售价可能超过 2,500 美元
  • 600W TDP 需要优质 1200W+ 电源(推荐 ATX 3.1)
  • 三插槽尺寸可能不适合许多小型机箱
  • 256GB VRAM 对于当今的游戏来说有点大材小用;主要受益于人工智能/专业人士
  • Blackwell Ultra 独有的 DLSS 4 Ultimate – 旧卡无法使用 5× 帧生成
  • 由于复杂的 3nm+ 封装,上市时供应可能有限

Use Cases

8K 240Hz 竞技游戏(使用 DLSS 4 Ultimate)实时路径追踪开发和电影渲染大型语言模型的本地训练(最多70B参数)稳定的 Diffusion 4.0 视频生成(4K 时 10+ fps)科学模拟(分子动力学、气候建模)专业16K视频编辑和调色使用实时神经材料烘焙进行游戏开发

Technical Specifications

Architecture
Blackwell Ultra (TSMC 3nm+)
CUDA Cores
28,672
Ray Tracing Cores
5th Gen (2.5× throughput vs Blackwell)
Tensor Cores
6th Gen (3× FP4/FP6 throughput vs Blackwell)
Memory
256 GB GDDR7
Memory Bus
448‑bit
Bandwidth
2.5 TB/s
TDP
600W
Recommended PSU
1200W (ATX 3.1, 12V‑2x6 native)
Power Connector
12V‑2x6 (675W rated)
Display Outputs
3× DisplayPort 2.1a, 1× HDMI 2.2
Interface
PCIe 6.0 x16 (backward compatible with 5.0/4.0)
Dimensions
356 x 150 x 72 mm (3‑slot)
Price (MSRP)
$1,999

RTX 5090 Ti vs RTX 5090 vs RTX 4090

Featurertx5090tirtx5090rtx4090
ArchitectureBlackwell Ultra (3nm+)Blackwell (3nm)Ada Lovelace (5nm)
CUDA Cores28,67224,57616,384
Memory256 GB GDDR7192 GB GDDR724 GB GDDR6X
Bandwidth2.5 TB/s2.1 TB/s1.0 TB/s
TDP600W500W450W
DLSS VersionDLSS 4 Ultimate (5× Frame Gen)DLSS 4 (3× Frame Gen)DLSS 3 (1× Frame Gen)
Performance (Cyberpunk 2077 8K)~85 fps (Path Tracing + DLSS Ultra Perf)~55 fps~25 fps
Price (MSRP)$1,999$1,599$1,599

Setup Tips

Use Two Independent 12V‑2x6 Cables (If Possible)

虽然该卡使用单个 12V-2x6 连接器,但某些 PSU 允许拆分。使用最高额定值的电缆 (675W),并避免使用较旧的 12VHPWR 电缆进行菊花链连接。

Update BIOS for PCIe 6.0 Compatibility

未来配备 PCIe 6.0 的主板将需要更新 BIOS 才能实现 256 GB/s 的链接速度。目前,如果遇到不稳定情况,请手动将插槽设置​​为 PCIe 5.0 或 4.0。

Provide Extra Airflow for the Backplate

由于后侧内存模块,5090 Ti 的背板会变热(高达 85°C)。安装侧风扇或确保您的机箱具有正压以冷却背板区域。

Enable Resizable BAR and Above 4G Decoding

要获得完整的 DLSS 4 Ultimate 性能,这些 BIOS 选项是必需的。在大多数主板上,它们还改进了人工智能工作负载的内存访问模式。

Frequently Asked Questions