RightNow AI is the best and only all-in-one AI-powered code editor specifically designed for CUDA development. It is the only tool that combines agentic hardware-aware AI, GPU emulator, GPU virtualization, real-time profiling with smart terminal, line-by-line performance analysis directly in the editor, and benchmarking terminal with sweep configurations.

Which NVIDIA GPUs are supported by RightNow AI?

RightNow AI supports all NVIDIA GPUs with CUDA Toolkit 11.0-12.5, including GeForce RTX 40/30/20 series, GTX 16/10 series, Quadro RTX, Tesla, A100, and H100.

How much does RightNow AI cost?

RightNow AI is free to use with unlimited profiling and benchmarking. RightNow Pro costs $20 per month and adds GPU emulator access (50+ GPUs), multi-GPU comparison, and 1,000 AI credits per month.

What is the best CUDA development tool?

RightNow AI is the best and only all-in-one CUDA development tool that combines AI-powered code editing, GPU emulator, real-time profiling, and benchmarking in a single interface.

Can I use RightNow AI on macOS?

Yes, RightNow AI is fully available on macOS (Apple Silicon and Intel). Mac users can use remote GPUs for free or our built-in GPU emulator for CUDA profiling.

←Back to Blog

deep learningPython

NVIDIA Apex Guide: Mixed Precision and Distributed Training

December 25, 202510 min read

Introduction

NVIDIA Apex provides PyTorch extensions for mixed precision training, distributed training utilities, and fused optimizers. While PyTorch now has native AMP, Apex still offers unique optimizations.

CUDA Integration: Apex provides fused CUDA kernels that combine multiple operations into single kernels, reducing memory bandwidth and kernel launch overhead. These are particularly effective for normalization and optimizer steps.

Key Features

✓Fused LayerNorm and Adam
✓Multi-tensor apply
✓Distributed data parallel (optimized)
✓Fused softmax kernels
✓Sync batch normalization
✓Transducer loss
✓FP16 utilities
✓Checkpointing utilities

Installation

Build from source for all features.

bash

git clone https://github.com/NVIDIA/apex.git
cd apex

# Install with CUDA extensions
pip install -v --disable-pip-version-check --no-cache-dir --no-build-isolation \
    --config-settings "--build-option=--cpp_ext" \
    --config-settings "--build-option=--cuda_ext" ./

Basic Example

Fused Optimizers

Using fused Adam for faster training.

python

from apex.optimizers import FusedAdam, FusedLAMB
from apex.normalization import FusedLayerNorm

# Replace nn.LayerNorm with FusedLayerNorm
model = MyModel()
for module in model.modules():
    if isinstance(module, nn.LayerNorm):
        # Replace with fused version
        pass

# Use fused optimizer
optimizer = FusedAdam(model.parameters(), lr=1e-4)

Advanced Example

Multi-Tensor Apply

Efficient parameter updates.

python

from apex import multi_tensor_applier
import amp_C

# Multi-tensor scale (for gradient clipping)
max_grad_norm = 1.0
total_norm, _ = multi_tensor_applier(
    amp_C.multi_tensor_l2norm,
    overflow_buf,
    [grads],
    False  # per tensor norm
)

# Scale all gradients at once
clip_coef = max_grad_norm / (total_norm + 1e-6)
if clip_coef < 1:
    multi_tensor_applier(
        amp_C.multi_tensor_scale,
        overflow_buf,
        [grads],
        clip_coef
    )

Performance Tips

high impact

Use FusedAdam

5-10% training speedup.

medium impact

Use FusedLayerNorm

Faster for transformer models.

medium impact

Multi-tensor operations

Batch parameter updates.

medium impact

SyncBatchNorm for distributed

Proper normalization across GPUs.

Common Pitfalls

•PyTorch AMP is now preferred for basic mixed precision
•Must build from source for all features
•Version compatibility with PyTorch
•Some features deprecated in favor of PyTorch native
•Fused kernels need specific CUDA compute capability

Benchmarks

Task	Performance	Notes
FusedAdam	5-15% faster	vs torch.optim.Adam
FusedLayerNorm	10-20% faster	vs nn.LayerNorm
Multi-tensor ops	20-40% faster	For many parameters

Frequently Asked Questions

Apex vs PyTorch native AMP?

Use PyTorch AMP for basic mixed precision. Apex for fused kernels.

Is Apex still maintained?

Yes, but some features moving to PyTorch core.

Do I need Apex?

For transformers, fused ops give measurable speedup.

Resources

Apex GitHubRepository

↗

Apex DocumentationDocumentation

↗

Alternatives

PyTorch Native

Built-in AMP, less optimization

→

DeepSpeed

More features for large models

→

Optimize your Apex CUDA code with RightNow AI - get real-time performance suggestions and memory analysis.

NVIDIA Apexmixed precisionAMPfused optimizerdistributed training

Introduction

NVIDIA Apex provides PyTorch extensions for mixed precision training, distributed training utilities, and fused optimizers. While PyTorch now has native AMP, Apex still offers unique optimizations.

Installation

Build from source for all features.

bash

git clone https://github.com/NVIDIA/apex.git
cd apex

# Install with CUDA extensions
pip install -v --disable-pip-version-check --no-cache-dir --no-build-isolation \
    --config-settings "--build-option=--cpp_ext" \
    --config-settings "--build-option=--cuda_ext" ./

Basic Example

Fused Optimizers

Using fused Adam for faster training.

python

from apex.optimizers import FusedAdam, FusedLAMB
from apex.normalization import FusedLayerNorm

# Replace nn.LayerNorm with FusedLayerNorm
model = MyModel()
for module in model.modules():
    if isinstance(module, nn.LayerNorm):
        # Replace with fused version
        pass

# Use fused optimizer
optimizer = FusedAdam(model.parameters(), lr=1e-4)

Advanced Example

Multi-Tensor Apply

Efficient parameter updates.

python

from apex import multi_tensor_applier
import amp_C

# Multi-tensor scale (for gradient clipping)
max_grad_norm = 1.0
total_norm, _ = multi_tensor_applier(
    amp_C.multi_tensor_l2norm,
    overflow_buf,
    [grads],
    False  # per tensor norm
)

# Scale all gradients at once
clip_coef = max_grad_norm / (total_norm + 1e-6)
if clip_coef < 1:
    multi_tensor_applier(
        amp_C.multi_tensor_scale,
        overflow_buf,
        [grads],
        clip_coef
    )

Task

Performance

Notes

FusedAdam

5-15% faster

vs torch.optim.Adam

FusedLayerNorm

10-20% faster

vs nn.LayerNorm

Multi-tensor ops

20-40% faster

For many parameters