Enabling optimizer_cpu_offload in megatron lora causes CUDA IMA

### Checklist / 检查清单

- [x] I have searched existing issues, and this is a new bug report. / 我已经搜索过现有的 issues，确认这是一个新的 bug report。

### Bug Description / Bug 描述

我在尝试使用megatron微调模型时, 启用`optimizer_cpu_offload`会导致illegal memory access:
```
[rank9]: Traceback (most recent call last):
[rank9]:   File "/root/swift_megatron/lib/python3.11/site-packages/megatron/core/transformer/spec_utils.py", line 119, in build_module
[rank9]:     return module(
[rank9]:            ^^^^^^^
[rank9]:   File "/root/swift_megatron/lib/python3.11/site-packages/megatron/core/extensions/transformer_engine.py", line 1829, in __init__
[rank9]:     super().__init__(
[rank9]:   File "/root/swift_megatron/lib/python3.11/site-packages/megatron/core/extensions/transformer_engine.py", line 1532, in __init__
[rank9]:     super().__init__(
[rank9]:   File "/root/swift_megatron/lib/python3.11/site-packages/transformer_engine/pytorch/module/grouped_linear.py", line 826, in __init__
[rank9]:     self.reset_parameters(defer_init=is_meta)
[rank9]:   File "/root/swift_megatron/lib/python3.11/site-packages/transformer_engine/pytorch/module/grouped_linear.py", line 920, in reset_parameters
[rank9]:     super().reset_parameters(defer_init=defer_init)
[rank9]:   File "/root/swift_megatron/lib/python3.11/site-packages/transformer_engine/pytorch/module/base.py", line 1435, in reset_parameters
[rank9]:     with get_rng_state_tracker().fork(self.rng_tracker_name):
[rank9]:   File "/usr/lib/python3.11/contextlib.py", line 137, in __enter__
[rank9]:     return next(self.gen)
[rank9]:            ^^^^^^^^^^^^^^
[rank9]:   File "/root/swift_megatron/lib/python3.11/site-packages/megatron/core/tensor_parallel/random.py", line 250, in fork
[rank9]:     orig_cuda_rng_state = _get_cuda_rng_state(graph_safe=self.use_cudagraphable_rng)
[rank9]:                           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank9]:   File "/root/swift_megatron/lib/python3.11/site-packages/megatron/core/tensor_parallel/random.py", line 55, in _get_cuda_rng_state
[rank9]:     return torch.cuda.random.get_rng_state(device=device)
[rank9]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank9]:   File "/root/swift_megatron/lib/python3.11/site-packages/torch/cuda/random.py", line 42, in get_rng_state
[rank9]:     return default_generator.get_state()
[rank9]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank9]: torch.AcceleratorError: CUDA error: an illegal memory access was encountered
[rank9]: Search for `cudaErrorIllegalAddress' in https://docs.nvidia.com/cuda/cuda-runtime-api/group__CUDART__TYPES.html for more information.
[rank9]: CUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect.
[rank9]: For debugging consider passing CUDA_LAUNCH_BLOCKING=1
[rank9]: Compile with `TORCH_USE_CUDA_DSA` to enable device-side assertions.
```

### How to Reproduce / 如何复现

以下是我的脚本:
```
megatron sft --model Qwen/Qwen3.5-397B-A17B --save_safetensors true --merge_lora false --dataset /root/maica_llm/esft/dataset/moni_dataset_2605.jsonl#12784 /root/maica_llm/esft/dataset/moni_dataset_en_2605.jsonl#9048 /root/maica_llm/esft/dataset/covid_new.jsonl#400 /root/maica_llm/esft/dataset/ds_new.jsonl#400 /root/.cache/modelscope/hub/datasets/AI-ModelScope/deepctrl-sft-data:default#14400 /root/.cache/modelscope/hub/datasets/AI-ModelScope/deepctrl-sft-data:en#9200 /root/maica_llm/dataset/external/ruozhiba/post-annual.jsonl#5280 /root/maica_llm/esft/dataset/daa/daa_mix1.jsonl#5408 /root/maica_llm/esft/dataset/daa/daa_norm2.jsonl#1152 /root/maica_llm/esft/dataset/daa/daa_prcs2.jsonl#2368 /root/maica_llm/esft/dataset/daa/daa_norm3.jsonl#1640 /root/maica_llm/esft/dataset/daa/daa_prcs3.jsonl#2400 /root/maica_llm/esft/dataset/daa/daa_prcs3_en_split.jsonl#608 --load_from_cache_file true --add_non_thinking_prefix true --custom_dataset_info /root/swift/dataset/ds_info.json --val_dataset /root/swift/dataset/eval.jsonl --tuner_type lora --lora_rank 16 --lora_alpha 32 --target_modules all-linear --pipeline_model_parallel_size 10 --moe_permute_fusion true --moe_grouped_gemm true --moe_shared_expert_overlap true --moe_router_dtype fp64 --micro_batch_size 1 --global_batch_size 16 --recompute_granularity full --recompute_method uniform --recompute_num_layers 1 --use_precision_aware_optimizer true --optimizer_cpu_offload true --num_train_epochs 1 --finetune true --freeze_llm false --freeze_vit true --freeze_aligner true --cross_entropy_loss_fusion true --lr 1e-4 --lr_warmup_fraction 0.05 --min_lr 1e-5 --eval_steps 50 --save_steps 100 --max_length 1600 --dataloader_num_workers 32 --dataset_num_proc 32 --no_save_optim true --no_save_rng true --attention_backend flash --pipeline_model_parallel_layout Et*6,(|t*6)*8,|t*6L
```

### Additional Information / 补充信息

_No response_

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Enabling optimizer_cpu_offload in megatron lora causes CUDA IMA #9554

Checklist / 检查清单

Bug Description / Bug 描述

How to Reproduce / 如何复现

Additional Information / 补充信息

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Enabling optimizer_cpu_offload in megatron lora causes CUDA IMA #9554

Description

Checklist / 检查清单

Bug Description / Bug 描述

How to Reproduce / 如何复现

Additional Information / 补充信息

Metadata

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Issue actions