Fuse gdr preprocess by grimoire · Pull Request #4656 · InternLM/lmdeploy

grimoire · 2026-06-08T04:37:12Z

This PR fuse the preprocess of gated delta rule

Requirements

update gated delta rule state layout #4636

Copilot

Pull request overview

This PR introduces a fused “preprocess” path for Gated Delta Rule inputs (q/k replication + optional q/k L2-norm + beta/g computation + init-token masking), and wires models/backends to pass raw (b, a, dt_bias, a_log_exp) instead of precomputed (beta, g).

Changes:

Added a Triton kernel (gated_delta_preprocess) and CUDA-backend hook to fuse q/k/b/a preprocessing when use_qk_l2norm_in_kernel is enabled.
Updated GatedDelta call path + Qwen3 models to pass raw (b, a, dt_bias, a_log_exp) and rely on backend preprocessing.
Added new kernel tests covering both 3D/4D (b, a) layouts and decoding/prefill behavior.

Reviewed changes

Copilot reviewed 7 out of 7 changed files in this pull request and generated 5 comments.

Show a summary per file

File	Description
tests/pytorch/kernel/test_gated_delta_preprocess.py	Adds tests validating fused preprocess outputs vs references/default prepare logic.
lmdeploy/pytorch/nn/gated_delta.py	Routes preprocessing through backend `prepare_inputs`; updates GatedDelta signature to accept raw `(b, a, dt_bias, a_log_exp)`.
lmdeploy/pytorch/models/qwen3_next.py	Stops precomputing `beta/g` in-model; delegates to GatedDelta/backend.
lmdeploy/pytorch/models/qwen3_5.py	Stops precomputing `beta/g` in-model; delegates to GatedDelta/backend.
lmdeploy/pytorch/kernels/cuda/gated_delta_preprocess.py	New Triton-based fused preprocess kernel + Python wrapper.
lmdeploy/pytorch/backends/gated_delta_rule.py	Adds default `prepare_inputs` implementation to standardize preprocessing.
lmdeploy/pytorch/backends/cuda/gated_delta_rule.py	Overrides `prepare_inputs` to invoke fused preprocess kernel when enabled.

💡 Add Copilot custom instructions for smarter, more guided reviews. Learn how to get started.

grimoire added 2 commits June 9, 2026 10:58

fused gdr preprocess

9f1c813

avoid recompile

4eecbd6

grimoire force-pushed the fuse-gdr-preprocess branch from 094c02e to 4eecbd6 Compare June 9, 2026 02:59

grimoire marked this pull request as ready for review June 9, 2026 03:00

Copilot AI review requested due to automatic review settings June 9, 2026 03:00

Copilot started reviewing on behalf of grimoire June 9, 2026 03:00 View session

Copilot AI reviewed Jun 9, 2026

View reviewed changes

fix review

e9645c5

grimoire changed the title ~~[WIP] Fuse gdr preprocess~~ Fuse gdr preprocess Jun 9, 2026

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Fuse gdr preprocess#4656

Fuse gdr preprocess#4656
grimoire wants to merge 3 commits into
InternLM:mainfrom
grimoire:fuse-gdr-preprocess

grimoire commented Jun 8, 2026 •

edited

Loading

Uh oh!

Copilot AI left a comment

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Conversation

grimoire commented Jun 8, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Requirements

Uh oh!

Copilot AI left a comment

Choose a reason for hiding this comment

Pull request overview

Reviewed changes

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

grimoire commented Jun 8, 2026 •

edited

Loading