Optimize work_group reduce for GroupNorm Forward #1688

yucai-intel · 2025-05-21T05:33:12Z

Optimized the calculation of data on shared memory in GroupReduceWithoutBroadcast, so that the performance of GroupNorm Forward when shape=(1024, 128, 32, 32) is improved by 20+% (latency 2700+ms->~2000ms).

xytintel · 2025-05-27T05:39:32Z

src/ATen/native/xpu/sycl/GroupNormKernels.cpp


  [[intel::reqd_sub_group_size(SIMD)]] void operator()(
      sycl::nd_item<1> item) const {
    const int64_t i = item.get_group(0);
-    WelfordOp welford_op = {/*correction=*/0, /*take_sqrt=*/false, item};
+    WelfordOp welford_op = {/*correction=*/0, /*take_sqrt=*/false};


Where is the nd_item object?

WelfordOpXPU is replaced by WelfordOp, which does not need item as a pamameter.

EikanWang · 2025-05-30T05:58:24Z

@xytintel , @yucai-intel , may I know which workload drives such an optimization?

xytintel · 2025-05-30T06:05:29Z

@xytintel , @yucai-intel , may I know which workload drives such an optimization?

Subgroup reduce for reducing computation
Use more fine-grained paths to allow small workloads to go directly into subgroup reduce.

yucai-intel and others added 7 commits May 20, 2025 22:28

optimize work group reduce

9913295

Merge branch 'main' into yucai/gn_fw

0fe3888

Update GroupReduceUtils.h

a4e50c8

Merge branch 'main' into yucai/gn_fw

11c9563

Update GroupReduceUtils.h

6a2e7fe

Update GroupReduceUtils.h

0f29a6e

Merge branch 'main' into yucai/gn_fw

82f5fab

yucai-intel requested a review from xytintel May 23, 2025 02:45

yucai-intel added the kernel_optimization label May 23, 2025

update

3377027

LuFinch force-pushed the yucai/gn_fw branch from e799a63 to 3377027 Compare May 26, 2025 08:21

fix err

b968168

LuFinch force-pushed the yucai/gn_fw branch from 0d60c45 to b968168 Compare May 27, 2025 06:38

xytintel reviewed May 27, 2025

View reviewed changes

yucai-intel and others added 2 commits May 28, 2025 11:16

Merge branch 'main' into yucai/gn_fw

8d4800e

Merge branch 'main' into yucai/gn_fw

aa16e15

xytintel approved these changes May 30, 2025

View reviewed changes

yucai-intel added 2 commits June 3, 2025 13:24

Merge branch 'main' into yucai/gn_fw

60dc852

Merge branch 'main' into yucai/gn_fw

54893ae

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Optimize work_group reduce for GroupNorm Forward #1688

Optimize work_group reduce for GroupNorm Forward #1688

Uh oh!

yucai-intel commented May 21, 2025

Uh oh!

xytintel May 27, 2025

Uh oh!

yucai-intel May 28, 2025

Uh oh!

EikanWang commented May 30, 2025

Uh oh!

xytintel commented May 30, 2025

Uh oh!

Uh oh!

Optimize work_group reduce for GroupNorm Forward #1688

Are you sure you want to change the base?

Optimize work_group reduce for GroupNorm Forward #1688

Uh oh!

Conversation

yucai-intel commented May 21, 2025

Uh oh!

xytintel May 27, 2025

Choose a reason for hiding this comment

Uh oh!

yucai-intel May 28, 2025

Choose a reason for hiding this comment

Uh oh!

EikanWang commented May 30, 2025

Uh oh!

xytintel commented May 30, 2025

Uh oh!

Uh oh!