[SYCL][CUDA] Enable memcpy optimizations for NVPTX (#18598)

npmiller · web-flow · commit 74a628116375 · 2025-05-27T16:27:58.000Z
The NVPTX backend doesn't support libcalls but does support the memset and memcpy intrinsics, so this flag enables optimizations that use these intrinsics. This was added for the CUDA path in https://reviews.llvm.org/D106401
diff --git a/clang/lib/Driver/ToolChains/Cuda.cpp b/clang/lib/Driver/ToolChains/Cuda.cpp
@@ -966,6 +966,8 @@ void CudaToolChain::addClangTargetOptions(
     if (FastRelaxedMath || UnsafeMathOpt)
       CC1Args.append({"-mllvm", "--nvptx-prec-divf32=0", "-mllvm",
                       "--nvptx-prec-sqrtf32=0"});
+
+    CC1Args.append({"-mllvm", "-enable-memcpyopt-without-libcalls"});
   } else {
     CC1Args.append({"-fcuda-is-device", "-mllvm",
                     "-enable-memcpyopt-without-libcalls",
diff --git a/clang/test/Driver/sycl-nvptx-memcpy-opt.cpp b/clang/test/Driver/sycl-nvptx-memcpy-opt.cpp
@@ -0,0 +1,5 @@
+// RUN: %clang -### -nocudalib \
+// RUN:   -fsycl -fsycl-targets=nvptx64-nvidia-cuda %s 2>&1 \
+// RUN: | FileCheck --check-prefix=CHECK-DEFAULT %s
+
+// CHECK-DEFAULT: "-enable-memcpyopt-without-libcalls"