Merge branch 'master' into fix_topk

iotamudelta · iotamudelta · commit 30f2ac856f2a · 2018-08-23T22:32:44.000-05:00
diff --git a/aten/src/ATen/CMakeLists.txt b/aten/src/ATen/CMakeLists.txt
@@ -247,7 +247,7 @@ IF(USE_CUDA AND NOT USE_ROCM)
 ENDIF()
 
 IF(USE_ROCM)
- ### Link in the ROCm libraries BLAS / RNG.
+ ### Link in the ROCm libraries BLAS / RNG .
  FIND_LIBRARY(ROCBLAS_LIBRARY rocblas HINTS ${ROCBLAS_PATH}/lib)
  FIND_LIBRARY(HIPRAND_LIBRARY hiprand HINTS ${HIPRAND_PATH}/lib)
 
diff --git a/aten/src/ATen/native/cuda/CuFFTPlanCache.h b/aten/src/ATen/native/cuda/CuFFTPlanCache.h
@@ -149,7 +149,11 @@ class CuFFTConfig {
     // TODO: Figure out why windows fails to compile
     //         at::optional<std::vector<long long int>> inembed_opt = at::nullopt;
     //       Then move the following to a helper function.
+#ifdef __HIP_PLATFORM_HCC__
+    std::vector<int> inembed(signal_ndim);
+#else
     std::vector<long long int> inembed(signal_ndim);
+#endif
     if (!clone_input) {
       auto istrides = input.strides();
       auto last_istride = istrides[signal_ndim];
@@ -192,6 +196,37 @@ class CuFFTConfig {
                 inembed.begin());                      // begin of output
     }
 
+#ifdef __HIP_PLATFORM_HCC__
+
+    hipfftType exec_type;
+    if (input.type().scalarType() == ScalarType::Float) {
+      if (complex_input && complex_output) {
+	exec_type = HIPFFT_C2C;
+      } else if (complex_input && !complex_output) {
+	exec_type = HIPFFT_C2R;
+      } else if (!complex_input && complex_output) {
+	exec_type = HIPFFT_R2C;
+      } else {
+        throw std::runtime_error("hipFFT doesn't support r2r (float)");
+      }
+    } else if (input.type().scalarType() == ScalarType::Double) {
+      if (complex_input && complex_output) {
+        exec_type = HIPFFT_Z2Z;
+      } else if (complex_input && !complex_output) {
+        exec_type = HIPFFT_Z2D;
+      } else if (!complex_input && complex_output) {
+        exec_type = HIPFFT_D2Z;
+      } else {
+        throw std::runtime_error("hipFFT doesn't support r2r (double)");
+      }
+    } else {
+      std::ostringstream ss;
+      ss << "hipFFT doesn't support tensor of type: "
+         << at::toString(input.type().scalarType());
+      throw std::runtime_error(ss.str());
+    }
+
+#else
     cudaDataType itype, otype, exec_type;
     if (input.type().scalarType() == ScalarType::Float) {
       itype = complex_input ? CUDA_C_32F : CUDA_R_32F;
@@ -211,6 +246,7 @@ class CuFFTConfig {
          << at::toString(input.type().scalarType());
       throw std::runtime_error(ss.str());
     }
+#endif
 
     // create plan
     auto raw_plan_ptr = new cufftHandle();
@@ -229,10 +265,18 @@ class CuFFTConfig {
       // by assuming base_istride = base_ostride = 1.
       //
       // See NOTE [ cuFFT Embedded Strides ] in native/cuda/SpectralOps.cu.
+#ifdef __HIP_PLATFORM_HCC__
+      int sizes = *signal_sizes.data();
+      CUFFT_CHECK(hipfftMakePlanMany(plan(), signal_ndim, &sizes,
+        /* inembed */ nullptr, /* base_istride */ 1, /* idist */ 1,
+        /* onembed */ nullptr, /* base_ostride */ 1, /* odist */ 1,
+	exec_type, batch, &ws_size_t));
+#else
       CUFFT_CHECK(cufftXtMakePlanMany(plan(), signal_ndim, signal_sizes.data(),
         /* inembed */ nullptr, /* base_istride */ 1, /* idist */ 1, itype,
         /* onembed */ nullptr, /* base_ostride */ 1, /* odist */ 1, otype,
         batch, &ws_size_t, exec_type));
+#endif
     } else {
       // set idist (stride at batch dim)
       // set base_istride (stride at innermost dim of signal)
@@ -254,6 +298,19 @@ class CuFFTConfig {
       }
 
       // set odist, onembed, base_ostride
+#ifdef __HIP_PLATFORM_HCC__
+      int odist = at::prod_intlist(output_sizes.slice(1, signal_ndim));
+      std::vector<int> onembed(output_sizes.data() + 1, output_sizes.data() + signal_ndim + 1);
+      int base_ostride = 1;
+
+      int sizes = *signal_sizes.data();
+      int istride = base_istride;
+      int iidist = idist;
+      CUFFT_CHECK(hipfftMakePlanMany(plan(), signal_ndim, &sizes,
+        inembed.data(), istride, iidist,
+        onembed.data(), base_ostride, odist,
+        exec_type, batch, &ws_size_t));
+#else
       long long int odist = at::prod_intlist(output_sizes.slice(1, signal_ndim));
       std::vector<long long int> onembed(output_sizes.data() + 1, output_sizes.data() + signal_ndim + 1);
       long long int base_ostride = 1;
@@ -262,11 +319,16 @@ class CuFFTConfig {
             inembed.data(), base_istride, idist, itype,
             onembed.data(), base_ostride, odist, otype,
             batch, &ws_size_t, exec_type));
-    }
+#endif
+      }
     ws_size = static_cast<int64_t>(ws_size_t);
   }
 
+#ifdef __HIP_PLATFORM_HCC__
+  cufftHandle &plan() const { return *plan_ptr.get(); }
+#else
   const cufftHandle &plan() const { return *plan_ptr.get(); }
+#endif
 
   bool should_clone_input() const { return clone_input; }
 
diff --git a/aten/src/ATen/native/cuda/CuFFTUtils.h b/aten/src/ATen/native/cuda/CuFFTUtils.h
@@ -49,8 +49,10 @@ static inline std::string _cudaGetErrorEnum(cufftResult error)
       return "CUFFT_NO_WORKSPACE";
     case CUFFT_NOT_IMPLEMENTED:
       return "CUFFT_NOT_IMPLEMENTED";
+#ifndef __HIP_PLATFORM_HCC__
     case CUFFT_LICENSE_ERROR:
       return "CUFFT_LICENSE_ERROR";
+#endif
     case CUFFT_NOT_SUPPORTED:
       return "CUFFT_NOT_SUPPORTED";
     default:
diff --git a/aten/src/ATen/native/cuda/SpectralOps.cu b/aten/src/ATen/native/cuda/SpectralOps.cu
@@ -190,8 +190,45 @@ static inline Tensor _run_cufft(
   CUFFT_CHECK(cufftSetWorkArea(plan, ws.data_ptr()));
 
   // run
+#ifdef __HIP_PLATFORM_HCC__
+  if (input.type().scalarType() == ScalarType::Float) {
+      if (complex_input && complex_output) {
+        CUFFT_CHECK(hipfftExecC2C(plan, static_cast<hipfftComplex*>(input.data_ptr()),
+          static_cast<hipfftComplex*>(output.data_ptr()),
+          inverse ? HIPFFT_BACKWARD : HIPFFT_FORWARD));
+      } else if (complex_input && !complex_output) {
+        CUFFT_CHECK(hipfftExecC2R(plan, static_cast<hipfftComplex*>(input.data_ptr()),
+          static_cast<hipfftReal*>(output.data_ptr())));
+      } else if (!complex_input && complex_output) {
+        CUFFT_CHECK(hipfftExecR2C(plan, static_cast<hipfftReal*>(input.data_ptr()),
+          static_cast<hipfftComplex*>(output.data_ptr())));
+      } else {
+        throw std::runtime_error("hipFFT doesn't support r2r (float)");
+      }
+    } else if (input.type().scalarType() == ScalarType::Double) {
+      if (complex_input && complex_output) {
+        CUFFT_CHECK(hipfftExecZ2Z(plan, static_cast<hipfftDoubleComplex*>(input.data_ptr()),
+          static_cast<hipfftDoubleComplex*>(output.data_ptr()),
+          inverse ? HIPFFT_BACKWARD : HIPFFT_FORWARD));
+      } else if (complex_input && !complex_output) {
+        CUFFT_CHECK(hipfftExecZ2D(plan, static_cast<hipfftDoubleComplex*>(input.data_ptr()),
+          static_cast<hipfftDoubleReal*>(output.data_ptr())));
+      } else if (!complex_input && complex_output) {
+        CUFFT_CHECK(hipfftExecD2Z(plan, static_cast<hipfftDoubleReal*>(input.data_ptr()),
+          static_cast<hipfftDoubleComplex*>(output.data_ptr())));
+      } else {
+        throw std::runtime_error("hipFFT doesn't support r2r (double)");
+      }
+    } else {
+      std::ostringstream ss;
+      ss << "hipFFT doesn't support tensor of type: "
+         << at::toString(input.type().scalarType());
+      throw std::runtime_error(ss.str());
+    }
+#else
   CUFFT_CHECK(cufftXtExec(plan, input.data_ptr(), output.data_ptr(),
     inverse ? CUFFT_INVERSE : CUFFT_FORWARD));
+#endif
 
   // rescale if needed by normalized flag or inverse transform
   auto size_last_signal_dim = checked_signal_sizes[signal_ndim - 1];
diff --git a/cmake/Dependencies.cmake b/cmake/Dependencies.cmake
@@ -562,6 +562,7 @@ endif()
 if(USE_ROCM)
  include_directories(SYSTEM ${HIP_PATH}/include)
  include_directories(SYSTEM ${ROCBLAS_PATH}/include)
+ include_directories(SYSTEM ${ROCFFT_PATH}/include)
  include_directories(SYSTEM ${HIPSPARSE_PATH}/include)
  include_directories(SYSTEM ${HIPRAND_PATH}/include)
  include_directories(SYSTEM ${ROCRAND_PATH}/include)
diff --git a/cmake/public/LoadHIP.cmake b/cmake/public/LoadHIP.cmake
@@ -38,6 +38,13 @@ ELSE()
   SET(ROCBLAS_PATH $ENV{ROCBLAS_PATH})
 ENDIF()
 
+# ROCFFT_PATH
+IF(NOT DEFINED ENV{ROCFFT_PATH})
+  SET(ROCBLAS_PATH ${ROCM_PATH}/rocfft)
+ELSE()
+  SET(ROCFFT_PATH $ENV{ROCFFT_PATH})
+ENDIF()
+
 # HIPSPARSE_PATH
 IF(NOT DEFINED ENV{HIPSPARSE_PATH})
   SET(HIPSPARSE_PATH ${ROCM_PATH}/hcsparse)
@@ -106,11 +113,13 @@ IF(HIP_FOUND)
   set(rocblas_DIR ${ROCBLAS_PATH}/lib/cmake/rocblas)
   set(miopen_DIR ${MIOPEN_PATH}/lib/cmake/miopen)
   set(rocblas_DIR ${ROCBLAS_PATH}/lib/cmake/rocblas)
+  set(rocfft_DIR ${ROCFFT_PATH}/lib/cmake/rocfft)
   set(hipsparse_DIR ${HIPSPARSE_PATH}/lib/cmake/hipsparse)
 
   find_package(rocrand REQUIRED)
   find_package(hiprand REQUIRED)
   find_package(rocblas REQUIRED)
+  find_package(rocfft REQUIRED)
   find_package(miopen REQUIRED)
   #find_package(hipsparse REQUIRED)
 
diff --git a/setup.py b/setup.py
@@ -920,6 +920,7 @@ def run(self):
     rocm_include_path = '/opt/rocm/include'
     hcc_include_path = '/opt/rocm/hcc/include'
     rocblas_include_path = '/opt/rocm/rocblas/include'
+    rocfft_include_path = '/opt/rocm/rocfft/include'
     hipsparse_include_path = '/opt/rocm/hcsparse/include'
     hiprand_include_path = '/opt/rocm/hiprand/include'
     rocrand_include_path = '/opt/rocm/rocrand/include'
@@ -928,6 +929,7 @@ def run(self):
     include_dirs.append(rocm_include_path)
     include_dirs.append(hcc_include_path)
     include_dirs.append(rocblas_include_path)
+    include_dirs.append(rocfft_include_path)
     include_dirs.append(hipsparse_include_path)
     include_dirs.append(hiprand_include_path)
     include_dirs.append(rocrand_include_path)
diff --git a/test/test_cuda.py b/test/test_cuda.py
@@ -330,19 +330,26 @@ def tmp(t):
     ('kthvalue', small_3d_unique, lambda t: [3, -1], 'neg_dim'),
     ('lerp', small_3d, lambda t: [small_3d(t), 0.3],'', types, False, "skipIfHalfTensor"),
     ('max', small_3d_unique, lambda t: [],'', types, False, "skipIfHalfTensor"),
-    ('max', small_3d_unique, lambda t: [1], 'dim'),
-    ('max', small_3d_unique, lambda t: [-1], 'neg_dim'),
+    ('max', small_3d_unique, lambda t: [1], 'dim', types, False,
+            "skipIfByteTensor;skipIfCharTensor;skipIfDoubleTensor;skipIfFloatTensor;skipIfHalfTensor;skipIfIntTensor;skipIfLongTensor;skipIfShortTensor"),
+    ('max', small_3d_unique, lambda t: [-1], 'neg_dim', types, False, 
+            "skipIfByteTensor;skipIfCharTensor;skipIfDoubleTensor;skipIfFloatTensor;skipIfHalfTensor;skipIfIntTensor;skipIfLongTensor;skipIfShortTensor"),
     ('max', medium_2d, lambda t: [medium_2d(t)], 'elementwise'),
     ('min', small_3d_unique, lambda t: [],'', types, False, "skipIfHalfTensor"),
-    ('min', small_3d_unique, lambda t: [1], 'dim'),
-    ('min', small_3d_unique, lambda t: [-1], 'neg_dim'),
+    ('min', small_3d_unique, lambda t: [1], 'dim', types, False, 
+            "skipIfByteTensor;skipIfCharTensor;skipIfDoubleTensor;skipIfFloatTensor;skipIfHalfTensor;skipIfIntTensor;skipIfLongTensor;skipIfShortTensor"),
+    ('min', small_3d_unique, lambda t: [-1], 'neg_dim', types, False, 
+            "skipIfByteTensor;skipIfCharTensor;skipIfDoubleTensor;skipIfFloatTensor;skipIfHalfTensor;skipIfIntTensor;skipIfLongTensor;skipIfShortTensor"),
     ('min', medium_2d, lambda t: [medium_2d(t)], 'elementwise'),
     ('mean', small_3d, lambda t: [], '', types, False, "skipIfHalfTensor"),
     ('mean', small_3d, lambda t: [-1], 'neg_dim', types, False, "skipIfDoubleTensor;skipIfFloatTensor;skipIfHalfTensor"),
     ('mean', small_3d, lambda t: [1], 'dim', types, False, "skipIfDoubleTensor;skipIfFloatTensor;skipIfHalfTensor"),
-    ('mode', small_3d, lambda t: [],),
-    ('mode', small_3d, lambda t: [1], 'dim'),
-    ('mode', small_3d, lambda t: [-1], 'neg_dim'),
+    ('mode', small_3d, lambda t: [],'', types, False,
+            "skipIfByteTensor;skipIfCharTensor;skipIfDoubleTensor;skipIfFloatTensor;skipIfHalfTensor;skipIfIntTensor;skipIfLongTensor;skipIfShortTensor"),
+    ('mode', small_3d, lambda t: [1], 'dim', types, False, 
+            "skipIfByteTensor;skipIfCharTensor;skipIfDoubleTensor;skipIfFloatTensor;skipIfHalfTensor;skipIfIntTensor;skipIfLongTensor;skipIfShortTensor"),
+    ('mode', small_3d, lambda t: [-1], 'neg_dim', types, False, 
+            "skipIfByteTensor;skipIfCharTensor;skipIfDoubleTensor;skipIfFloatTensor;skipIfHalfTensor;skipIfIntTensor;skipIfLongTensor;skipIfShortTensor"),
     ('mvlgamma', lambda t: tensor_clamp(small_2d(t), 0.1, 10), lambda t: [1], '2d_p=1', float_types_no_half, False, "skipIfDoubleTensor;skipIfFloatTensor"),
     ('mvlgamma', lambda t: tensor_clamp(small_2d(t), 0.6, 10), lambda t: [2], '2d_p=2', float_types_no_half, False, "skipIfDoubleTensor;skipIfFloatTensor"),
     ('remainder', small_3d, lambda t: [3], 'value', types, False, "skipIfHalfTensor"),
@@ -924,6 +931,7 @@ def test_broadcast_cpu(self):
     def test_broadcast_gpu(self):
         self._test_broadcast(torch.randn(5, 5).cuda())
 
+    @skipIfRocm
     def test_min_max_nan(self):
         tests = [(lambda x: x.min(), 'min'),
                  (lambda x: x.max(), 'max'),
@@ -1656,6 +1664,7 @@ def test_btrisolve(self):
     def test_dim_reduction(self):
         TestTorch._test_dim_reduction(self, lambda t: t.cuda())
 
+    @skipIfRocm
     def test_tensor_gather(self):
         TestTorch._test_gather(self, lambda t: t.cuda(), False)
 
@@ -1669,6 +1678,7 @@ def test_tensor_scatterAdd(self):
     def test_tensor_scatterFill(self):
         TestTorch._test_scatter_base(self, lambda t: t.cuda(), 'scatter_', True, test_bounds=False)
 
+    @skipIfRocm
     def test_min_max_inits(self):
         # Testing if THC_reduceAll received the correct index initialization.
         # This affects the result of THC_reduceAll operations at extreme values
diff --git a/tools/amd_build/disabled_features.yaml b/tools/amd_build/disabled_features.yaml
@@ -97,27 +97,6 @@
           "struct mtgp32_kernel_params": "mtgp32_kernel_params"
         }
       },
-      {
-        "path": "aten/src/ATen/native/cuda/CuFFTUtils.h",
-        "s_constants": {
-          "#include <cufft.h>": "",
-          "#include <cufftXt.h>": ""
-        }
-      },
-      {
-        "path": "aten/src/ATen/native/cuda/CuFFTPlanCache.h",
-        "s_constants": {
-          "#include <cufft.h>": "",
-          "#include <cufftXt.h>": ""
-        }
-      },
-      {
-        "path": "aten/src/ATen/native/cuda/SpectralOps.cu",
-        "s_constants": {
-          "#include <cufft.h>": "",
-          "#include <cufftXt.h>": ""
-        }
-      },
       {
         "path": "aten/src/ATen/native/cuda/RoiPooling.cu",
         "s_constants": {
@@ -142,9 +121,6 @@
       }
     ],
   "disabled_modules": [
-    "aten/src/ATen/native/cuda/CuFFTUtils.h",
-    "aten/src/ATen/native/cuda/CuFFTPlanCache.h",
-    "aten/src/ATen/native/cuda/SpectralOps.cu",
   ],
   "disabled_functions": [
     {
diff --git a/tools/amd_build/pyHIPIFY/constants.py b/tools/amd_build/pyHIPIFY/constants.py
@@ -50,7 +50,8 @@
 API_SPARSE = 40
 API_RAND = 41
 API_LAST = 42
+API_FFT = 43
 
 HIP_UNSUPPORTED = 43
 API_PYTORCH = 1337
-API_CAFFE2 = 1338
+API_CAFFE2 = 1338
diff --git a/tools/amd_build/pyHIPIFY/cuda_to_hip_mappings.py b/tools/amd_build/pyHIPIFY/cuda_to_hip_mappings.py