use ggml_backend_tensor_get_async and sync for cuda backend

leejet · leejet · commit 421e39b0f0aa · 2023-12-23T14:38:04.000+08:00
diff --git a/stable-diffusion.cpp b/stable-diffusion.cpp
@@ -606,8 +606,12 @@ std::pair<std::unordered_map<std::string, float>, std::string> extract_and_remov
 }
 
 void ggml_backend_tensor_get_and_sync(ggml_backend_t backend, const struct ggml_tensor * tensor, void * data, size_t offset, size_t size) {
-    ggml_backend_tensor_get(tensor, data, offset, size);
-    ggml_backend_synchronize(backend);
+    #ifdef SD_USE_CUBLAS
+        ggml_backend_tensor_get_async(backend, tensor, data, offset, size);
+        ggml_backend_synchronize(backend);
+    #else
+        ggml_backend_tensor_get(tensor, data, offset, size);
+    #endif
 }
 
 /*================================================== CLIPTokenizer ===================================================*/

Original file line number	Diff line number	Diff line change
`@@ -606,8 +606,12 @@ std::pair<std::unordered_map<std::string, float>, std::string> extract_and_remov`
`606`	`606`	`}`
`607`	`607`
`608`	`608`	`void ggml_backend_tensor_get_and_sync(ggml_backend_t backend, const struct ggml_tensor * tensor, void * data, size_t offset, size_t size) {`
`609`		`- ggml_backend_tensor_get(tensor, data, offset, size);`
`610`		`- ggml_backend_synchronize(backend);`
	`609`	`+ #ifdef SD_USE_CUBLAS`
	`610`	`+ ggml_backend_tensor_get_async(backend, tensor, data, offset, size);`
	`611`	`+ ggml_backend_synchronize(backend);`
	`612`	`+ #else`
	`613`	`+ ggml_backend_tensor_get(tensor, data, offset, size);`
	`614`	`+ #endif`
`611`	`615`	`}`
`612`	`616`
`613`	`617`	`/================================================== CLIPTokenizer ===================================================/`