amdgpu: use larger gart window when possible

Pierre-Eric Pelloux-Prayer Thu, 13 Nov 2025 08:13:41 -0800

Entities' gart windows are contiguous so when copying a buffer
and src doesn't need a gart window, its window can be used to
extend dst one (and vice versa).


This doubles the gart window size and reduces the number of jobs
required.

---
v2: pass adev instead of ring to amdgpu_ttm_needs_gart_window
---

Signed-off-by: Pierre-Eric Pelloux-Prayer <[email protected]>
---
 drivers/gpu/drm/amd/amdgpu/amdgpu_ttm.c | 84 ++++++++++++++++++-------
 1 file changed, 62 insertions(+), 22 deletions(-)

diff --git a/drivers/gpu/drm/amd/amdgpu/amdgpu_ttm.c 
b/drivers/gpu/drm/amd/amdgpu/amdgpu_ttm.c
index 0a55bc4ea91f..9397459ec462 100644
--- a/drivers/gpu/drm/amd/amdgpu/amdgpu_ttm.c
+++ b/drivers/gpu/drm/amd/amdgpu/amdgpu_ttm.c
@@ -162,6 +162,21 @@ static void amdgpu_evict_flags(struct ttm_buffer_object 
*bo,
        *placement = abo->placement;
 }
 
+static bool amdgpu_ttm_needs_gart_window(struct amdgpu_device *adev,
+                                        struct ttm_resource *mem,
+                                        struct amdgpu_res_cursor *mm_cur,
+                                        bool tmz,
+                                        uint64_t *addr)
+{
+       /* Map only what can't be accessed directly */
+       if (!tmz && mem->start != AMDGPU_BO_INVALID_OFFSET) {
+               *addr = amdgpu_ttm_domain_start(adev, mem->mem_type) +
+                       mm_cur->start;
+               return false;
+       }
+       return true;
+}
+
 /**
  * amdgpu_ttm_map_buffer - Map memory into the GART windows
  * @entity: entity to run the window setup job
@@ -169,6 +184,7 @@ static void amdgpu_evict_flags(struct ttm_buffer_object *bo,
  * @mem: memory object to map
  * @mm_cur: range to map
  * @window: which GART window to use
+ * @use_two_windows: if true, use a double window
  * @ring: DMA ring to use for the copy
  * @tmz: if we should setup a TMZ enabled mapping
  * @size: in number of bytes to map, out number of bytes mapped
@@ -182,7 +198,9 @@ static int amdgpu_ttm_map_buffer(struct drm_sched_entity 
*entity,
                                 struct ttm_buffer_object *bo,
                                 struct ttm_resource *mem,
                                 struct amdgpu_res_cursor *mm_cur,
-                                unsigned int window, struct amdgpu_ring *ring,
+                                unsigned int window,
+                                bool use_two_windows,
+                                struct amdgpu_ring *ring,
                                 bool tmz, uint64_t *size, uint64_t *addr,
                                 struct dma_fence *dep,
                                 struct dma_resv *resv)
@@ -202,13 +220,8 @@ static int amdgpu_ttm_map_buffer(struct drm_sched_entity 
*entity,
        if (WARN_ON(mem->mem_type == AMDGPU_PL_PREEMPT))
                return -EINVAL;
 
-       /* Map only what can't be accessed directly */
-       if (!tmz && mem->start != AMDGPU_BO_INVALID_OFFSET) {
-               *addr = amdgpu_ttm_domain_start(adev, mem->mem_type) +
-                       mm_cur->start;
+       if (!amdgpu_ttm_needs_gart_window(adev, mem, mm_cur, tmz, addr))
                return 0;
-       }
-
 
        /*
         * If start begins at an offset inside the page, then adjust the size
@@ -217,7 +230,8 @@ static int amdgpu_ttm_map_buffer(struct drm_sched_entity 
*entity,
        offset = mm_cur->start & ~PAGE_MASK;
 
        num_pages = PFN_UP(*size + offset);
-       num_pages = min_t(uint32_t, num_pages, AMDGPU_GTT_MAX_TRANSFER_SIZE);
+       num_pages = min_t(uint32_t,
+               num_pages, AMDGPU_GTT_MAX_TRANSFER_SIZE * (use_two_windows ? 2 
: 1));
 
        *size = min(*size, (uint64_t)num_pages * PAGE_SIZE - offset);
 
@@ -308,8 +322,11 @@ static int amdgpu_ttm_copy_mem_to_mem(struct amdgpu_device 
*adev,
                                      struct dma_resv *resv,
                                      struct dma_fence **f)
 {
+
+       bool src_needs_gart_window, dst_needs_gart_window, use_two_gart_windows;
        struct amdgpu_ring *ring;
        struct amdgpu_res_cursor src_mm, dst_mm;
+       int src_gart_window, dst_gart_window;
        struct dma_fence *fence = NULL;
        int r = 0;
        uint32_t copy_flags = 0;
@@ -335,20 +352,43 @@ static int amdgpu_ttm_copy_mem_to_mem(struct 
amdgpu_device *adev,
                /* Never copy more than 256MiB at once to avoid a timeout */
                cur_size = min3(src_mm.size, dst_mm.size, 256ULL << 20);
 
-               /* Map src to window 0 and dst to window 1. */
-               r = amdgpu_ttm_map_buffer(&entity->base,
-                                         src->bo, src->mem, &src_mm,
-                                         entity->gart_window_id0, ring, tmz, 
&cur_size, &from,
-                                         NULL, NULL);
-               if (r)
-                       goto error;
+               /* If only one direction needs a gart window to access memory, 
use both
+                * windows for it.
+                */
+               src_needs_gart_window =
+                       amdgpu_ttm_needs_gart_window(adev, src->mem, &src_mm, 
tmz, &from);
+               dst_needs_gart_window =
+                       amdgpu_ttm_needs_gart_window(adev, dst->mem, &dst_mm, 
tmz, &to);
 
-               r = amdgpu_ttm_map_buffer(&entity->base,
-                                         dst->bo, dst->mem, &dst_mm,
-                                         entity->gart_window_id1, ring, tmz, 
&cur_size, &to,
-                                         NULL, NULL);
-               if (r)
-                       goto error;
+               if (src_needs_gart_window) {
+                       src_gart_window = entity->gart_window_id0;
+                       use_two_gart_windows = !dst_needs_gart_window;
+               }
+               if (dst_needs_gart_window) {
+                       dst_gart_window = src_needs_gart_window ?
+                               entity->gart_window_id1 : 
entity->gart_window_id0;
+                       use_two_gart_windows = !src_needs_gart_window;
+               }
+
+               if (src_needs_gart_window) {
+                       r = amdgpu_ttm_map_buffer(&entity->base,
+                                                 src->bo, src->mem, &src_mm,
+                                                 src_gart_window, 
use_two_gart_windows,
+                                                 ring, tmz, &cur_size, &from,
+                                                 NULL, NULL);
+                       if (r)
+                               goto error;
+               }
+
+               if (dst_needs_gart_window) {
+                       r = amdgpu_ttm_map_buffer(&entity->base,
+                                                 dst->bo, dst->mem, &dst_mm,
+                                                 dst_gart_window, 
use_two_gart_windows,
+                                                 ring, tmz, &cur_size, &to,
+                                                 NULL, NULL);
+                       if (r)
+                               goto error;
+               }
 
                abo_src = ttm_to_amdgpu_bo(src->bo);
                abo_dst = ttm_to_amdgpu_bo(dst->bo);
@@ -2476,7 +2516,7 @@ int amdgpu_ttm_clear_buffer(struct 
amdgpu_ttm_buffer_entity *entity,
 
                r = amdgpu_ttm_map_buffer(&entity->base,
                                          &bo->tbo, bo->tbo.resource, &dst,
-                                         entity->gart_window_id1, ring, false,
+                                         entity->gart_window_id1, false, ring, 
false,
                                          &cur_size, &to,
                                          dependency,
                                          resv);
-- 
2.43.0

[PATCH v2 19/20] drm/amdgpu: use larger gart window when possible

Reply via email to