from:"Changpeng Fang via cfe\-commits"

[clang] [llvm] [AMDGPU] Support cluster_load_async_to_lds instructions on gfx1250 (PR #156595)

2025-09-03 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng closed https://github.com/llvm/llvm-project/pull/156595 ___ cfe-commits mailing list cfe-commits@lists.llvm.org https://lists.llvm.org/cgi-bin/mailman/listinfo/cfe-commits

[clang] [llvm] [AMDGPU] Support cluster_load_async_to_lds instructions on gfx1250 (PR #156595)

2025-09-03 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng updated https://github.com/llvm/llvm-project/pull/156595 >From e1dd9629e396f1786903f7cda38072253ffaca00 Mon Sep 17 00:00:00 2001 From: Changpeng Fang Date: Tue, 2 Sep 2025 23:50:28 -0700 Subject: [PATCH 1/2] [AMDGPU] Support cluster_load_async_to_lds instructions o

[clang] [llvm] [AMDGPU] Support cluster_load_async_to_lds instructions on gfx1250 (PR #156595)

2025-09-03 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng created https://github.com/llvm/llvm-project/pull/156595 None >From e1dd9629e396f1786903f7cda38072253ffaca00 Mon Sep 17 00:00:00 2001 From: Changpeng Fang Date: Tue, 2 Sep 2025 23:50:28 -0700 Subject: [PATCH] [AMDGPU] Support cluster_load_async_to_lds instructions

[clang] [llvm] [AMDGPU] Support cluster_load_async_to_lds instructions on gfx1250 (PR #156595)

2025-09-03 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng updated https://github.com/llvm/llvm-project/pull/156595 >From e1dd9629e396f1786903f7cda38072253ffaca00 Mon Sep 17 00:00:00 2001 From: Changpeng Fang Date: Tue, 2 Sep 2025 23:50:28 -0700 Subject: [PATCH 1/2] [AMDGPU] Support cluster_load_async_to_lds instructions o

[clang] [llvm] [AMDGPU] Add gfx1250 wmma_scale[16]_f32_32x16x128_f4 instructions (PR #152194)

2025-08-05 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng approved this pull request. https://github.com/llvm/llvm-project/pull/152194 ___ cfe-commits mailing list cfe-commits@lists.llvm.org https://lists.llvm.org/cgi-bin/mailman/listinfo/cfe-commits

[clang] [llvm] [AMDGPU] gfx1250 v_permlane_* instructions (PR #151749)

2025-08-01 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng approved this pull request. https://github.com/llvm/llvm-project/pull/151749 ___ cfe-commits mailing list cfe-commits@lists.llvm.org https://lists.llvm.org/cgi-bin/mailman/listinfo/cfe-commits

[clang] [llvm] [AMDGPU] Support builtin/intrinsics for async loads/stores on gfx1250 (PR #151058)

2025-07-29 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng closed https://github.com/llvm/llvm-project/pull/151058 ___ cfe-commits mailing list cfe-commits@lists.llvm.org https://lists.llvm.org/cgi-bin/mailman/listinfo/cfe-commits

[clang] AMDGPU: Allow readonly features to be written to IR when there is no target (PR #148141)

2025-07-29 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng closed https://github.com/llvm/llvm-project/pull/148141 ___ cfe-commits mailing list cfe-commits@lists.llvm.org https://lists.llvm.org/cgi-bin/mailman/listinfo/cfe-commits

[clang] [llvm] [AMDGPU] Support builtin/intrinsics for async loads/stores on gfx1250 (PR #151058)

2025-07-28 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng updated https://github.com/llvm/llvm-project/pull/151058 Unicorn! · GitHub body { background-color: #f1f1f1; margin: 0; font-family: "Helvetica Neue", Helvetica, Arial, sans-serif; } .container { margin: 50px

[clang] [llvm] [AMDGPU] Support builtin/intrinsics for async loads/stores on gfx1250 (PR #151058)

2025-07-28 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng created https://github.com/llvm/llvm-project/pull/151058 None Unicorn! · GitHub body { background-color: #f1f1f1; margin: 0; font-family: "Helvetica Neue", Helvetica, Arial, sans-serif; } .container { margin:

[clang] AMDGPU: Remove "gws" from the “read-only” target feature list (PR #148141)

2025-07-21 Thread Changpeng Fang via cfe-commits

changpeng wrote: Thanks @yxsamliu and @arsenm for the suggestions. Now we mark these features as read-only if and only if the target supports them. The "ReadOnly" logic still works as it is supposed to. https://github.com/llvm/llvm-project/pull/148141 __

[clang] AMDGPU: Remove "gws" from the “read-only” target feature list (PR #148141)

2025-07-21 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng updated https://github.com/llvm/llvm-project/pull/148141 >From c9cf9873e35205f9715acd545680713c0dd912aa Mon Sep 17 00:00:00 2001 From: Changpeng Fang Date: Fri, 11 Jul 2025 01:04:04 -0700 Subject: [PATCH 1/4] =?UTF-8?q?AMDGPU:=20Remove=20"gws"=20from=20the=20?= =?U

[clang] [llvm] AMDGPU: Support v_wmma_f32_16x16x128_f8f6f4 on gfx1250 (PR #149684)

2025-07-21 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng closed https://github.com/llvm/llvm-project/pull/149684 ___ cfe-commits mailing list cfe-commits@lists.llvm.org https://lists.llvm.org/cgi-bin/mailman/listinfo/cfe-commits

[clang] [llvm] AMDGPU: Support v_wmma_f32_16x16x128_f8f6f4 on gfx1250 (PR #149684)

2025-07-21 Thread Changpeng Fang via cfe-commits

@@ -6627,6 +6627,54 @@ void Verifier::visitIntrinsicCall(Intrinsic::ID ID, CallBase &Call) { "invalid vector type for format", &Call, Src1, Call.getArgOperand(5)); break; } + case Intrinsic::amdgcn_wmma_f32_16x16x128_f8f6f4: { +Value *Src0 = Call.getArgOp

[clang] AMDGPU: Remove "gws" from the “read-only” target feature list (PR #148141)

2025-07-18 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng updated https://github.com/llvm/llvm-project/pull/148141 >From c9cf9873e35205f9715acd545680713c0dd912aa Mon Sep 17 00:00:00 2001 From: Changpeng Fang Date: Fri, 11 Jul 2025 01:04:04 -0700 Subject: [PATCH 1/3] =?UTF-8?q?AMDGPU:=20Remove=20"gws"=20from=20the=20?= =?U

[clang] [llvm] [AMDGPU] Add support for `v_cos_bf16_e64` on gfx1250 (PR #149355)

2025-07-17 Thread Changpeng Fang via cfe-commits

changpeng wrote: > but we do have `v_cos_bf16` in `llvm/test/MC/AMDGPU/gfx1250_asm_vop1.s`? I meant your original subject is v_sin_bf16, but the patch is about v_cos_bf16 https://github.com/llvm/llvm-project/pull/149355 ___ cfe-commits mailing list cf

[clang] [llvm] [AMDGPU] Add support for `v_cos_bf16_e64` on gfx1250 (PR #149355)

2025-07-17 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng approved this pull request. LGTM. Changed subject to "v_cos_bf16_e64" based on the contents. https://github.com/llvm/llvm-project/pull/149355 ___ cfe-commits mailing list cfe-commits@lists.llvm.org https://lists.llvm.org/cg

[clang] [llvm] [AMDGPU] Add support for `v_cos_bf16_e64` on gfx1250 (PR #149355)

2025-07-17 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng edited https://github.com/llvm/llvm-project/pull/149355 ___ cfe-commits mailing list cfe-commits@lists.llvm.org https://lists.llvm.org/cgi-bin/mailman/listinfo/cfe-commits

[clang] AMDGPU: Remove "gws" from the “read-only” target feature list (PR #148141)

2025-07-15 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng updated https://github.com/llvm/llvm-project/pull/148141 >From c9cf9873e35205f9715acd545680713c0dd912aa Mon Sep 17 00:00:00 2001 From: Changpeng Fang Date: Fri, 11 Jul 2025 01:04:04 -0700 Subject: [PATCH 1/3] =?UTF-8?q?AMDGPU:=20Remove=20"gws"=20from=20the=20?= =?U

[clang] AMDGPU: Implement builtins for gfx1250 wmma instructions (PR #148991)

2025-07-15 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng updated https://github.com/llvm/llvm-project/pull/148991 >From 074800e1906bcce1cc0110c759a6d141ce4ea322 Mon Sep 17 00:00:00 2001 From: Changpeng Fang Date: Tue, 15 Jul 2025 16:37:20 -0700 Subject: [PATCH 1/2] AMDGPU: Implement builtins for gfx1250 wmma instructions

[clang] AMDGPU: Remove "gws" from the “read-only” target feature list (PR #148141)

2025-07-15 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng updated https://github.com/llvm/llvm-project/pull/148141 >From c9cf9873e35205f9715acd545680713c0dd912aa Mon Sep 17 00:00:00 2001 From: Changpeng Fang Date: Fri, 11 Jul 2025 01:04:04 -0700 Subject: [PATCH 1/3] =?UTF-8?q?AMDGPU:=20Remove=20"gws"=20from=20the=20?= =?U

[clang] AMDGPU: Remove "gws" from the “read-only” target feature list (PR #148141)

2025-07-14 Thread Changpeng Fang via cfe-commits

@@ -816,12 +816,12 @@ kernel void test_target_features_kernel(global int *i) { // NOCPU: attributes #[[ATTR10]] = { convergent nounwind } //. // GFX900: attributes #[[ATTR0:[0-9]+]] = { "objc_arc_inert" } -// GFX900: attributes #[[ATTR1]] = { convergent norecurse nounwind "den

[clang] [llvm] AMDGPU: Implement s_wait_asynccnt and s_wait_tensorcnt for gfx1250 (PR #148292)

2025-07-11 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng closed https://github.com/llvm/llvm-project/pull/148292 ___ cfe-commits mailing list cfe-commits@lists.llvm.org https://lists.llvm.org/cgi-bin/mailman/listinfo/cfe-commits

[clang] [llvm] AMDGPU: Implement s_wait_asynccnt and s_wait_tensorcnt for gfx1250 (PR #148292)

2025-07-11 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng created https://github.com/llvm/llvm-project/pull/148292 None >From c220c16d134dd1a1690e973abd4ca5b2401e6510 Mon Sep 17 00:00:00 2001 From: Changpeng Fang Date: Fri, 11 Jul 2025 13:20:00 -0700 Subject: [PATCH] AMDGPU: Implement s_wait_asynccnt and s_wait_tensorcnt

[clang] AMDGPU: Remove "gws" from the “read-only” target feature list (PR #148141)

2025-07-11 Thread Changpeng Fang via cfe-commits

@@ -266,7 +266,7 @@ AMDGPUTargetInfo::AMDGPUTargetInfo(const llvm::Triple &Triple, MaxAtomicPromoteWidth = MaxAtomicInlineWidth = 64; CUMode = !(GPUFeatures & llvm::AMDGPU::FEATURE_WGP); - for (auto F : {"image-insts", "gws", "vmem-to-lds-load-insts"}) + for (auto F : {

[clang] AMDGPU: Remove "gws" from the “read-only” target feature list (PR #148141)

2025-07-11 Thread Changpeng Fang via cfe-commits

@@ -816,12 +816,12 @@ kernel void test_target_features_kernel(global int *i) { // NOCPU: attributes #[[ATTR10]] = { convergent nounwind } //. // GFX900: attributes #[[ATTR0:[0-9]+]] = { "objc_arc_inert" } -// GFX900: attributes #[[ATTR1]] = { convergent norecurse nounwind "den

[clang] AMDGPU: Remove "gws" from the “read-only” target feature list (PR #148141)

2025-07-11 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng updated https://github.com/llvm/llvm-project/pull/148141 >From c9cf9873e35205f9715acd545680713c0dd912aa Mon Sep 17 00:00:00 2001 From: Changpeng Fang Date: Fri, 11 Jul 2025 01:04:04 -0700 Subject: [PATCH 1/3] =?UTF-8?q?AMDGPU:=20Remove=20"gws"=20from=20the=20?= =?U

[clang] AMDGPU: Remove "gws" from the “read-only” target feature list (PR #148141)

2025-07-11 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng updated https://github.com/llvm/llvm-project/pull/148141 >From c9cf9873e35205f9715acd545680713c0dd912aa Mon Sep 17 00:00:00 2001 From: Changpeng Fang Date: Fri, 11 Jul 2025 01:04:04 -0700 Subject: [PATCH 1/2] =?UTF-8?q?AMDGPU:=20Remove=20"gws"=20from=20the=20?= =?U

[clang] AMDGPU: Remove "gws" from the “read-only” target feature list (PR #148141)

2025-07-11 Thread Changpeng Fang via cfe-commits

changpeng wrote: Need to fix two additional LIT tests... https://github.com/llvm/llvm-project/pull/148141 ___ cfe-commits mailing list cfe-commits@lists.llvm.org https://lists.llvm.org/cgi-bin/mailman/listinfo/cfe-commits

[clang] AMDGPU: Remove "gws" from the “read-only” target feature list (PR #148141)

2025-07-11 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng created https://github.com/llvm/llvm-project/pull/148141 Since this feature is no longer universally available, we may need it in the IR. Fixes: SWDEV-541399 >From c9cf9873e35205f9715acd545680713c0dd912aa Mon Sep 17 00:00:00 2001 From: Changpeng Fang Date: Fri,

[clang] [llvm] AMDGPU: Implement tensor load and store instructions for gfx1250 (PR #146636)

2025-07-03 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng closed https://github.com/llvm/llvm-project/pull/146636 ___ cfe-commits mailing list cfe-commits@lists.llvm.org https://lists.llvm.org/cgi-bin/mailman/listinfo/cfe-commits

[clang] [llvm] AMDGPU: Implement tensor load and store instructions for gfx1250 (PR #146636)

2025-07-02 Thread Changpeng Fang via cfe-commits

@@ -5354,6 +5368,22 @@ AMDGPURegisterBankInfo::getInstrMapping(const MachineInstr &MI) const { } case Intrinsic::amdgcn_pops_exiting_wave_id: return getDefaultMappingSOP(MI); +case Intrinsic::amdgcn_tensor_load_to_lds_d2: +case Intrinsic::amdgcn_tensor_st

[clang] [llvm] AMDGPU: Implement tensor load and store instructions for gfx1250 (PR #146636)

2025-07-02 Thread Changpeng Fang via cfe-commits

@@ -3580,6 +3580,37 @@ def int_amdgcn_fdiv_fast : DefaultAttrsIntrinsic< [IntrNoMem, IntrSpeculatable] >; +class AMDGPUTensorLoadStore: + Intrinsic< +[], +[llvm_v4i32_ty, // D# group 0 + llvm_v8i32_ty, // D# group 1 + llvm_v4i32_ty, // D# group 2 + llvm_

[clang] [llvm] AMDGPU: Implement tensor load and store instructions for gfx1250 (PR #146636)

2025-07-02 Thread Changpeng Fang via cfe-commits

@@ -621,6 +621,32 @@ Value *CodeGenFunction::EmitAMDGPUBuiltinExpr(unsigned BuiltinID, llvm::Function *F = CGM.getIntrinsic(IID, {LoadTy}); return Builder.CreateCall(F, {Addr}); } + case AMDGPU::BI__builtin_amdgcn_tensor_load_to_lds: + case AMDGPU::BI__builtin_amdg

[clang] [llvm] AMDGPU: Implement tensor load and store instructions for gfx1250 (PR #146636)

2025-07-02 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng updated https://github.com/llvm/llvm-project/pull/146636 >From b6aa91862046fdd021e638f0f22e9cbbbfba418f Mon Sep 17 00:00:00 2001 From: Changpeng Fang Date: Tue, 1 Jul 2025 22:41:41 -0700 Subject: [PATCH 1/2] AMDGPU: Implement tensor load and store instructions for

[clang] [llvm] AMDGPU: Implement tensor load and store instructions for gfx1250 (PR #146636)

2025-07-02 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng edited https://github.com/llvm/llvm-project/pull/146636 ___ cfe-commits mailing list cfe-commits@lists.llvm.org https://lists.llvm.org/cgi-bin/mailman/listinfo/cfe-commits

[clang] [llvm] AMDGPU: Implement tensor load and store instructions for gfx1250 (PR #146636)

2025-07-02 Thread Changpeng Fang via cfe-commits

@@ -5354,6 +5368,22 @@ AMDGPURegisterBankInfo::getInstrMapping(const MachineInstr &MI) const { } case Intrinsic::amdgcn_pops_exiting_wave_id: return getDefaultMappingSOP(MI); +case Intrinsic::amdgcn_tensor_load_to_lds_d2: +case Intrinsic::amdgcn_tensor_st

[clang] [llvm] AMDGPU: Add MC layer support for load transpose instructions for gfx1250 (PR #146024)

2025-07-02 Thread Changpeng Fang via cfe-commits

@@ -1092,19 +1092,23 @@ let SubtargetPredicate = isGFX12Plus in { } let WaveSizePredicate = isWave32 in { -let Mnemonic = "global_load_tr_b128" in -defm GLOBAL_LOAD_TR_B128_w32 : FLAT_Global_Load_Pseudo <"global_load_tr_b128_w32", VReg_128>; -let Mnemonic = "

[clang] [llvm] AMDGPU: Implement tensor load and store instructions for gfx1250 (PR #146636)

2025-07-01 Thread Changpeng Fang via cfe-commits

@@ -621,6 +621,32 @@ Value *CodeGenFunction::EmitAMDGPUBuiltinExpr(unsigned BuiltinID, llvm::Function *F = CGM.getIntrinsic(IID, {LoadTy}); return Builder.CreateCall(F, {Addr}); } + case AMDGPU::BI__builtin_amdgcn_tensor_load_to_lds: + case AMDGPU::BI__builtin_amdg

[clang] [llvm] AMDGPU: Implement tensor load and store instructions for gfx1250 (PR #146636)

2025-07-01 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng edited https://github.com/llvm/llvm-project/pull/146636 ___ cfe-commits mailing list cfe-commits@lists.llvm.org https://lists.llvm.org/cgi-bin/mailman/listinfo/cfe-commits

[clang] [llvm] AMDGPU: Implement tensor load and store instructions for gfx1250 (PR #146636)

2025-07-01 Thread Changpeng Fang via cfe-commits

@@ -621,6 +621,32 @@ Value *CodeGenFunction::EmitAMDGPUBuiltinExpr(unsigned BuiltinID, llvm::Function *F = CGM.getIntrinsic(IID, {LoadTy}); return Builder.CreateCall(F, {Addr}); } + case AMDGPU::BI__builtin_amdgcn_tensor_load_to_lds: + case AMDGPU::BI__builtin_amdg

[clang] [llvm] AMDGPU: Implement tensor load and store instructions for gfx1250 (PR #146636)

2025-07-01 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng created https://github.com/llvm/llvm-project/pull/146636 None >From b6aa91862046fdd021e638f0f22e9cbbbfba418f Mon Sep 17 00:00:00 2001 From: Changpeng Fang Date: Tue, 1 Jul 2025 22:41:41 -0700 Subject: [PATCH] AMDGPU: Implement tensor load and store instructions for

[clang] [llvm] AMDGPU: Implement ds_atomic_async_barrier_arrive_b64/ds_atomic_barrier_arrive_rtn_b64 (PR #146409)

2025-07-01 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng closed https://github.com/llvm/llvm-project/pull/146409 ___ cfe-commits mailing list cfe-commits@lists.llvm.org https://lists.llvm.org/cgi-bin/mailman/listinfo/cfe-commits

[clang] [llvm] AMDGPU: Implement ds_atomic_async_barrier_arrive_b64/ds_atomic_barrier_arrive_rtn_b64 (PR #146409)

2025-06-30 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng created https://github.com/llvm/llvm-project/pull/146409 These two instructions are supported by gfx1250. We define the instructions and implement the corresponding intrinsic and builtin. >From ea949512b4c2234dffad366cf782f6e5c62f37d7 Mon Sep 17 00:00:00 2001 Fro

[clang] [llvm] AMDGPU: support s_monitor_sleep on gfx1250 (PR #146293)

2025-06-29 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng closed https://github.com/llvm/llvm-project/pull/146293 ___ cfe-commits mailing list cfe-commits@lists.llvm.org https://lists.llvm.org/cgi-bin/mailman/listinfo/cfe-commits

[clang] [llvm] AMDGPU: support s_monitor_sleep on gfx1250 (PR #146293)

2025-06-29 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng edited https://github.com/llvm/llvm-project/pull/146293 ___ cfe-commits mailing list cfe-commits@lists.llvm.org https://lists.llvm.org/cgi-bin/mailman/listinfo/cfe-commits

[clang] [llvm] AMDGPU: support s_monitor_sleep on gfx1250 (PR #146293)

2025-06-29 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng created https://github.com/llvm/llvm-project/pull/146293 None >From d6f55a31a5b9cc0716149424e219d219c2970d0c Mon Sep 17 00:00:00 2001 From: Changpeng Fang Date: Sun, 29 Jun 2025 16:03:46 -0700 Subject: [PATCH] AMDGPU: support s_monitor_sleep on gfx1250 Co-Authored

[clang] [llvm] AMDGPU: Implement intrinsic/builtins for gfx1250 load transpose instructions (PR #146289)

2025-06-29 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng closed https://github.com/llvm/llvm-project/pull/146289 ___ cfe-commits mailing list cfe-commits@lists.llvm.org https://lists.llvm.org/cgi-bin/mailman/listinfo/cfe-commits

[clang] [llvm] AMDGPU: Implement intrinsic/builtins for gfx1250 load transpose instructions (PR #146289)

2025-06-29 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng created https://github.com/llvm/llvm-project/pull/146289 None >From fc2039dcf338f04977b2a0b43e8714cb5eb0f440 Mon Sep 17 00:00:00 2001 From: Changpeng Fang Date: Fri, 27 Jun 2025 14:59:33 -0700 Subject: [PATCH] AMDGPU: Implement intrinsic/builtins for gfx1250 load

[clang] [llvm] AMDGPU: Add MC layer support for load transpose instructions for gfx1250 (PR #146024)

2025-06-26 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng closed https://github.com/llvm/llvm-project/pull/146024 ___ cfe-commits mailing list cfe-commits@lists.llvm.org https://lists.llvm.org/cgi-bin/mailman/listinfo/cfe-commits

[clang] [CUDA][HIP] Fix host/device attribute of builtin (PR #138162)

2025-05-07 Thread Changpeng Fang via cfe-commits

changpeng wrote: @Artem-B : any further suggestions? Thanks. https://github.com/llvm/llvm-project/pull/138162 ___ cfe-commits mailing list cfe-commits@lists.llvm.org https://lists.llvm.org/cgi-bin/mailman/listinfo/cfe-commits

[clang] [Clang][OpenCL][AMDGPU] OpenCL Kernel stubs should be assigned alwaysinline attribute (PR #137769)

2025-05-05 Thread Changpeng Fang via cfe-commits

changpeng wrote: > In practice this should be a single use of an internal function and should > not require this hint. Is this papering over a different issue? If in practice the single-used internal function should always be inlined, then we must have an issue for ubuntu 24.04: The stub is in

[clang] [llvm] AMDGPU: Loop over the types for global_load_tr16 pats (NFC) (PR #99551)

2024-07-18 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng closed https://github.com/llvm/llvm-project/pull/99551 ___ cfe-commits mailing list cfe-commits@lists.llvm.org https://lists.llvm.org/cgi-bin/mailman/listinfo/cfe-commits

[clang] [llvm] AMDGPU: Loop over the types for global_load_tr16 pats (NFC) (PR #99551)

2024-07-18 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng created https://github.com/llvm/llvm-project/pull/99551 None >From 31601c539553d7af0efd94722eabf4627f8a387c Mon Sep 17 00:00:00 2001 From: Changpeng Fang Date: Thu, 18 Jul 2024 11:03:24 -0700 Subject: [PATCH 1/2] AMDGPU: Add back half and bfloat support for global

[clang] [llvm] AMDGPU: Add back half and bfloat support for global_load_tr16 pats (PR #99540)

2024-07-18 Thread Changpeng Fang via cfe-commits

@@ -1590,10 +1590,14 @@ let OtherPredicates = [isGFX12Plus] in { let WaveSizePredicate = isWave32 in { defm : GlobalFLATLoadPats ; defm : GlobalFLATLoadPats ; +defm : GlobalFLATLoadPats ; +defm : GlobalFLATLoadPats ; } let WaveSizePredicate = isWave64 in

[clang] [llvm] AMDGPU: Add back half and bfloat support for global_load_tr16 pats (PR #99540)

2024-07-18 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng closed https://github.com/llvm/llvm-project/pull/99540 ___ cfe-commits mailing list cfe-commits@lists.llvm.org https://lists.llvm.org/cgi-bin/mailman/listinfo/cfe-commits

[clang] [llvm] AMDGPU: Add back half and bfloat support for global_load_tr16 pats (PR #99540)

2024-07-18 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng created https://github.com/llvm/llvm-project/pull/99540 half and bfloat are common types for 16-bit elements. The support of them was original there and dropped due to some reasons. This work adds the support of the float types back. >From 31601c539553d7af0efd947

[clang] [OpenCL] Fix an infinite loop in builidng AddrSpaceQualType (PR #92612)

2024-05-20 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng closed https://github.com/llvm/llvm-project/pull/92612 ___ cfe-commits mailing list cfe-commits@lists.llvm.org https://lists.llvm.org/cgi-bin/mailman/listinfo/cfe-commits

[clang] [OpenCL] Fix an infinite loop in builidng AddrSpaceQualType (PR #92612)

2024-05-18 Thread Changpeng Fang via cfe-commits

@@ -0,0 +1,25 @@ +// NOTE: Assertions have been autogenerated by utils/update_cc_test_checks.py UTC_ARGS: --version 4 +//RUN: %clang_cc1 %s -emit-llvm -O1 -o - | FileCheck %s changpeng wrote: add "triple spir", same as other tests in the same directory https://

[clang] [OpenCL] Fix an infinite loop in builidng AddrSpaceQualType (PR #92612)

2024-05-18 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng updated https://github.com/llvm/llvm-project/pull/92612 >From 2468a85a47499d90a99610846c632332eb7307b8 Mon Sep 17 00:00:00 2001 From: Changpeng Fang Date: Fri, 17 May 2024 15:13:07 -0700 Subject: [PATCH 1/3] [OpenCL] Fix an infinite loop in builidng AddrSpaceQualTy

[clang] [OpenCL] Fix an infinite loop in builidng AddrSpaceQualType (PR #92612)

2024-05-18 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng edited https://github.com/llvm/llvm-project/pull/92612 ___ cfe-commits mailing list cfe-commits@lists.llvm.org https://lists.llvm.org/cgi-bin/mailman/listinfo/cfe-commits

[clang] [OpenCL] Fix an infinite loop in builidng AddrSpaceQualType (PR #92612)

2024-05-18 Thread Changpeng Fang via cfe-commits

@@ -3054,6 +3054,13 @@ QualType ASTContext::removeAddrSpaceQualType(QualType T) const { if (!T.hasAddressSpace()) return T; + // For arrays, strip the qualifier off the element type, then reconstruct the + // array type + if (T.getTypePtr()->isArrayType()) { +Qua

[clang] [OpenCL] Fix an infinite loop in builidng AddrSpaceQualType (PR #92612)

2024-05-17 Thread Changpeng Fang via cfe-commits

@@ -537,8 +537,9 @@ void AggExprEmitter::EmitArrayInit(Address DestPtr, llvm::ArrayType *AType, elementType.isTriviallyCopyableType(CGF.getContext())) { CodeGen::CodeGenModule &CGM = CGF.CGM; ConstantEmitter Emitter(CGF); +Qualifiers Quals; QualType GVAr

[clang] [OpenCL] Fix an infinite loop in builidng AddrSpaceQualType (PR #92612)

2024-05-17 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng updated https://github.com/llvm/llvm-project/pull/92612 >From 2468a85a47499d90a99610846c632332eb7307b8 Mon Sep 17 00:00:00 2001 From: Changpeng Fang Date: Fri, 17 May 2024 15:13:07 -0700 Subject: [PATCH 1/2] [OpenCL] Fix an infinite loop in builidng AddrSpaceQualTy

[clang] [OpenCL] Fix an infinite loop in builidng AddrSpaceQualType (PR #92612)

2024-05-17 Thread Changpeng Fang via cfe-commits

@@ -537,8 +537,9 @@ void AggExprEmitter::EmitArrayInit(Address DestPtr, llvm::ArrayType *AType, elementType.isTriviallyCopyableType(CGF.getContext())) { CodeGen::CodeGenModule &CGM = CGF.CGM; ConstantEmitter Emitter(CGF); +Qualifiers Quals; QualType GVAr

[clang] [OpenCL] Put constant initializer globals into constant addrspace (PR #90048)

2024-05-17 Thread Changpeng Fang via cfe-commits

@@ -535,20 +535,23 @@ void AggExprEmitter::EmitArrayInit(Address DestPtr, llvm::ArrayType *AType, elementType.isTriviallyCopyableType(CGF.getContext())) { CodeGen::CodeGenModule &CGM = CGF.CGM; ConstantEmitter Emitter(CGF); -LangAS AS = ArrayQTy.getAddressSpa

[clang] [OpenCL] Fix an infinite loop in builidng AddrSpaceQualType (PR #92612)

2024-05-17 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng created https://github.com/llvm/llvm-project/pull/92612 In building AddrSpaceQualType (https://github.com/llvm/llvm-project/pull/90048), there is a bug in removeAddrSpaceQualType() for arrays. Arrays are weird because qualifiers on the element type also count as

[clang] [OpenCL] Put constant initializer globals into constant addrspace (PR #90048)

2024-05-17 Thread Changpeng Fang via cfe-commits

@@ -535,20 +535,23 @@ void AggExprEmitter::EmitArrayInit(Address DestPtr, llvm::ArrayType *AType, elementType.isTriviallyCopyableType(CGF.getContext())) { CodeGen::CodeGenModule &CGM = CGF.CGM; ConstantEmitter Emitter(CGF); -LangAS AS = ArrayQTy.getAddressSpa

[clang] [OpenCL] Put constant initializer globals into constant addrspace (PR #90048)

2024-05-17 Thread Changpeng Fang via cfe-commits

changpeng wrote: [test.cl.txt](https://github.com/llvm/llvm-project/files/15355457/test.cl.txt) https://github.com/llvm/llvm-project/pull/90048 ___ cfe-commits mailing list cfe-commits@lists.llvm.org https://lists.llvm.org/cgi-bin/mailman/listinfo/cfe

[clang] [OpenCL] Put constant initializer globals into constant addrspace (PR #90048)

2024-05-17 Thread Changpeng Fang via cfe-commits

@@ -535,20 +535,23 @@ void AggExprEmitter::EmitArrayInit(Address DestPtr, llvm::ArrayType *AType, elementType.isTriviallyCopyableType(CGF.getContext())) { CodeGen::CodeGenModule &CGM = CGF.CGM; ConstantEmitter Emitter(CGF); -LangAS AS = ArrayQTy.getAddressSpa

[clang] [OpenCL] Put constant initializer globals into constant addrspace (PR #90048)

2024-05-17 Thread Changpeng Fang via cfe-commits

@@ -535,20 +535,23 @@ void AggExprEmitter::EmitArrayInit(Address DestPtr, llvm::ArrayType *AType, elementType.isTriviallyCopyableType(CGF.getContext())) { CodeGen::CodeGenModule &CGM = CGF.CGM; ConstantEmitter Emitter(CGF); -LangAS AS = ArrayQTy.getAddressSpa

[clang] [OpenCL] Put constant initializer globals into constant addrspace (PR #90048)

2024-05-16 Thread Changpeng Fang via cfe-commits

@@ -535,20 +535,23 @@ void AggExprEmitter::EmitArrayInit(Address DestPtr, llvm::ArrayType *AType, elementType.isTriviallyCopyableType(CGF.getContext())) { CodeGen::CodeGenModule &CGM = CGF.CGM; ConstantEmitter Emitter(CGF); -LangAS AS = ArrayQTy.getAddressSpa

[clang] AMDGPU: Simplify EmitAMDGPUBuiltinExpr for load transposes, NFC (PR #86707)

2024-03-26 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng closed https://github.com/llvm/llvm-project/pull/86707 ___ cfe-commits mailing list cfe-commits@lists.llvm.org https://lists.llvm.org/cgi-bin/mailman/listinfo/cfe-commits

[clang] AMDGPU: Simplify EmitAMDGPUBuiltinExpr for load transposes, NFC (PR #86707)

2024-03-26 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng updated https://github.com/llvm/llvm-project/pull/86707 >From 485dff66813104ad73d8eada7cd7d43edf9d093d Mon Sep 17 00:00:00 2001 From: Changpeng Fang Date: Tue, 26 Mar 2024 11:06:48 -0700 Subject: [PATCH 1/3] AMDGPU: Simplify EmitAMDGPUBuiltinExpr for load transpose

[clang] AMDGPU: Simplify EmitAMDGPUBuiltinExpr for load transposes, NFC (PR #86707)

2024-03-26 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng updated https://github.com/llvm/llvm-project/pull/86707 >From 485dff66813104ad73d8eada7cd7d43edf9d093d Mon Sep 17 00:00:00 2001 From: Changpeng Fang Date: Tue, 26 Mar 2024 11:06:48 -0700 Subject: [PATCH 1/2] AMDGPU: Simplify EmitAMDGPUBuiltinExpr for load transpose

[clang] AMDGPU: Simplify EmitAMDGPUBuiltinExpr for load transposes, NFC (PR #86707)

2024-03-26 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng created https://github.com/llvm/llvm-project/pull/86707 We should not manually get the types of the loading data. Instead, we can get the types from the intrinsics directly. >From 485dff66813104ad73d8eada7cd7d43edf9d093d Mon Sep 17 00:00:00 2001 From: Changpeng Fa

[clang] [llvm] AMDGPU: Rename intrinsics and remove f16/bf16 versions for load transpose (PR #86313)

2024-03-25 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng edited https://github.com/llvm/llvm-project/pull/86313 ___ cfe-commits mailing list cfe-commits@lists.llvm.org https://lists.llvm.org/cgi-bin/mailman/listinfo/cfe-commits

[clang] [llvm] AMDGPU: Rename intrinsics and remove f16/bf16 versions for load transpose (PR #86313)

2024-03-25 Thread Changpeng Fang via cfe-commits

@@ -18533,51 +18533,35 @@ Value *CodeGenFunction::EmitAMDGPUBuiltinExpr(unsigned BuiltinID, } case AMDGPU::BI__builtin_amdgcn_global_load_tr_b64_i32: case AMDGPU::BI__builtin_amdgcn_global_load_tr_b64_v2i32: - case AMDGPU::BI__builtin_amdgcn_global_load_tr_b128_v4bf16:

[clang] [llvm] AMDGPU: Rename intrinsics and remove f16/bf16 versions for load transpose (PR #86313)

2024-03-24 Thread Changpeng Fang via cfe-commits

changpeng wrote: ping https://github.com/llvm/llvm-project/pull/86313 ___ cfe-commits mailing list cfe-commits@lists.llvm.org https://lists.llvm.org/cgi-bin/mailman/listinfo/cfe-commits

[clang] [llvm] AMDGPU: Rename intrinsics and remove f16/bf16 versions for load transpose (PR #86313)

2024-03-22 Thread Changpeng Fang via cfe-commits

changpeng wrote: > There is no issue in changing the names in principle. Curious, what is the > rationale to use more demangled names? more user friendly. https://github.com/llvm/llvm-project/pull/86313 ___ cfe-commits mailing list cfe-commits@lists.

[clang] [llvm] AMDGPU: Rename intrinsics and remove f16/bf16 versions for load transpose (PR #86313)

2024-03-22 Thread Changpeng Fang via cfe-commits

changpeng wrote: > > global_load_re_b64 > > Type global_load_re_b64. Changed! Thanks. https://github.com/llvm/llvm-project/pull/86313 ___ cfe-commits mailing list cfe-commits@lists.llvm.org https://lists.llvm.org/cgi-bin/mailman/listinfo/cfe-commits

[clang] [llvm] AMDGPU: Rename intrinsics and remove f16/bf16 versions for load transpose (PR #86313)

2024-03-22 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng edited https://github.com/llvm/llvm-project/pull/86313 ___ cfe-commits mailing list cfe-commits@lists.llvm.org https://lists.llvm.org/cgi-bin/mailman/listinfo/cfe-commits

[clang] [llvm] AMDGPU: Rename intrinsics and remove f16/bf16 versions for load transpose (PR #86313)

2024-03-22 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng created https://github.com/llvm/llvm-project/pull/86313 Rename the intrinsics to close to the instruction mnemonic names: Use global_load_re_b64 and global_load_tr_b128 instead of global_load_tr. This patch also removes f16/bf16 versions of builtins/intrinsics.

[clang] AMDGPU: Rename and add bf16 support for global_load_tr builtins (PR #86202)

2024-03-22 Thread Changpeng Fang via cfe-commits

changpeng wrote: I am going to propose to rename intrinsics and remove f16/bf16 versions of builtins/intrinsics https://github.com/llvm/llvm-project/pull/86202 ___ cfe-commits mailing list cfe-commits@lists.llvm.org https://lists.llvm.org/cgi-bin/mail

[clang] AMDGPU: Rename and add bf16 support for global_load_tr builtins (PR #86202)

2024-03-22 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng closed https://github.com/llvm/llvm-project/pull/86202 ___ cfe-commits mailing list cfe-commits@lists.llvm.org https://lists.llvm.org/cgi-bin/mailman/listinfo/cfe-commits

[clang] AMDGPU: Rename and add bf16 support for global_load_tr builtins (PR #86202)

2024-03-22 Thread Changpeng Fang via cfe-commits

changpeng wrote: [AMD Official Use Only - General] I am fine to remove f16/bf16 versions. Enumerating all possible types could be very painful. For example we gave up enumerating for B64, and ended up using v2i32 only. What do others think removing f16/bf16 versions? Thanks Get Outlook for iO

[clang] AMDGPU: Rename and add bf16 support for global_load_tr builtins (PR #86202)

2024-03-21 Thread Changpeng Fang via cfe-commits

changpeng wrote: > I don't think intrinsics are meant for users. Builtins are the user-facing > front. :-) Then renaing the intrinsics should be relatively at a lower priority. We may do it in a separate patch once we have reached an agreement. https://github.com/llvm/llvm-project/pull/86202

[clang] AMDGPU: Rename and add bf16 support for global_load_tr builtins (PR #86202)

2024-03-21 Thread Changpeng Fang via cfe-commits

changpeng wrote: > > > Do you want to rename intrinsics as well? Because now intrinsic names do > > > not match builtin names. > > > > > > Do we have to match builtins with intrinsics? Renaming intrinsics here > > means we will have to duplicate the intrinsics. > > Is that because of the man

[clang] AMDGPU: Rename and add bf16 support for global_load_tr builtins (PR #86202)

2024-03-21 Thread Changpeng Fang via cfe-commits

changpeng wrote: > Do you want to rename intrinsics as well? Because now intrinsic names do not > match builtin names. Do we have to match builtins with intrinsics? Renaming intrinsics here means we will have to duplicate the intrinsics. https://github.com/llvm/llvm-project/pull/86202 __

[clang] AMDGPU: Rename and add bf16 support for global_load_tr builtins (PR #86202)

2024-03-21 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng created https://github.com/llvm/llvm-project/pull/86202 Make the name of a clang builtin as close to the mnemonic instruction name as possible. The data type suffix may not be enough to tell what instruction the builtin is going to produce. This patch also add

[clang] [llvm] AMDGPU: Define a feature for v_dot4_f32_* instructions (PR #84248)

2024-03-06 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng closed https://github.com/llvm/llvm-project/pull/84248 ___ cfe-commits mailing list cfe-commits@lists.llvm.org https://lists.llvm.org/cgi-bin/mailman/listinfo/cfe-commits

[clang] [llvm] AMDGPU: Define a feature for v_dot4_f32_* instructions (PR #84248)

2024-03-06 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng created https://github.com/llvm/llvm-project/pull/84248 FeatureDot11Insts (dot11-insts) for: v_dot4_f32_fp8_fp8, v_dot4_f32_fp8_bf8, v_dot4_f32_bf8_fp8, v_dot4_f32_bf8_bf8 >From 1bfc1e048d10e57c3d07038f52b072163f3b4ff9 Mon Sep 17 00:00:00 2001 From: Changpeng Fa

[clang] [mlir] [llvm] [libc] [AMDGPU] Rename AMDGPULoadTr intrinsic class. NFC. (PR #79394)

2024-01-24 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng closed https://github.com/llvm/llvm-project/pull/79394 ___ cfe-commits mailing list cfe-commits@lists.llvm.org https://lists.llvm.org/cgi-bin/mailman/listinfo/cfe-commits

[clang] [mlir] [llvm] [libc] [AMDGPU] Rename AMDGPULoadTr intrinsic class. NFC. (PR #79394)

2024-01-24 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng updated https://github.com/llvm/llvm-project/pull/79394 >From 0f3af077baeff26d9796db73e7af19b097272fa2 Mon Sep 17 00:00:00 2001 From: Changpeng Fang Date: Wed, 24 Jan 2024 16:28:23 -0800 Subject: [PATCH] [AMDGPU] Rename AMDGPULoadTr intrinsic class. NFC. This cla

[libcxx] [flang] [mlir] [llvm] [compiler-rt] [clang-tools-extra] [openmp] [libc] [lldb] [lld] [clang] AMDGPU: Add SourceOfDivergence for int_amdgcn_global_load_tr (PR #79218)

2024-01-23 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng closed https://github.com/llvm/llvm-project/pull/79218 ___ cfe-commits mailing list cfe-commits@lists.llvm.org https://lists.llvm.org/cgi-bin/mailman/listinfo/cfe-commits

[libcxx] [libc] [lldb] [openmp] [clang] [mlir] [clang-tools-extra] [flang] [lld] [compiler-rt] [llvm] AMDGPU: Do not generate non-temporal hint when Load_Tr intrinsic did not specify it (PR #79104)

2024-01-23 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng closed https://github.com/llvm/llvm-project/pull/79104 ___ cfe-commits mailing list cfe-commits@lists.llvm.org https://lists.llvm.org/cgi-bin/mailman/listinfo/cfe-commits

[clang] [llvm] [AMDGPU] Add global_load_tr for GFX12 (PR #77772)

2024-01-18 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng approved this pull request. https://github.com/llvm/llvm-project/pull/2 ___ cfe-commits mailing list cfe-commits@lists.llvm.org https://lists.llvm.org/cgi-bin/mailman/listinfo/cfe-commits

[llvm] [clang] [AMDGPU] Add global_load_tr for GFX12 (PR #77772)

2024-01-12 Thread Changpeng Fang via cfe-commits

https://github.com/changpeng deleted https://github.com/llvm/llvm-project/pull/2 ___ cfe-commits mailing list cfe-commits@lists.llvm.org https://lists.llvm.org/cgi-bin/mailman/listinfo/cfe-commits

[clang] [llvm] [AMDGPU] Add global_load_tr for GFX12 (PR #77772)

2024-01-12 Thread Changpeng Fang via cfe-commits

@@ -2496,6 +2496,26 @@ def int_amdgcn_flat_atomic_fmax_num : AMDGPUAtomicRtn; def int_amdgcn_global_atomic_fmin_num : AMDGPUAtomicRtn; def int_amdgcn_global_atomic_fmax_num : AMDGPUAtomicRtn; +class AMDGPUGlobalLoadTr : + Intrinsic< +[data_ty], +[global_ptr_ty], +

[clang] [llvm] [AMDGPU] Add global_load_tr for GFX12 (PR #77772)

2024-01-12 Thread Changpeng Fang via cfe-commits

@@ -18178,6 +18178,51 @@ Value *CodeGenFunction::EmitAMDGPUBuiltinExpr(unsigned BuiltinID, llvm::Function *F = CGM.getIntrinsic(IID, {ArgTy}); return Builder.CreateCall(F, {Addr, Val, ZeroI32, ZeroI32, ZeroI1}); } + case AMDGPU::BI__builtin_amdgcn_global_load_tr_b64

1 2 >

1 - 100 of 112 matches

Mail list logo