Generalize attention fusion #3403

shivadbhavsar · 2024-08-26T21:13:45Z

Comeplete solution for #2812

Changes (applicable when mlir attention is enabled):

No longer use gemm_softmax_gemm matcher in prefuse_ops pass
Add matcher for softmax base ops
Look for dot -> fused_reduce -> dot (-> pointwise) pattern in fuse_mlir pass
- for valid attention fusion, fused_reduce should end with softmax base ops
- create a single fused module consisting of these ops

Verified that the attention fusion works as before on various transformer models in our nas (bert, gpt, etc.)

codecov · 2024-08-26T21:26:47Z

Codecov Report

All modified and coverable lines are covered by tests ✅

Project coverage is 92.04%. Comparing base (fde041e) to head (df7d9f0).
Report is 1 commits behind head on develop.

Additional details and impacted files

@@           Coverage Diff            @@
##           develop    #3403   +/-   ##
========================================
  Coverage    92.04%   92.04%           
========================================
  Files          506      506           
  Lines        20856    20864    +8     
========================================
+ Hits         19196    19204    +8     
  Misses        1660     1660

☔ View full report in Codecov by Sentry.
📢 Have feedback on the report? Share it here.

src/module.cpp

src/include/migraphx/match/softmax.hpp

src/targets/gpu/prefuse_ops.cpp

test/gpu/fuse_mlir.cpp

test/module_test.cpp

CharlieL7

LGTM

src/targets/gpu/fuse_mlir.cpp

src/include/migraphx/pass_manager.hpp

shivadbhavsar · 2024-09-18T22:42:59Z

@pfultz2 @causten
I added a commit here to accept graphs with the extra reshape here, it should fix perf regressions related to that issue. This can probably be generalized to accept some number of shape ops, I think that can be a topic for a separate PR.

migraphx-bot · 2024-09-19T01:18:05Z

Test	Batch	Rate new df7d9f	Rate old 7c2fdf	Diff	Compare
torchvision-resnet50	64	3,238.65	3,249.19	-0.32%	✅
torchvision-resnet50_fp16	64	6,973.40	6,993.27	-0.28%	✅
torchvision-densenet121	32	2,379.41	2,434.31	-2.26%	✅
torchvision-densenet121_fp16	32	3,962.26	4,095.02	-3.24%	🔴
torchvision-inceptionv3	32	1,452.37	1,635.79	-11.21%	🔴
torchvision-inceptionv3_fp16	32	2,716.08	2,740.83	-0.90%	✅
cadene-inceptionv4	16	772.19	776.76	-0.59%	✅
cadene-resnext64x4	16	808.92	808.72	0.02%	✅
slim-mobilenet	64	7,449.34	7,455.28	-0.08%	✅
slim-nasnetalarge	64	208.21	208.38	-0.08%	✅
slim-resnet50v2	64	3,444.10	3,435.08	0.26%	✅
bert-mrpc-onnx	8	720.77	1,150.34	-37.34%	🔴
bert-mrpc-tf	1	310.99	314.36	-1.07%	✅
pytorch-examples-wlang-gru	1	344.16	418.46	-17.75%	🔴
pytorch-examples-wlang-lstm	1	303.87	499.68	-39.19%	🔴
torchvision-resnet50_1	1	799.94	772.72	3.52%	🔆
cadene-dpn92_1	1	436.34	397.74	9.70%	🔆
cadene-resnext101_1	1	382.64	383.61	-0.25%	✅
onnx-taau-downsample	1	344.22	344.76	-0.16%	✅
dlrm-criteoterabyte	1	35.08	35.10	-0.06%	✅
dlrm-criteoterabyte_fp16	1	58.11	58.12	-0.02%	✅
agentmodel	1	8,195.44	7,932.67	3.31%	🔆
unet_fp16	2	58.57	57.85	1.23%	✅
resnet50v1_fp16	1	954.63	935.68	2.02%	✅
resnet50v1_int8	1	957.23	949.99	0.76%	✅
bert_base_cased_fp16	64	1,153.35	1,153.06	0.03%	✅
bert_large_uncased_fp16	32	355.69	355.77	-0.02%	✅
bert_large_fp16	1	212.28	210.32	0.93%	✅
distilgpt2_fp16	16	2,158.71	2,161.65	-0.14%	✅
yolov5s	1	540.81	534.27	1.22%	✅
tinyllama	1	43.39	43.40	-0.01%	✅
vicuna-fastchat	1	179.92	170.43	5.57%	🔆
whisper-tiny-encoder	1	417.97	418.17	-0.05%	✅
whisper-tiny-decoder	1	433.56	426.09	1.75%	✅

This build is not recommended to merge 🔴

migraphx-bot · 2024-09-19T01:18:07Z

✅ bert-mrpc-onnx: PASSED: MIGraphX meets tolerance

✅ bert-mrpc-tf: PASSED: MIGraphX meets tolerance

✅ pytorch-examples-wlang-gru: PASSED: MIGraphX meets tolerance

✅ pytorch-examples-wlang-lstm: PASSED: MIGraphX meets tolerance

✅ torchvision-resnet50_1: PASSED: MIGraphX meets tolerance

✅ cadene-dpn92_1: PASSED: MIGraphX meets tolerance

✅ cadene-resnext101_1: PASSED: MIGraphX meets tolerance

✅ dlrm-criteoterabyte: PASSED: MIGraphX meets tolerance

✅ agentmodel: PASSED: MIGraphX meets tolerance

✅ unet: PASSED: MIGraphX meets tolerance

✅ resnet50v1: PASSED: MIGraphX meets tolerance

✅ bert_base_cased_fp16: PASSED: MIGraphX meets tolerance

🔴bert_large_uncased_fp16: FAILED: MIGraphX is not within tolerance - check verbose output

✅ bert_large: PASSED: MIGraphX meets tolerance

✅ yolov5s: PASSED: MIGraphX meets tolerance

✅ tinyllama: PASSED: MIGraphX meets tolerance

✅ vicuna-fastchat: PASSED: MIGraphX meets tolerance

✅ whisper-tiny-encoder: PASSED: MIGraphX meets tolerance

✅ whisper-tiny-decoder: PASSED: MIGraphX meets tolerance

✅ distilgpt2_fp16: PASSED: MIGraphX meets tolerance

shivadbhavsar added 4 commits August 22, 2024 07:44

submodule matcher

95a38c3

wip - remove buggy submodule matcher, add fuse reduce unrolling

ba37389

wip - almost working without trailing pw

1340c50

working attn fusion

1e976fb

shivadbhavsar added the enhancement New feature or request label Aug 26, 2024

shivadbhavsar self-assigned this Aug 26, 2024

remove include

0c5bcd4

shivadbhavsar added 2 commits August 27, 2024 13:23

working bert

d0d65c3

typo

a247ca3

shivadbhavsar linked an issue Aug 27, 2024 that may be closed by this pull request

Fuse where into MLIR attention #2812

Closed

shivadbhavsar added 3 commits August 27, 2024 14:17

format

26141c3

Merge remote-tracking branch 'origin/develop' into generalized_attn

61023b0

add tests

df3af29

shivadbhavsar marked this pull request as ready for review August 28, 2024 16:32

shivadbhavsar requested a review from causten as a code owner August 28, 2024 16:32

causten requested review from pfultz2, CharlieL7, umangyadav and lakhinderwalia August 28, 2024 19:13

shivadbhavsar added 3 commits August 28, 2024 14:20

add tests for new utility functions

07c3985

test update

19a9eed

fix module test case

2638b6c

lakhinderwalia reviewed Sep 10, 2024

View reviewed changes

src/module.cpp Show resolved Hide resolved

src/include/migraphx/match/softmax.hpp Show resolved Hide resolved

src/targets/gpu/prefuse_ops.cpp Show resolved Hide resolved

test/gpu/fuse_mlir.cpp Show resolved Hide resolved

test/module_test.cpp Show resolved Hide resolved

shivadbhavsar added 2 commits September 10, 2024 16:50

Merge remote-tracking branch 'origin/develop' into generalized_attn

6367bbe

document test cases

5dd25c5

shivadbhavsar requested a review from lakhinderwalia September 10, 2024 22:35

lakhinderwalia approved these changes Sep 10, 2024

View reviewed changes

shivadbhavsar and others added 2 commits September 10, 2024 17:42

format

491576f

Merge branch 'develop' into generalized_attn

10d254f

CharlieL7 approved these changes Sep 13, 2024

View reviewed changes

pfultz2 reviewed Sep 13, 2024

View reviewed changes