LLaMa2 Arch & GQA Attention

飞书用户54

2024年12月21日修改

2023年9月19日创建

847

982

Paper List

Paper

year

author

Notes

LLaMA: Open and Efficient Foundation Language Models

2023.02

Hugo Touvron

Meta

没啥用，不如读 GQA

Fast Transformer Decoding: One Write-Head is All You Need

2019.11

Noam Shazeer

Google

MQA

GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints​

2023.05

Joshua Ainslie

Google

GQA

Summary Notes

MHA, MQA, GQA 极大的影响 kvcache 的计算。

理论层面，应该就能找到 GQA 的最佳 group 数量区间。

又，考虑到 model TP，小于 TP 数的 group 没意义。

如果常见的是 GQA-8，那么，超过 8 的 TP 收益将更小，per die 的 kvcache 大小，丝毫不降。​

可以做的实验 sequence：

1.
llama2-7b, or llama-7b​

2.
baseline of MHA​

3.
avg pool -> MQA​

4.
pre-train -> MQA acc up​

5.
GQA testing​

Model Arch

Model Size

34B 只在 paper 中讨论，没有 release。

LLaMa2 Arch & GQA Attention​