LLM Concept
- rank_id(tp_rank),向量并行的GPU的id标识
- world_size,向量并行的GPU数量
常见参数
- n_embed(hidden_size,n_embd),输入大小
- num_attention_heads(n_head),注意力头数量
- num_hidden_layers(n_layer,layer_num),transformer层数
- vocab_size,词汇表大小
- max_total_token_num,最大的总token数量
- mem_adapter_size,adapter的内存大小
- key_size, query_size, value_size
- num_key_value_heads
- 其实和 num_attention_heads 一样?只不过 llama2 用的是num_key_value_heads而llama用的是num_attention_heads
head_num
(tp_k_head_num_
,tp_v_head_num_
)head_num=self.config["num_key_value_heads"] // self.world_size_
- head_dim
head_dim=self.config["hidden_size"] // self.config["num_attention_heads"]
- dtype
- torch.float16
Slora
- tot_size = max_total_token_num + mem_adapter_size
- cache_size = max_total_token_num