Exllama Llama HF 转换器重写

授权协议:None操作系统:None 开发语言:None
Exllama 是对 Llama 的 HF 转换器实现进行更高效的内存重写,以用于量化权重。 设计用于量化权重 快速且节省内存的推理(不仅仅是注意力) 跨多个设备映射 内置(多)LoRA 支持 ...