pomelk1n
/

RuadaptQwen2.5-32B-instruct-4-bit-AWQ-Marlin

Text Generation

4-bit precision

Model card Files Files and versions

pomelk1n commited on Nov 20, 2024

Commit

da2a418

·

verified ·

1 Parent(s): 0647040

Update README.md

Files changed (1) hide show

README.md +0 -1

README.md CHANGED Viewed

@@ -18,7 +18,6 @@ tags:
 Данная модель представляет собой квантизированную версию [RuadaptQwen2.5-32B-instruct](https://huggingface.co/msu-rcc-lair/RuadaptQwen2.5-32B-instruct), выполненную с использованием метода Activation-aware Weight Quantization (AWQ) и оптимизированную с помощью ядра Marlin.
-**AWQ** (Activation-aware Weight Quantization) — это метод квантизации весов LLM до низкой разрядности, который защищает только значимые веса на основе наблюдения за активациями.\
 **Marlin** — это высокоэффективное ядро матричных умножений FP16xINT4, предназначенное для ускорения инференса LLM.
 ## Конфигурация квантизации

 Данная модель представляет собой квантизированную версию [RuadaptQwen2.5-32B-instruct](https://huggingface.co/msu-rcc-lair/RuadaptQwen2.5-32B-instruct), выполненную с использованием метода Activation-aware Weight Quantization (AWQ) и оптимизированную с помощью ядра Marlin.
 **Marlin** — это высокоэффективное ядро матричных умножений FP16xINT4, предназначенное для ускорения инференса LLM.
 ## Конфигурация квантизации