Update README.md
Browse files
README.md
CHANGED
|
@@ -18,7 +18,6 @@ tags:
|
|
| 18 |
|
| 19 |
Данная модель представляет собой квантизированную версию [RuadaptQwen2.5-32B-instruct](https://huggingface.co/msu-rcc-lair/RuadaptQwen2.5-32B-instruct), выполненную с использованием метода Activation-aware Weight Quantization (AWQ) и оптимизированную с помощью ядра Marlin.
|
| 20 |
|
| 21 |
-
**AWQ** (Activation-aware Weight Quantization) — это метод квантизации весов LLM до низкой разрядности, который защищает только значимые веса на основе наблюдения за активациями.\
|
| 22 |
**Marlin** — это высокоэффективное ядро матричных умножений FP16xINT4, предназначенное для ускорения инференса LLM.
|
| 23 |
|
| 24 |
## Конфигурация квантизации
|
|
|
|
| 18 |
|
| 19 |
Данная модель представляет собой квантизированную версию [RuadaptQwen2.5-32B-instruct](https://huggingface.co/msu-rcc-lair/RuadaptQwen2.5-32B-instruct), выполненную с использованием метода Activation-aware Weight Quantization (AWQ) и оптимизированную с помощью ядра Marlin.
|
| 20 |
|
|
|
|
| 21 |
**Marlin** — это высокоэффективное ядро матричных умножений FP16xINT4, предназначенное для ускорения инференса LLM.
|
| 22 |
|
| 23 |
## Конфигурация квантизации
|