pomelk1n commited on
Commit
da2a418
·
verified ·
1 Parent(s): 0647040

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +0 -1
README.md CHANGED
@@ -18,7 +18,6 @@ tags:
18
 
19
  Данная модель представляет собой квантизированную версию [RuadaptQwen2.5-32B-instruct](https://huggingface.co/msu-rcc-lair/RuadaptQwen2.5-32B-instruct), выполненную с использованием метода Activation-aware Weight Quantization (AWQ) и оптимизированную с помощью ядра Marlin.
20
 
21
- **AWQ** (Activation-aware Weight Quantization) — это метод квантизации весов LLM до низкой разрядности, который защищает только значимые веса на основе наблюдения за активациями.\
22
  **Marlin** — это высокоэффективное ядро матричных умножений FP16xINT4, предназначенное для ускорения инференса LLM.
23
 
24
  ## Конфигурация квантизации
 
18
 
19
  Данная модель представляет собой квантизированную версию [RuadaptQwen2.5-32B-instruct](https://huggingface.co/msu-rcc-lair/RuadaptQwen2.5-32B-instruct), выполненную с использованием метода Activation-aware Weight Quantization (AWQ) и оптимизированную с помощью ядра Marlin.
20
 
 
21
  **Marlin** — это высокоэффективное ядро матричных умножений FP16xINT4, предназначенное для ускорения инференса LLM.
22
 
23
  ## Конфигурация квантизации