---
license: apache-2.0
datasets:
- pomelk1n/RuadaptQwen-Quantization-Dataset
language:
- ru
base_model:
- msu-rcc-lair/RuadaptQwen2.5-32B-instruct
pipeline_tag: text-generation
tags:
- AWQ
- Marlin
---

# На данный момент реализация с использованием Marlin не поддерживается. Пожалуйста, используйте [реализацию на GEMM](https://huggingface.co/pomelk1n/RuadaptQwen2.5-32B-instruct-4-bit-AWQ-GEMM)

## Описание

Данная модель представляет собой квантизированную версию [RuadaptQwen2.5-32B-instruct](https://huggingface.co/msu-rcc-lair/RuadaptQwen2.5-32B-instruct), выполненную с использованием метода Activation-aware Weight Quantization (AWQ) и оптимизированную с помощью ядра Marlin.

**Marlin** — это высокоэффективное ядро матричных умножений FP16xINT4, предназначенное для ускорения инференса LLM.

## Конфигурация квантизации

```json
{
  "bits": 4,
  "group_size": 128,
  "modules_to_not_convert": null,
  "quant_method": "awq",
  "version": "marlin",
  "zero_point": false
}
```

Для квантизации использовалось 4096 семплов длиной 512 токенов.

## Использование

Для использования необходимо установить: `"autoawq[kernels]"" transformers tokenizers`

```python
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer, TextStreamer

quant_path = "pomelk1n/RuadaptQwen2.5-32B-instruct-4-bit-AWQ-Marlin"
model = AutoAWQForCausalLM.from_quantized(quant_path, fuse_layers=True)
tokenizer = AutoTokenizer.from_pretrained(quant_path, trust_remote_code=True)

streamer = TextStreamer(tokenizer)

prompt = """
Дай мотивацию на работу, как будто ты Арсен Маркарян: 
"""
messages = [
    {"role": "system", "content": "Ты Qwen, супер умный ассистент"},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.model.device)

generation_output = model.generate(
    **model_inputs, 
    streamer=streamer,
    max_new_tokens=512,
    eos_token_id=[tokenizer.eos_token_id, tokenizer.eos_token_id]
)
```