--- license: apache-2.0 datasets: - pomelk1n/RuadaptQwen-Quantization-Dataset language: - ru base_model: - msu-rcc-lair/RuadaptQwen2.5-32B-instruct pipeline_tag: text-generation tags: - AWQ - Marlin --- # На данный момент реализация с использованием Marlin не поддерживается. Пожалуйста, используйте [реализацию на GEMM](https://huggingface.co/pomelk1n/RuadaptQwen2.5-32B-instruct-4-bit-AWQ-GEMM) ## Описание Данная модель представляет собой квантизированную версию [RuadaptQwen2.5-32B-instruct](https://huggingface.co/msu-rcc-lair/RuadaptQwen2.5-32B-instruct), выполненную с использованием метода Activation-aware Weight Quantization (AWQ) и оптимизированную с помощью ядра Marlin. **Marlin** — это высокоэффективное ядро матричных умножений FP16xINT4, предназначенное для ускорения инференса LLM. ## Конфигурация квантизации ```json { "bits": 4, "group_size": 128, "modules_to_not_convert": null, "quant_method": "awq", "version": "marlin", "zero_point": false } ``` Для квантизации использовалось 4096 семплов длиной 512 токенов. ## Использование Для использования необходимо установить: `"autoawq[kernels]"" transformers tokenizers` ```python from awq import AutoAWQForCausalLM from transformers import AutoTokenizer, TextStreamer quant_path = "pomelk1n/RuadaptQwen2.5-32B-instruct-4-bit-AWQ-Marlin" model = AutoAWQForCausalLM.from_quantized(quant_path, fuse_layers=True) tokenizer = AutoTokenizer.from_pretrained(quant_path, trust_remote_code=True) streamer = TextStreamer(tokenizer) prompt = """ Дай мотивацию на работу, как будто ты Арсен Маркарян: """ messages = [ {"role": "system", "content": "Ты Qwen, супер умный ассистент"}, {"role": "user", "content": prompt} ] text = tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True ) model_inputs = tokenizer([text], return_tensors="pt").to(model.model.device) generation_output = model.generate( **model_inputs, streamer=streamer, max_new_tokens=512, eos_token_id=[tokenizer.eos_token_id, tokenizer.eos_token_id] ) ```