Spaces:

mursalinir
/

image-captioning

Sleeping

mursalinir commited on Sep 5

Commit

ee49de0

1 Parent(s): e674a8d

add first app.py

Files changed (2) hide show

app.py ADDED Viewed

+from transformers import InstructBlipProcessor, InstructBlipForConditionalGeneration
+from PIL import Image
+import torch
+device = "cuda" if torch.cuda.is_available() else "cpu"
+print(f"Using device: {device}")
+# Load model (fits in 12GB with fp16)
+model_name = "Salesforce/instructblip-flan-t5-xl"
+processor = InstructBlipProcessor.from_pretrained(model_name)
+model = InstructBlipForConditionalGeneration.from_pretrained(
+    model_name,
+    torch_dtype=torch.float16,
+    device_map="auto"
+)
+# Load your image
+image = Image.open("example.jpg").convert("RGB")
+# Prompt to force paragraph-level description
+prompt = (
+    "Describe this image in a detailed paragraph of 5-7 sentences. "
+    "Mention setting, objects, colors, actions, background details, and possible context."
+)
+inputs = processor(images=image, text=prompt, return_tensors="pt").to(device)
+out = model.generate(
+    **inputs,
+    max_new_tokens=250,  # enough for multi-sentence
+    temperature=0.7,
+    top_p=0.9
+)
+print(processor.batch_decode(out, skip_special_tokens=True)[0])

requirements.txt ADDED Viewed

+# Hugging Face ecosystem
+transformers==4.41.2
+accelerate==0.33.0
+safetensors==0.4.3
+sentencepiece==0.2.0
+# Parameter-efficient fine-tuning (LoRA)
+peft==0.11.1
+bitsandbytes==0.43.1
+# Utilities
+pillow==10.3.0
+numpy==1.26.4
+# Demo UI
+gradio==4.37.2