Spaces:

ByteDance
/

XVerse

Running on Zero

App Files Files Community

helloworld-S commited on Jul 10

Commit

1ad2320

verified ·

1 Parent(s): 3e9dad5

Update app.py

Browse files

Files changed (1) hide show

app.py +92 -101

app.py CHANGED Viewed

@@ -316,22 +316,11 @@ if __name__ == "__main__":
     with gr.Blocks() as demo:
         gr.Markdown("""
-### Official demo for "XVerse: Consistent Multi-Subject Control of Identity and Semantic Attributes via DiT Modulation"
-<p align="center">
-    <a href="https://arxiv.org/abs/2506.21416">
-            <img alt="Build" src="https://img.shields.io/badge/arXiv%20paper-2506.21416-b31b1b.svg">
-    </a>
-    <a href="https://bytedance.github.io/XVerse/">
-        <img alt="Project Page" src="https://img.shields.io/badge/Project-Page-blue">
-    </a>
-    <a href="https://huggingface.co/ByteDance/XVerse">
-        <img alt="Build" src="https://img.shields.io/badge/🤗-HF%20Model-yellow">
-    </a>
-    <a href="https://github.com/ByteDance/XVerse">
-        <img alt="Build" src="https://img.shields.io/badge/Github-Repo-blue">
-    </a>
-</p>
 #### Input Images and Prompts
@@ -363,100 +352,102 @@ if __name__ == "__main__":
                         det_btns.append(det_btn)
                         vlm_btns.append(vlm_btn)
-                # 将其他设置参数压缩到 Advanced Accordion 内
-                with gr.Accordion("Advanced", open=False):
-                    gr.Markdown("""#### Advanced Settings Explained
-The Gradio demo provides several parameters to control your image generation process:
 * **Generated Height/Width**: Use the sliders to set the shape of the output image.
 * **Weight_id/ip**: Adjust these weight parameters. Higher values generally lead to better subject consistency but might slightly impact the naturalness of the generated image.
 * **latent_lora_scale and vae_lora_scale**: Control the LoRA scale. Similar to Weight_id/ip, larger LoRA values can improve subject consistency but may reduce image naturalness.
 * **vae_skip_iter_before and vae_skip_iter_after**: Configure VAE skip iterations. Skipping more steps can result in better naturalness but might compromise subject consistency.
 """)
-                    # 使用 Row 和 Column 来布局四个图像和描述
-                    with gr.Row():
-                        target_height = gr.Slider(512, 1024, step=128, value=768, label="Generated Height", info="")
-                        target_width = gr.Slider(512, 1024, step=128, value=768, label="Generated Width", info="")
-                        cond_size = gr.Slider(256, 384, step=128, value=256, label="Condition Size", info="")
-                    with gr.Row():
-                        # 修改 weight_id_ip_str 为两个 Slider
-                        weight_id = gr.Slider(0.1, 5, step=0.1, value=3, label="weight_id")
-                        weight_ip = gr.Slider(0.1, 5, step=0.1, value=5, label="weight_ip")
-                    with gr.Row():
-                        # 修改 ip_scale_str 为 Slider，并添加 Textbox 显示转换后的格式
-                        ip_scale_str = gr.Slider(0.5, 1.5, step=0.01, value=0.85, label="latent_lora_scale")
-                        vae_lora_scale = gr.Slider(0.5, 1.5, step=0.01, value=1.3, label="vae_lora_scale")
-                    with gr.Row():
-                        # 修改 vae_skip_iter 为两个 Slider
-                        vae_skip_iter_s1 = gr.Slider(0, 1, step=0.01, value=0.05, label="vae_skip_iter_before")
-                        vae_skip_iter_s2 = gr.Slider(0, 1, step=0.01, value=0.8, label="vae_skip_iter_after")
-                    with gr.Row():
-                        weight_id_ip_str = gr.Textbox(
-                            value="0-1:1/3/5",
-                            label="weight_id_ip_str",
-                            interactive=False, visible=False
-                        )
-                        weight_id.change(
-                            lambda s1, s2: f"0-1:1/{s1}/{s2}",
-                            inputs=[weight_id, weight_ip],
-                            outputs=weight_id_ip_str
-                        )
-                        weight_ip.change(
-                            lambda s1, s2: f"0-1:1/{s1}/{s2}",
-                            inputs=[weight_id, weight_ip],
-                            outputs=weight_id_ip_str
-                        )
-                        vae_skip_iter = gr.Textbox(
-                            value="0-0.05:1,0.8-1:1",
-                            label="vae_skip_iter",
-                            interactive=False, visible=False
-                        )
-                        vae_skip_iter_s1.change(
-                            lambda s1, s2: f"0-{s1}:1,{s2}-1:1",
-                            inputs=[vae_skip_iter_s1, vae_skip_iter_s2],
-                            outputs=vae_skip_iter
-                        )
-                        vae_skip_iter_s2.change(
-                            lambda s1, s2: f"0-{s1}:1,{s2}-1:1",
-                            inputs=[vae_skip_iter_s1, vae_skip_iter_s2],
-                            outputs=vae_skip_iter
-                        )
-                    with gr.Row():
-                        db_latent_lora_scale_str = gr.Textbox(
-                            value="0-1:0.85",
-                            label="db_latent_lora_scale_str",
-                            interactive=False, visible=False
-                        )
-                        sb_latent_lora_scale_str = gr.Textbox(
-                            value="0-1:0.85",
-                            label="sb_latent_lora_scale_str",
-                            interactive=False, visible=False
                         )
-                        vae_lora_scale_str = gr.Textbox(
-                            value="0-1:1.3",
-                            label="vae_lora_scale_str",
-                            interactive=False, visible=False
                         )
-                        vae_lora_scale.change(
-                                lambda s: f"0-1:{s}",
-                                inputs=vae_lora_scale,
-                                outputs=vae_lora_scale_str
-                            )
-                        ip_scale_str.change(
-                                lambda s: [f"0-1:{s}", f"0-1:{s}"],
-                                inputs=ip_scale_str,
-                                outputs=[db_latent_lora_scale_str, sb_latent_lora_scale_str]
-                            )
-                    with gr.Row():
-                        double_attention = gr.Checkbox(value=False, label="Double Attention", visible=False)
-                        single_attention = gr.Checkbox(value=True, label="Single Attention", visible=False)
-            with gr.Column():
-                output = gr.Image(label="Generated Image")
-                seed = gr.Number(value=42, label="Seed", info="")
-                gen_btn = gr.Button("Generate Image")
         gr.Markdown("### Examples")
         gen_btn.click(

     with gr.Blocks() as demo:
         gr.Markdown("""
+### XVerse Demo
+- **Paper**: [XVerse: A Versatile Image Generation Framework for Subject Consistency](https://arxiv.org/abs/2506.21416)
+- **GitHub**: [ByteDance/XVerse](https://github.com/bytedance/XVerse)
+- **Project Page**: [ByteDance/XVerse](https://bytedance.github.io/XVerse/)
 #### Input Images and Prompts
                         det_btns.append(det_btn)
                         vlm_btns.append(vlm_btn)
+            with gr.Column():
+                output = gr.Image(label="Generated Image")
+                seed = gr.Number(value=42, label="Seed", info="")
+                gen_btn = gr.Button("Generate Image")
+        with gr.Row():
+            # 将其他设置参数压缩到 Advanced Accordion 内
+            with gr.Accordion("Advanced Settings Explained", open=False):
+                gr.Markdown("""The Gradio demo provides several parameters to control your image generation process:
 * **Generated Height/Width**: Use the sliders to set the shape of the output image.
 * **Weight_id/ip**: Adjust these weight parameters. Higher values generally lead to better subject consistency but might slightly impact the naturalness of the generated image.
 * **latent_lora_scale and vae_lora_scale**: Control the LoRA scale. Similar to Weight_id/ip, larger LoRA values can improve subject consistency but may reduce image naturalness.
 * **vae_skip_iter_before and vae_skip_iter_after**: Configure VAE skip iterations. Skipping more steps can result in better naturalness but might compromise subject consistency.
 """)
+                # 使用 Row 和 Column 来布局四个图像和描述
+                with gr.Row():
+                    target_height = gr.Slider(512, 1024, step=128, value=768, label="Generated Height", info="")
+                    target_width = gr.Slider(512, 1024, step=128, value=768, label="Generated Width", info="")
+                    cond_size = gr.Slider(256, 384, step=128, value=256, label="Condition Size", info="")
+                with gr.Row():
+                    # 修改 weight_id_ip_str 为两个 Slider
+                    weight_id = gr.Slider(0.1, 5, step=0.1, value=3, label="weight_id")
+                    weight_ip = gr.Slider(0.1, 5, step=0.1, value=5, label="weight_ip")
+                with gr.Row():
+                    # 修改 ip_scale_str 为 Slider，并添加 Textbox 显示转换后的格式
+                    ip_scale_str = gr.Slider(0.5, 1.5, step=0.01, value=0.85, label="latent_lora_scale")
+                    vae_lora_scale = gr.Slider(0.5, 1.5, step=0.01, value=1.3, label="vae_lora_scale")
+                with gr.Row():
+                    # 修改 vae_skip_iter 为两个 Slider
+                    vae_skip_iter_s1 = gr.Slider(0, 1, step=0.01, value=0.05, label="vae_skip_iter_before")
+                    vae_skip_iter_s2 = gr.Slider(0, 1, step=0.01, value=0.8, label="vae_skip_iter_after")
+                with gr.Row():
+                    weight_id_ip_str = gr.Textbox(
+                        value="0-1:1/3/5",
+                        label="weight_id_ip_str",
+                        interactive=False, visible=False
+                    )
+                    weight_id.change(
+                        lambda s1, s2: f"0-1:1/{s1}/{s2}",
+                        inputs=[weight_id, weight_ip],
+                        outputs=weight_id_ip_str
+                    )
+                    weight_ip.change(
+                        lambda s1, s2: f"0-1:1/{s1}/{s2}",
+                        inputs=[weight_id, weight_ip],
+                        outputs=weight_id_ip_str
+                    )
+                    vae_skip_iter = gr.Textbox(
+                        value="0-0.05:1,0.8-1:1",
+                        label="vae_skip_iter",
+                        interactive=False, visible=False
+                    )
+                    vae_skip_iter_s1.change(
+                        lambda s1, s2: f"0-{s1}:1,{s2}-1:1",
+                        inputs=[vae_skip_iter_s1, vae_skip_iter_s2],
+                        outputs=vae_skip_iter
+                    )
+                    vae_skip_iter_s2.change(
+                        lambda s1, s2: f"0-{s1}:1,{s2}-1:1",
+                        inputs=[vae_skip_iter_s1, vae_skip_iter_s2],
+                        outputs=vae_skip_iter
+                    )
+                with gr.Row():
+                    db_latent_lora_scale_str = gr.Textbox(
+                        value="0-1:0.85",
+                        label="db_latent_lora_scale_str",
+                        interactive=False, visible=False
+                    )
+                    sb_latent_lora_scale_str = gr.Textbox(
+                        value="0-1:0.85",
+                        label="sb_latent_lora_scale_str",
+                        interactive=False, visible=False
+                    )
+                    vae_lora_scale_str = gr.Textbox(
+                        value="0-1:1.3",
+                        label="vae_lora_scale_str",
+                        interactive=False, visible=False
+                    )
+                    vae_lora_scale.change(
+                            lambda s: f"0-1:{s}",
+                            inputs=vae_lora_scale,
+                            outputs=vae_lora_scale_str
                         )
+                    ip_scale_str.change(
+                            lambda s: [f"0-1:{s}", f"0-1:{s}"],
+                            inputs=ip_scale_str,
+                            outputs=[db_latent_lora_scale_str, sb_latent_lora_scale_str]
                         )
+                with gr.Row():
+                    double_attention = gr.Checkbox(value=False, label="Double Attention", visible=False)
+                    single_attention = gr.Checkbox(value=True, label="Single Attention", visible=False)
         gr.Markdown("### Examples")
         gen_btn.click(