Peng-Tao Jiang's picture

1 24 8

Peng-Tao Jiang

ptjiang

·

https://pengtaojiang.github.io/

AI & ML interests

None yet

Recent Activity

upvoted a paper 13 days ago

CameraMaster: Unified Camera Semantic-Parameter Control for Photography Retouching

upvoted a paper 14 days ago

PersonaLive! Expressive Portrait Image Animation for Live Streaming

upvoted a paper 25 days ago

AlignBench: Benchmarking Fine-Grained Image-Text Alignment with Synthetic Image-Caption Pairs

View all activity

Organizations

None yet

upvoted a paper 13 days ago

CameraMaster: Unified Camera Semantic-Parameter Control for Photography Retouching

Paper • 2511.21024 • Published Nov 26 • 1

upvoted a paper 14 days ago

PersonaLive! Expressive Portrait Image Animation for Live Streaming

Paper • 2512.11253 • Published 17 days ago • 31

upvoted 6 papers 25 days ago

AlignBench: Benchmarking Fine-Grained Image-Text Alignment with Synthetic Image-Caption Pairs

Paper • 2511.20515 • Published Nov 25 • 3

ViDiC: Video Difference Captioning

Paper • 2512.03405 • Published 26 days ago • 27

OneThinker: All-in-one Reasoning Model for Image and Video

Paper • 2512.03043 • Published 26 days ago • 32

Thinking with Programming Vision: Towards a Unified View for Thinking with Images

Paper • 2512.03746 • Published 26 days ago • 15

Rethinking Prompt Design for Inference-time Scaling in Text-to-Visual Generation

Paper • 2512.03534 • Published 26 days ago • 19

CookAnything: A Framework for Flexible and Consistent Multi-Step Recipe Image Generation

Paper • 2512.03540 • Published 26 days ago • 12

upvoted 2 papers 28 days ago

Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer

Paper • 2511.22699 • Published Nov 27 • 215

REASONEDIT: Towards Reasoning-Enhanced Image Editing Models

Paper • 2511.22625 • Published Nov 27 • 46

upvoted 5 papers about 1 month ago

One4D: Unified 4D Generation and Reconstruction via Decoupled LoRA Control

Paper • 2511.18922 • Published Nov 24 • 11

VisMem: Latent Vision Memory Unlocks Potential of Vision-Language Models

Paper • 2511.11007 • Published Nov 14 • 15

EvoWorld: Evolving Panoramic World Generation with Explicit 3D Memory

Paper • 2510.01183 • Published Oct 1 • 1

3D Scene Prompting for Scene-Consistent Camera-Controllable Video Generation

Paper • 2510.14945 • Published Oct 16 • 1

MagicWorld: Interactive Geometry-driven Video World Exploration

Paper • 2511.18886 • Published Nov 24 • 19

upvoted a paper 4 months ago

AgentFly: Fine-tuning LLM Agents without Fine-tuning LLMs

Paper • 2508.16153 • Published Aug 22 • 160

upvoted 2 papers 5 months ago

A Glimpse to Compress: Dynamic Visual Token Pruning for Large Vision-Language Models

Paper • 2508.01548 • Published Aug 3 • 13

SDMatte: Grafting Diffusion Models for Interactive Matting

Paper • 2508.00443 • Published Aug 1 • 2

upvoted a paper 7 months ago

MagicTryOn: Harnessing Diffusion Transformer for Garment-Preserving Video Virtual Try-on

Paper • 2505.21325 • Published May 27 • 4

upvoted a paper 12 months ago

DepthMaster: Taming Diffusion Models for Monocular Depth Estimation

Paper • 2501.02576 • Published Jan 5 • 15