1 39 10

Xuanlang Dai

XuanlangDai

AI & ML interests

None yet

Recent Activity

upvoted a paper 4 days ago

AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model

upvoted a paper 16 days ago

Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

upvoted a paper 16 days ago

SkillClaw: Let Skills Evolve Collectively with Agentic Evolver

View all activity

Organizations

None yet

upvoted a paper 4 days ago

AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model

Paper • 2604.19747 • Published 6 days ago • 38

upvoted 2 papers 16 days ago

Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

Paper • 2604.06628 • Published 19 days ago • 321

SkillClaw: Let Skills Evolve Collectively with Agentic Evolver

Paper • 2604.08377 • Published 18 days ago • 285

upvoted 3 papers 19 days ago

upvoted a paper 25 days ago

GEMS: Agent-Native Multimodal Generation with Memory and Skills

Paper • 2603.28088 • Published 27 days ago • 84

upvoted a paper 26 days ago

Kernel-Smith: A Unified Recipe for Evolutionary Kernel Optimization

Paper • 2603.28342 • Published 27 days ago • 26

upvoted 4 papers about 1 month ago

Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale

Paper • 2603.25040 • Published Mar 26 • 131

MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding

Paper • 2603.22458 • Published Mar 23 • 135

Visual-ERM: Reward Modeling for Visual Equivalence

Paper • 2603.13224 • Published Mar 13 • 21

EndoCoT: Scaling Endogenous Chain-of-Thought Reasoning in Diffusion Models

Paper • 2603.12252 • Published Mar 12 • 12

upvoted 2 papers about 2 months ago

Fish Audio S2 Technical Report

Paper • 2603.08823 • Published Mar 9 • 37

Beyond Language Modeling: An Exploration of Multimodal Pretraining

Paper • 2603.03276 • Published Mar 3 • 103

upvoted 4 papers 3 months ago

Thinking in Frames: How Visual Context and Test-Time Scaling Empower Video Reasoning

Paper • 2601.21037 • Published Jan 28 • 15

DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models

Paper • 2512.24165 • Published Dec 30, 2025 • 52

AR-Omni: A Unified Autoregressive Model for Any-to-Any Generation

Paper • 2601.17761 • Published Jan 25 • 14

BabyVision: Visual Reasoning Beyond Language

Paper • 2601.06521 • Published Jan 10 • 201

upvoted a collection 4 months ago

TwinFlow

Collection

A collection of TwinFlow-accelerated diffusion models • 4 items • Updated Mar 25 • 7

upvoted a paper 4 months ago

Qwen3-VL Technical Report

Paper • 2511.21631 • Published Nov 26, 2025 • 162

Xuanlang Dai

AI & ML interests

Recent Activity

Organizations

XuanlangDai's activity