Data generation - a Villekom Collection

Villekom 's Collections

Data generation

misc

ocr

Data generation

updated Feb 16, 2025

Synthetic Data (Almost) from Scratch: Generalized Instruction Tuning for Language Models

Paper • 2402.13064 • Published Feb 20, 2024 • 50
DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM Workflows

Paper • 2402.10379 • Published Feb 16, 2024 • 31
Automatic Data Curation for Self-Supervised Learning: A Clustering-Based Approach

Paper • 2405.15613 • Published May 24, 2024 • 17
Are You Sure? Rank Them Again: Repeated Ranking For Better Preference Datasets

Paper • 2405.18952 • Published May 29, 2024 • 10
MAmmoTH2: Scaling Instructions from the Web

Paper • 2405.03548 • Published May 6, 2024 • 6
Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing

Paper • 2406.08464 • Published Jun 12, 2024 • 71
West-of-N: Synthetic Preference Generation for Improved Reward Modeling

Paper • 2401.12086 • Published Jan 22, 2024 • 1
OpenCharacter: Training Customizable Role-Playing LLMs with Large-Scale Synthetic Personas

Paper • 2501.15427 • Published Jan 26, 2025 • 6
Condor: Enhance LLM Alignment with Knowledge-Driven Data Synthesis and Refinement

Paper • 2501.12273 • Published Jan 21, 2025 • 14
How to Synthesize Text Data without Model Collapse?

Paper • 2412.14689 • Published Dec 19, 2024 • 52
Best Practices and Lessons Learned on Synthetic Data for Language Models

Paper • 2404.07503 • Published Apr 11, 2024 • 31