ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning

14/06/2025

Daily Paper Cast

0:00

21:54

🤗 Upvotes: 63 | cs.CL, cs.AI, cs.MA

Authors:
Yu Sun, Xingyu Qian, Weiwen Xu, Hao Zhang, Chenghao Xiao, Long Li, Yu Rong, Wenbing Huang, Qifeng Bai, Tingyang Xu

Title:
ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning

Arxiv:
http://arxiv.org/abs/2506.09513v1

Abstract:
Though reasoning-based large language models (LLMs) have excelled in mathematics and programming, their capabilities in knowledge-intensive medical question answering remain underexplored. To address this, we introduce ReasonMed, the largest medical reasoning dataset, comprising 370k high-quality examples distilled from 1.7 million initial reasoning paths generated by various LLMs. ReasonMed is constructed through a \textit{multi-agent verification and refinement process}, where we design an \textit{Error Refiner} to enhance the reasoning paths by identifying and correcting error-prone steps flagged by a verifier. Leveraging ReasonMed, we systematically investigate best practices for training medical reasoning models and find that combining detailed Chain-of-Thought (CoT) reasoning with concise answer summaries yields the most effective fine-tuning strategy. Based on this strategy, we train ReasonMed-7B, which sets a new benchmark for sub-10B models, outperforming the prior best by 4.17\% and even exceeding LLaMA3.1-70B on PubMedQA by 4.60\%.

D'autres épisodes de "Daily Paper Cast"

Plus d'épisodes

Découvrez le meilleur des podcasts sur l'application GetPodcast.

Abonnez-vous à tous vos podcasts préférés, écoutez les épisodes sans connexion internet et recevez des recommandations de podcasts passionnants.

ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning

Daily Paper Cast

D'autres épisodes de "Daily Paper Cast"

Feedback Friction: LLMs Struggle to Fully Incorporate External Feedback

Effective Red-Teaming of Policy-Adherent Agents

Aligned Novel View Image and Geometry Synthesis via Cross-modal Attention Instillation

ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning

SWE-Factory: Your Automated Factory for Issue Resolution Training Data and Evaluation Benchmarks

Text-Aware Image Restoration with Diffusion Models

AniMaker: Automated Multi-Agent Animated Storytelling with MCTS-Driven Clip Generation

VRBench: A Benchmark for Multi-Step Reasoning in Long Narrative Videos

Discrete Audio Tokens: More Than a Survey!

Confidence Is All You Need: Few-Shot RL Fine-Tuning of Language Models