SRA-MCTS

SRA-MCTS

SRA-MCTS 通过蒙特卡洛树搜索的策略来引导模型自我生成数据并提升模型代码能力,能够生成由自然语言策略和具体实现代码组成的数据,在数据质量和数据多样性上满足您的需求。对于一批问题,先让大模型使用SRA-MCTS生成针对问题的自然语言分步解决方案(除了必要的公式,其中不包括代码),再让大模型针对问题和生成的解决方案来生成具体的代码,将问题,自然语言解决方案,代码拼接起来形成微调数据集,用于大模型的训练。

780192d3a4624fd795c782a941c0884c通过这种方式能够提高模型在代码领域的能力,效果强于传统的CoT方式,SRA-MCTS的实验结果如下:

Benchmark MBPP MBPP+ MBPP+pass@10 Human-Eval Human-Eval+ Human-Eval+ pass@10 Average Increment
gemma-2-2b
Instruct 34.42 43.39 48.41 39.76 33.05 37.20 +0.00
CoT 34.90 43.70 47.90 41.89 35.37 39.02 +1.09
SRA-MCTS 33.92 45.37 49.21 40.73 34.88 37.20 +0.85
Meta-Llama-3.1-8B
Instruct 51.94 45.37 49.21 62.74 58.90 67.68 +0.00
CoT 52.94 60.50 65.08 62.32 58.35 66.46 +4.97
SRA-MCTS 54.52 59.97 66.14 62.19 57.87 68.29 +5.52
Qwen2.5-14B
Instruct 56.42 61.48 70.37 80.37 76.52 76.83 +0.00
CoT 58.12 63.97 70.37 78.66 73.84 74.39 -0.44
SRA-MCTS 61.02 61.16 83.60 85.37 75.00 75.61 +3.30