SRA-MCTS
SRA-MCTS 通过蒙特卡洛树搜索的策略来引导模型自我生成数据并提升模型代码能力,能够生成由自然语言策略和具体实现代码组成的数据,在数据质量和数据多样性上满足您的需求。对于一批问题,先让大模型使用SRA-MCTS生成针对问题的自然语言分步解决方案(除了必要的公式,其中不包括代码),再让大模型针对问题和生成的解决方案来生成具体的代码,将问题,自然语言解决方案,代码拼接起来形成微调数据集,用于大模型的训练。
通过这种方式能够提高模型在代码领域的能力,效果强于传统的CoT方式,SRA-MCTS的实验结果如下:
Benchmark | MBPP | MBPP+ | MBPP+pass@10 | Human-Eval | Human-Eval+ | Human-Eval+ pass@10 | Average Increment |
---|---|---|---|---|---|---|---|
gemma-2-2b | |||||||
Instruct | 34.42 | 43.39 | 48.41 | 39.76 | 33.05 | 37.20 | +0.00 |
CoT | 34.90 | 43.70 | 47.90 | 41.89 | 35.37 | 39.02 | +1.09 |
SRA-MCTS | 33.92 | 45.37 | 49.21 | 40.73 | 34.88 | 37.20 | +0.85 |
Meta-Llama-3.1-8B | |||||||
Instruct | 51.94 | 45.37 | 49.21 | 62.74 | 58.90 | 67.68 | +0.00 |
CoT | 52.94 | 60.50 | 65.08 | 62.32 | 58.35 | 66.46 | +4.97 |
SRA-MCTS | 54.52 | 59.97 | 66.14 | 62.19 | 57.87 | 68.29 | +5.52 |
Qwen2.5-14B | |||||||
Instruct | 56.42 | 61.48 | 70.37 | 80.37 | 76.52 | 76.83 | +0.00 |
CoT | 58.12 | 63.97 | 70.37 | 78.66 | 73.84 | 74.39 | -0.44 |
SRA-MCTS | 61.02 | 61.16 | 83.60 | 85.37 | 75.00 | 75.61 | +3.30 |