Benchmark Category	Benchmark	Temperature	Recommended max tokens	Recommended runs	Top-p	Others (e.g. test log)
Multi-modal	MMMU-Pro	1.0	max tokens = 96k	3	top\_p=0.95	thinking={`{"type": "enabled"}`}
	MMMU-Pro w/ python	1.0	per step tokens = 64k; total max tokens = 256k	3	top\_p=0.95	Recommended max steps = 50 thinking={`{"type": "enabled"}`}
	CharXiv (RQ)	1.0	max tokens = 96k	3	top\_p=0.95	thinking={`{"type": "enabled"}`}
	CharXiv (RQ) w/ python	1.0	per step tokens = 64k; total max tokens = 256k	3	top\_p=0.95	Recommended max steps = 50 thinking={`{"type": "enabled"}`}
	MathVision	1.0	max tokens = 96k	3	top\_p=0.95	thinking={`{"type": "enabled"}`}
	MathVision w/ python	1.0	per step tokens = 64k; total max tokens = 256k	3	top\_p=0.95	Recommended max steps = 50 thinking={`{"type": "enabled"}`}
	V\* w/ python	1.0	per step tokens = 64k; total max tokens = 256k	3	top\_p=0.95	Recommended max steps = 50 thinking={`{"type": "enabled"}`}
Agent	HLE-Full w/ tools	1.0	per step tokens = 48k; total max tokens = 256k	1	top\_p=0.95	Recommended max steps = 300 thinking={`{"type": "enabled"}`}
	BrowseComp	1.0	per step tokens = 48k; total max tokens = 256k	1	top\_p=0.95	Recommended max steps = 300 thinking={`{"type": "enabled"}`}
	DeepSearchQA	1.0	per step tokens = 48k; total max tokens = 256k	1	top\_p=0.95	Recommended max steps = 300 thinking={`{"type": "enabled"}`}
	WideSearch	1.0	per step tokens = 48k; total max tokens = 256k	4	top\_p=0.95	Recommended max steps = 300 thinking={`{"type": "enabled"}`}
	Toolathlon	1.0	per step tokens = 48k; total max tokens = 256k	4	top\_p=0.95	Recommended max steps = 300 thinking={`{"type": "enabled"}`}
	MCPMark	1.0	per step tokens = 48k; total max tokens = 256k	4	top\_p=0.95	Recommended max steps = 300 thinking={`{"type": "enabled"}`}
	Claw Eval	1.0	per step tokens = 48k; total max tokens = 256k	4	top\_p=0.95	Recommended max steps = 300 thinking={`{"type": "enabled"}`}
	APEX-Agents	1.0	per step tokens = 48k; total max tokens = 256k	4	top\_p=0.95	Recommended max steps = 300 thinking={`{"type": "enabled"}`}
Coding	Terminal-Bench 2.0 (Terminus-2)	1.0	max tokens = 256k	3	top\_p=0.95	thinking={`{"type": "enabled"}`}
	SWE-Bench Pro	1.0	per step tokens = 32k; total max tokens = 256k	5	top\_p=0.95	Recommended max steps = 300 thinking={`{"type": "enabled"}`}
	SWE-Bench Multilingual	1.0	per step tokens = 32k; total max tokens = 256k	5	top\_p=0.95	Recommended max steps = 300 thinking={`{"type": "enabled"}`}
	SWE-Bench Verified	1.0	per step tokens = 32k; total max tokens = 256k	5	top\_p=0.95	Recommended max steps = 300 thinking={`{"type": "enabled"}`}
	SciCode	1.0	max tokens = 96k	4	top\_p=0.95	thinking={`{"type": "enabled"}`}
	OJBench (python)	1.0	max tokens = 96k	8	top\_p=0.95	thinking={`{"type": "enabled"}`}
	LiveCodeBench (v6)	1.0	max tokens = 96k	1	top\_p=0.95	thinking={`{"type": "enabled"}`}
Math	AIME 2026	1.0	max tokens = 96k	32	top\_p=0.95	thinking={`{"type": "enabled"}`}
	HMMT 2026 (Feb)	1.0	max tokens = 96k	32	top\_p=0.95	thinking={`{"type": "enabled"}`}
	IMO-AnswerBench	1.0	max tokens = 96k	4	top\_p=0.95	thinking={`{"type": "enabled"}`}
Knowledge	HLE-Full	1.0	max tokens = 96k	1	top\_p=0.95	thinking={`{"type": "enabled"}`}
Knowledge	GPQA-Diamond	1.0	max tokens = 96k	8	top\_p=0.95	thinking={`{"type": "enabled"}`}

Benchmark Category	Benchmark	Temperature	Recommended max tokens	Recommended runs	Top-p	Others (e.g. test log)
Multi-modal	MMMU-Pro	1.0	max tokens = 64k	3	top\_p=0.95	thinking={`{"type": "enabled"}`}
	CharXiv (RQ)	1.0	max tokens = 64k	3	top\_p=0.95	thinking={`{"type": "enabled"}`}
	MathVision	1.0	max tokens = 64k	3	top\_p=0.95	thinking={`{"type": "enabled"}`}
	MathVista	1.0	max tokens = 64k	3	top\_p=0.95	thinking={`{"type": "enabled"}`}
	OCRBench	1.0	max tokens = 64k	3	top\_p=0.95	thinking={`{"type": "enabled"}`}
	ZeroBench	1.0	max tokens = 64k	3	top\_p=0.95	thinking={`{"type": "enabled"}`}
	WorldVQA	1.0	max tokens = 64k	3	top\_p=0.95	thinking={`{"type": "enabled"}`}
	InfoVQA (val)	1.0	max tokens = 64k	3	top\_p=0.95	thinking={`{"type": "enabled"}`}
	SimpleVQA	1.0	max tokens = 64k	3	top\_p=0.95	thinking={`{"type": "enabled"}`}
	ZeroBench w/ tools	1.0	max tokens = 64k	3	top\_p=0.95	Recommended max steps = 30 thinking={`{"type": "enabled"}`}
Code	SWE Series	1.0	per step tokens = 16k; total max tokens = 256k	5	top\_p=0.95	thinking={`{"type": "enabled"}`}
	Lcb + OJBench	1.0	max tokens = 128k	1	top\_p=0.95	thinking={`{"type": "enabled"}`}
	TerminalBench	1.0	max tokens = 128k	3	top\_p=0.95	thinking={`{"type": "enabled"}`}
Reasoning	AIME2025 no tools	1.0	total max tokens = 96k	32	top\_p=0.95	thinking={`{"type": "enabled"}`}
	AIME2025 w/ tools	1.0	per turn tokens = 96k; total max tokens = 96k	32	top\_p=0.95	thinking={`{"type": "enabled"}`} Recommended max steps = 120
	HLE no tools	1.0	max tokens = 96k	1	top\_p=0.95	thinking={`{"type": "enabled"}`}
	HLE w/ tools	1.0	total max tokens = 128k; per step tokens = 48k	1	top\_p=0.95	thinking={`{"type": "enabled"}`} Recommended max steps = 120
	HLE heavy	1.0	total max tokens = 128k; per step tokens = 48k	1	top\_p=0.95	thinking={`{"type": "enabled"}`} Recommended max steps = 200 parallel n=8
	HMMT2025 no tools	1.0	max tokens = 96k	32	top\_p=0.95	thinking={`{"type": "enabled"}`}
	HMMT2025 w/tools	1.0	per step tokens = 96k; total tokens = 96k	32	top\_p=0.95	thinking={`{"type": "enabled"}`} Recommended max steps = 120
	IMO-AnswerBench	1.0	max tokens = 96k	3	top\_p=0.95	thinking={`{"type": "enabled"}`}
	GPQA-Diamond	1.0	max tokens = 96k	8	top\_p=0.95	thinking={`{"type": "enabled"}`}
Agentic Search Task	BrowseComp / BrowseComp-ZH / Seal-0 / Frames	1.0	per step tokens = 24k; total max tokens = 256k	4	top\_p=0.95	thinking={`{"type": "enabled"}`} Recommended max steps = 250 Recommend using a context management mechanism to prevent overly long context and ensure enough tool calls Include today's date in the system prompt and let the model search when it is uncertain
Agentic Task	Tau	1.0	>=16k	4	top\_p=0.95	thinking={`{"type": "enabled"}`} Recommended max steps = 100

Category	Benchmark	Temperature	Max token	Suggested runs	Notes
Code	SWE	0.7(recommended) 1.0 (ok)	per step tokens = 16k; total max token = 256k	5
	Lcb + OJBench	1.0	max tokens = 128k	1
	TerminalBench	1.0	max tokens = 128k	3
Reasoning	AIME2025 no tools	1.0	total max tokens = 96k	32
	AIME2025 w/ tools	1.0	per step tokens = 48k; total max tokens = 128k	16	max steps = 120
	HLE no tools	1.0	max tokens = 96k	1
	HLE w/ tools	1.0	total max tokens = 128k; per step tokens = 48k	1	max steps = 120
	HLE heavy	1.0	total max tokens = 128k; per step tokens = 48k	1	max steps = 200 parallel n=8
	HMMT2025 no tools	1.0	max tokens = 96k	32
	HMMT2025 w/tools	1.0	per step tokens = 96k; total tokens = 96k	32	max steps = 120
	IMO-AnswerBench	1.0	max tokens = 96k	3
	GPQA-Diamond	1.0	max tokens = 96k	8
Agentic Search Task	BrowseComp/ BrowseComp-ZH/Seal-0/ Frames	1.0	per step tokens = 24k; total max tokens = 256k	4	max steps = 250 Enable context management to prevent context overflow and ensure enough tool calls. Include today's date in the system prompt, and tell the model to search when unsure.
Agentic Task	Tau	0.0	>=16k	4	max steps = 100