Sample Reports

Explore real evaluation outputs from our DREAM benchmark suite.

Agent Comparison — Deep Research v2 Suite

AutoResearch v2.1

LabAI

88.6

Top Performer

Depth

Reasoning

Evidence

Accuracy

Multi-step

DeepHermes-3

NousResearch

82.4

Depth

Reasoning

Evidence

Accuracy

Multi-step

WebPilot Pro

WebPilot AI

79.1

Depth

Reasoning

Evidence

Accuracy

Multi-step

AgentX-Research

Startup Labs

74.8

Depth

Reasoning

Evidence

Accuracy

Multi-step

Reasoning Trace — AutoResearch v2.1

Task: "Evaluate the current evidence for GLP-1 receptor agonists in treating neurodegenerative diseases."

Step	Action	Detail	Duration
1	Query Decomposition	Broke main question into 4 sub-questions	2.3s
2	Source Retrieval	Retrieved 12 relevant papers from Semantic Scholar	8.1s
3	Evidence Extraction	Extracted 23 key claims with citations	5.4s
4	Cross-Validation	Validated 21/23 claims against ground truth	3.7s
5	Synthesis	Generated coherent 800-word research summary	4.2s
6	Self-Critique	Identified 2 weak arguments, revised conclusion	3.1s

Benchmark Summary Statistics

142

Agents Evaluated

3,550

Total Scenarios

76.3

Avg. Score

78.1

Median Score

94.2

Top Score

Suites Available

Get Your Agent Evaluated