2026年5月6日の「Code w/ Claude 2026」イベントで、Claude Managed Agents に2つの重要な機能が追加された。「Dreaming」(リサーチプレビュー)と「Outcomes」(パブリックベータ)だ。どちらもエージェントの自律性を高める方向の機能で、使い方次第で開発ワークフローを大きく変えうる。
Dreaming は、エージェントが過去のセッション記録を読み返して、メモリを自律的に整理・改善する機能だ。
人間が長期間の仕事で「以前はこのアプローチで失敗したな」「このパターンが効果的だった」と経験から学ぶように、エージェントも過去セッションのトランスクリプトを分析して次の作業に活かせるようになる。
Dreaming は非同期のバックグラウンドプロセスとして動作する。処理時間は入力サイズによって数分〜数十分。
対応モデルは claude-opus-4-7 と claude-sonnet-4-6。APIヘッダーに managed-agents-2026-04-01 と dreaming-2026-04-21 が必要。
夜間に長時間タスクを走らせた翌日、エージェントが「昨晩の作業でこういうアプローチが有効だった」「このケースで詰まったのは前回の教訓で解決できる」と知識を持った状態で続きを引き受けてくれる感じ。
セッションをまたいで知識が積み上がるため、プロジェクトが長くなるほど効果が出やすい。
現在はリサーチプレビュー段階。利用には公式サイトからアクセス申請が必要。
Outcomes は「こういう条件を満たしたら完成」というルーブリックを渡して、エージェントに自律的に反復改善させる機能だ。
従来は「プロンプトを手動で調整しながらアウトプットを改善する」作業を人間がやっていた。Outcomes はその反復ループをエージェント自身に担わせる。
デフォルトは3イテレーション、最大20まで設定可能。
span.outcome_evaluation_start # イテレーション番号付き
span.outcome_evaluation_ongoing # 採点中のハートビート
span.outcome_evaluation_end # 結果: satisfied / needs_revision / max_iterations_reached / failed
いきなり基準を考えるより、品質の良いサンプルアウトプットを Claude に渡して「これが良い理由を分析して」と聞き、その分析をルーブリックに変換する方が精度が出やすい。
ルーブリックは Files API でアップロードして複数セッション間で再利用できる。
「プロンプトを手動でチューニングし続ける」という作業がなくなる。基準を一度定義すれば、エージェントが自動で反復してその基準を満たそうとする。品質が安定しない出力があるなら、まずルーブリックで基準を明確化してみるのが手順になる。
現在はパブリックベータで利用可能。
| 機能 | 状態 | ユーザー価値 |
|---|---|---|
| Dreaming | リサーチプレビュー | 長期プロジェクトでエージェントが自己改善。セッションをまたいで知識が積み上がる |
| Outcomes | パブリックベータ | 成功基準を定義して反復改善を自動化。手動プロンプトチューニングが不要に |
どちらも「エージェントに丸投げしたい」ニーズに応える機能で、自律性の高い開発ワークフローを目指している人は要注目だ。