Organizations aiming to deploy AI agents must begin by fine-tuning them, particularly for workflows that are repetitive in nature. While some organizations require agents designed to perform a single task within a specific workflow, others aim to introduce agents to new environments with the expectation that they can adapt.
Researchers from the Beijing University of Posts and Telecommunications have introduced a novel approach called AgentRefine, which enables agents to self-correct, resulting in more adaptable and generalized AI systems.
The researchers noted that current tuning techniques confine agents to tasks found in their training datasets—referred to as “held-in” tasks—and limit their performance in unfamiliar or “held-out” environments. Agents trained using these frameworks often struggle to learn from their mistakes, making it difficult to transform them into general-purpose agents capable of adapting to new workflows.
To combat that limitation, AgentRefine aims to create more generalized agent training datasets that enable the model to learn from mistakes and fit into new workflows. In a new paper, the researchers said that AgentRefine’s goal is “to develop generalized agent-tuning data and establish the correlation between agent generalization and self-refinement.” If agents self-correct, they will not perpetuate any errors they learned and bring these same mistakes to other environments they’re deployed in.
“We find that agent-tuning on the self-refinement data enhances the agent to explore more viable actions while meeting bad situations, thereby resulting in better generalization to new agent environments,” the researchers write.
Taking their cue from the tabletop roleplaying game Dungeons & Dragons, the researchers created personas, scripts for the agent to follow and challenges. And yes, there is a Dungeon Master (DM).
They divided data construction for AgentRefine into three areas: script generation, trajectory generation and verification.
In script generation, the model creates a script, or guide, with information on the environment, tasks and actions personas can take. (The researchers tested AgentRefine using Llama-3-8B-Instruct, Llama-3-70B-Instruct, Mistral-7B-Instruct-v0.3, GPT-4o-mini and GPT-4o)
The model then generates agent data that has errors and acts both as a DM and a player during the trajectory stage. It asses the actions it can take and then see if these contain errors. The last stage, verification, checks the script and trajectory, allowing for the potential of agents it trains to do self-correction.
The researchers observed that agents trained with the AgentRefine method and dataset excelled at handling a variety of tasks and adapting to new scenarios. These agents demonstrated an enhanced ability to self-correct, adjusting their actions and decisions to minimize errors and improving their overall robustness.
Notably, AgentRefine boosted model performance on “held-out” tasks, enabling better outcomes in unfamiliar environments.
Enterprises need to enhance the adaptability of AI agents so they can evolve beyond simply repeating learned behaviors, thereby improving their decision-making capabilities. Effective orchestration of agents involves not only directing workflows across multiple agents but also ensuring tasks are completed in alignment with user requests.
Tools like OpenAI’s o3, which supports “program synthesis,” may further enhance task adaptability. Similarly, orchestration and training frameworks such as Microsoft’s Magentic-One allow supervisory agents to learn when and how to reassign tasks to other agents, optimizing overall efficiency.
Các nhà nghiên cứu nhận thấy rằng các tác nhân được đào tạo bằng phương pháp và bộ dữ liệu AgentRefine thực hiện tốt hơn các nhiệm vụ đa dạng và thích ứng với các tình huống mới. Các tác nhân này tự sửa lỗi nhiều hơn để chuyển hướng hành động và ra quyết định của mình nhằm tránh sai sót, đồng thời trở nên mạnh mẽ hơn trong quy trình.
Đặc biệt, AgentRefine đã cải thiện hiệu suất của tất cả các mô hình để thực hiện các nhiệm vụ được giao.
Các doanh nghiệp phải làm cho các tổng đài viên có khả năng thích ứng với nhiệm vụ tốt hơn để họ không chỉ lặp lại những gì đã học để có thể trở thành người ra quyết định tốt hơn. Điều phối các tổng đài viên không chỉ “trực tiếp lưu lượng truy cập” cho nhiều tổng đài viên mà còn xác định xem các tổng đài viên đã hoàn thành nhiệm vụ hay chưa dựa trên yêu cầu của người dùng.
OpenAI o3 cung cấp tính năng “tổng hợp chương trình” có thể cải thiện khả năng thích ứng với nhiệm vụ. Các khung điều phối và đào tạo khác, như Magentic-One của Microsoft, đặt ra các hành động cho tổng đài viên giám sát để tìm hiểu thời điểm chuyển nhiệm vụ sang các tổng đài viên khác nhau.