ToolCUA 的核心价值在于指出了 CUA 训练中的一个关键转折:当 Agent 从 GUI-only 进入 hybrid action space 后,能力瓶颈从“能否看懂界面”进一步变成“能否编排多种动作路径”。 这个问题看起来答案应该是肯定的。GUI actions 负责点击、输入、拖拽和滚动,tool calls 负责高效处理结构化操作,两者结合似乎天然应该强于任何单一路径。但在真实桌面 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果一些您可能无法访问的结果已被隐去。
显示无法访问的结果