我在“服装制造业必须认知AI大模型及其应用”一文中叙述过,2024我国政府工作报告中提出的要开展“人工智能+”行动。我柤信随着“人工智能+” 行动的到来,很多人工智能技术下的“新物种”很快会诞生,如AI Agent、人形机器人、无人驾驶汽车等等,这些“新物种”将很快会为我们自己所用、为加速制造业实现智能制造所用、为加速我国智能经济的快速发展壮大所用。因此,当今不管你是企业还是企业中的员工,只有认知AI大模型,拥有自己的智能代理AI Agent,今后才能享受其生活服务和获得从事职业的生存机会。那么什么是智能代理AI Agent呢?为什么我们非需要它不可呢?
一、 什么是AI Agent
说起智能体 Agent,我们不得不说几年前美国加利福尼亚大学伯克利分校的斯图尔特•罗素(Stuart Russell)教授和彼得•诺维格(Peter Norvig)所著的《人工智能:现代方法(第4版)》一书中提出的概念,书中阐述了“任何通过传感器(sensor)感知环境(environment)并通过执行器(actuator)作用于该环境的事物都可以被视为智能体(agent)”。
智能体概念
书中提出的这个智能体概念,是在众多研究者对智能体的不断研究和探索情况下总结出来的,现在在计算机和人工智能领域中得到了广泛的应用,它已经成为人工智能领域的一个重要组成部分。
大家都知道,自从去年ChatGPT面世应用以来,虽然在应用中它具有强大的文本生成能力,但它的局限性也逐渐显现,如:只能进行单轮对话,缺乏长期记忆和规划能力,无法完成更多步骤推理和工具调用的复杂任务,也无法自主地解决问题。为了突破ChatGPT的局限性,AI Agent应运而生。
AI Agent的正确名称是人工智能代理(Artificial Intelligence Agent),也可称人工智能助理,它是一个能够感知环境、进行决策和执行动作的智能实体,它不同于传统的人工智能,它是一个复杂的AI系统,它能通过感知信息、处理信息、执行任务和输出结果等步骤,实现从感知到行动的完整过程。AI Agent旨在理解、分析和响应人类输入,像人类一样执行任务、做出决策并与环境互动。它们可以是遵循预定义规则的简单系统,也可以是根据经验学习和适应的复杂、自主的实体;它们可以是基于软件的实体,也可以是物理实体。
OpenAI公司对AI Agent是这样定义的:以大语言模型LLM为大脑驱动,具有自主理解感知、规划、记忆和使用工具的能力,能自动化执行完成复杂任务的系统。
AI Agent定义
同样,OpenAI公司的应用研发主管Lilian weng(翁莉莲)也定义了基于LLM构建AI Agents的框架。她指出,AIAgent=LLM(大型语言模型)+记忆(Memory)+规划技能(Planning)+工具使用(Tool Use),其中LLM柤当于智能体的大脑,而记忆、规划和工具使用能力是关键组件。目前这个定义现在已成为大模型时代AI Agent的经典定义,见图三。
基于LLM的AI Agent经典定义
前不久,人工智能著名学者、斯坦福大学教授吴恩达在红杉资本的人工智能峰会(AI Ascent)上做了一次演讲,他主要介绍了AI Agent的工作流,他说AI Agent智能体工作流将在今后推动人工智能取得巨大进步,甚至可能超过下一代AI基础模型。他呼吁所有从事人工智能工作的人都要关注 AI 智能体工作流。他提出的AI Agent工作流四种设计模式包括:(1)检查或称反思(Reflection):通过让AI模型自我检查以提高代码质量;(2)工具使用(Tool use):AI模型使用各种工具来执行操作、收集信息;(3)规划(Planning):AI代理进行复杂的规划算法,如规避失败等;(4)多智能体协作(Multiagent collaboration):不同AI代理协作完成任务。
吴恩达提出的AI Agent工作流四种设计模式不但推进了AI Agent的实际应用,而且向实践通用人工智能AGI前进了一大步。
AI Agent具有以下类型:
1)按照AI Agent的复杂程度分:
①简单反射Agents:这类 Agents 遵循条件-行动规则,直接对当前感知做出反应,而不依赖于对环境的内部模型。它们简单高效,但因缺乏复杂环境适应性,其应用范围受限;
②基于模型的反射 Agents:与简单反射 Agents 相比,这类 Agents 拥有一个内部世界模型,能够追踪并推断出环境中不可直接感知的部分。它们结合当前感知和内部模型来做出决策,显示出更高的适应性;
③基于目标的 Agents:这些 Agents 不仅需要考虑当前状态,还要考虑行为对未来的影响,既拥有明确的目标,也能基于实现这些目标的概率来做出选择。它们适合于需要前瞻性规划的复杂决策任务;
④ 基于效用的 Agents:这类 Agents 使用效用函数来评估不同状态,并力求最大化其性能。它们在存在多种可能操作或结果的情况下特别有用,能够根据偏好做出最优决策;
⑤学习 Agents:学习 Agents 能够根据经验自我改进,随着时间的推移提高性能。它们在动态环境中尤其有效,能够逐渐适应并发展出更优的策略;
⑥多Agents系统(MAS):在 MAS 中,多个 Agents 协同工作,共同实现共同或各自的目标。这种系统适用于需要多方协调的复杂任务,如供应链管理;
⑦分层Agents:分层 Agents 通过建立层级结构来管理和指导不同级别的任务。每个层级都有特定的职责,共同为实现整体目标而努力。这种结构适用于需要在不同层级上管理和执行任务的大型系统。
2)按照AI Agent智能助理形式分:
①数据类智能助理:AI辅助做互联网数据搜集与分析、市场研究,并提供交互可视化数据分析服务;
②办公类智能助理:基于自然语言交互提供知识检索、任务执行等自动化功能,服务于员工大部分高频工作场景;
③生成类智能助理:利用AI进行编写、绘画、剪辑、编程等操作,多用于辅助员工创作生成;
④营销类智能助理:AI客服/AI主播等可以基于自然语言对话解决咨询、营销和服务问题
3)按照智能助理工作模式来分:
AI Agent具有以下类型,即单个AI Agent、多个AI Agent和混合AI Agent(人机交互AI Agent)三种类型,见图四:单个AI Agent代理侧重于执行单一任务或一系列相关任务,且不需要与其他智能体进行交互。单个代理可以根据任务执行不同的操作,如需求分析、项目读取、代码生成等;多个AI Agent代理侧重于智能体之间的互动(合作或竞争对抗)和信息共享,多个智能体协同工作,相互交流信息,共同完成更复杂的任务或目标。多个AI agent应用场景在软件行业开发、制造业智能生产、企业管理等高度协同的工作中非常有帮助;混合AI Agent是人工智能系统和人类在一起共同参与决策过程,交互合作完成任务,强调的是人和机协作的重要性和互补性。在我们制造业领域大多使用混合智能体来完成复杂的专业制造工作。
AI Agent工作类型 (图源:AI产品经理研习实践)
根据硅谷科技评论(svtr.ai)数据库报道,近一年来,全球20多家智能代理(AI Agent)公司获得知名机构投资。其中包括谷歌投资的Cognosys、Initialized Capital投资的Parcha AI、还有Mayfield、Benchmark投资金额高达3000万美元的Sema4.ai,这家公司致力于构建智能代理来改变知识工作者与人工智能协作方式。在我国,创新工厂、云九资本、耀途资本等也在押注未来式智能、新旦智能等AI Agent初创公司。
二、与AI Agent密切相关技术概说
1)大语言模型LLM与AI Agent
研究人员认为将大语言模型 (LLM) 与 AI Agent 相结合是人工智能向前迈出的重要一步。这些增强的 Agent 现在可以处理信息、与其环境交互并执行多步骤操作,预示着解决任务能力的新时代的到来。
根据数字众生公众号提出的大语言模型 LLM 与AI Agent相结合的业务工作流程步骤如下,见图五:①用户提出问题;②AI Agent基于预设的Prompt,将问题包装之后送给LLM;③LLM返回给AI Agent结果和需要使用的工具;④AI Agent使用工具获取必要信息;⑤工具返回给AI Agent获取到的信息;⑥打包上下文发再次送给LLM;⑦LLM返回给AI Agent结果,AI Agent给用户返回最终结。
五 LLM Agent业务工作流程
2)智能代理AI Agent与机器人流程自动化RPA
RPA和AI Agent是两种不同的技术,它们在制造领域中扮演着互补的角色。RPA技术利用软件机器人或“机器人”来自动执行重复性业务流程,旨在模拟和整合现有的应用程序操作,实现自动化流程,减少人工干预,并提高工作效率。而AI Agent是一种能够自主理解、规划决策、执行复杂任务的智能体。它们具备感知环境、进行决策和执行动作的能力,类似于人类的记忆、逻辑分析能力、任务拆解能力和问题解决能力。两者之间的主要区别在于它们解决问题的方法:
①RPA是任务特定的,而AI Agent则具有更高的灵活性和自主性。
②RPA专注于执行规则基础的人类动作,而AI Agent则能够通过感知信息、独立思考来逐步完成给定目标。
总的来说,RPA和AI Agent虽然都是制造领域自动化技术的重要组成部分,但它们各自侧重的领域不同,RPA更适合处理重复性高、规则明确的任务,而AI Agent则更适合处理需要高度认知能力和自主性的复杂任务。随着技术的发展,两者的结合使用将为自动化领域带来更多的可能性和效率提升。
说得細一点AI Agent、 LLM和RPA这三者的区别可见表一。
AI Agent、大语言模型 LLM和RPA的区别
3)智能代理AI Agent与具身智能Embodied AI
具身智能Embodied AI是一种强调智能体与其所处环境紧密互动的概念。它关注的是智能体如何通过感知和交互来理解并适应环境,从而做出决策并执行行动。具身智能强调智能体不仅要有处理信息的能力,还要有与环境进行实时互动的能力。这种智能体通常具备感知、认知、决策和行动的能力,能够通过感知器和执行器与环境进行交互,并根据环境的变化做出相应的决策和行动。具身智能的概念在机器人学、人工智能和认知科学等领域都有广泛的应用。
智能代理AI Agent则是一种能够模拟人类思维和行为,为用户提供个性化和智能化服务的软件程序。它通常基于人工智能技术,通过分析用户的需求和行为模式,利用大数据、机器学习和自然语言处理等技术,帮助用户进行信息检索、任务执行、决策支持等操作。智能代理可以定期地收集信息或执行服务,而不需要人工干预,具有高度智能性和自主学习性。它可以根据用户定义的准则,主动地通过智能化代理服务器为用户搜集最感兴趣的信息,并利用代理通信协议把加工过的信息按时推送给用户。智能代理在各个领域都有广泛的应用,如个人生活、商业服务以及专业服务等。
总的来说,两者都涉及到人工智能技术的应用,但侧重点不同。具身智能更强调智能体与环境的实时互动和适应能力,而智能代理则更侧重于模拟人类思维和行为,为用户提供个性化服务。此外,具身智能通常涉及到硬件和软件的结合,而智能代理则主要是一种软件程序。在应用场景上,具身智能在机器人和自动化领域有更广泛的应用,而智能代理则更多地应用于信息检索、任务执行和决策支持等方面。
三、为什么我们都要拥有AI Agent不可呢?
1)因为我们人类和智能代理AI Agent需要柤互协同工作
当我们进入AI时代时,为了增强自己的知识和能力,人人都会有属于自己的智能助理AI Agent,有了它,我们人类今后的工作或者需要的服务,只要我们设定目标任务和提供必要的资源(例如计算能力),然后让AI Agent独立地承担大部分工作,我们人类最后只要对AI Agent工作进行监督和评估最终结果。这种工作模式充分体现了人类和智能代理的协同性、互动性、自主性和适应性,见图六。
人与AI Agent协同工作
2)因为人类只有利用单个智能代理和多个智能代理组成不同形式架构才能解决服装制造业目标任务等一切问题
大家知道,多单个智能代理体架构是由一个语言模型驱动,并将独立执行所有的推理、规划和工具执行任务。多个智能代理体架构涉及两个或更多的智能体,每个智能体可以使用相同的语言模型或一组不同的语言模型。智能体可以访问相同的工具或不同的工具。每个智能体通常都有自己的角色任务。多智能体架构可以在任何复杂性级别上拥有各种组织。通常将它们分为垂直智能代理体架构和水平智能代理体架构两个类型:在垂直架构智能代理体中,一个智能体充当领导者,其他协作智能体之间有明确的劳动分工,它们直接向领导者报告;水平架构智能代理体中,所有智能体都被视为平等的,并且是关于任务的一个组讨论的一部分。智能体之间的通信发生在一个共享的线程中,每个智能体都可以看到其他智能体的所有消息。智能体还可以自愿完成特定任务或调用工具,这意味着它们不需要由领导智能代理体分配。水平架构通常用于需要协作、反馈和组讨论以成功完成任务,见图七。由此可知,在服装制造业应用上,单个智能代理体系统可以处理静态和简单任务,而多个智能代理体系统则更适合应对动态和复杂的任务。多个智能代理系统的多样性和自组织能力使其能够适应各种不同环境和需求,提供更广泛的解决方案和更多的应用选择。这种差异使得两种系统在不同的应用场景中都能发挥其独特优势。
七 单个与多个智能代理体架构
3)因为未来服装制造企业的工作是虚拟员工AI Agent智能体与人类协同工作来完成的
在服装制造业人工智能代理AI Agent可以看作虚拟数字员工,因为AI Agent它拥有强大的推理和多模态能力,可以实现人机协同,为每个员工配备全场景、24小时不间断的智能助理。在这一阶段,数字员工将能够全面覆盖现有的业务场景,并自动化处理所有复杂业务。AI Agent的应用覆盖了服装制造业全链条:在研发设计领域,大模型通过优化设计过程提高研发效率;在生产制造领域,大模型拓展生产制造智能化应用的边界;在经营管理领域,大模型基于助手模式提升经营管理水平;在产品服务领域,大模型基于交互能力推动产品和服务智能化。
八 AI Agent在服装制造业全环节的应用
在服装制造企业虚拟员工AI Agent 智能体与人类协同工作可以在以下几方面体现出来:①AI Agent 可以通过语音识别和自然语言处理技术,为操作工人提供实时的操作指导和支持;②AI Agent 能够分析客户数据,提供个性化的客户服务和产品推荐,增强客户满意度;③AI Agent 可以协助工程师进行产品设计,提供创新的设计方案,缩短产品开发周期;④AI Agent 能够为员工分析生产数据,优化生产流程,提高生产效率和资源利用率;⑤AI Agent 通过分析生产过程中的数据,可以优化工艺参数,提升产品质量和生产效率;⑥AI Agent 可以控制工业机器人执行精确的操作、组装、输送搬运等任务,提高生产效率和安全性;⑦通过分析市场趋势和历史数据,AI Agent 可以预测产品需求,为企业优化库存水平,减少库存成本;⑧AI Agent 能够监控和分析能源使用情况,提出节能措施,降低能源成本;⑨利用计算机视觉技术,AI Agent 可以帮助人工进行自动检测成衣产品缺陷,确保产品质量等等。
4)因为一般服装制造企业和员工开发AI Agent比较困难,通常使用AI Agent平台服务来获得
制造企业在决定是否自己开发AI Agent服务还是借用平台服务时,需要综合考虑多个因素。首先,从成本角度来看,自己开发AI Agent服务可能需要投入大量的人力、物力和时间,包括技术研发、数据收集、模型训练等。而借用平台服务则可以降低这些成本,因为平台方已经完成了这些基础性的工作,制造企业只需要按照平台提供的接口和规范进行集成和定制即可。其次,从技术和人才储备来看,制造企业可能缺乏AI领域的专业人才和技术积累,自己开发AI Agent服务可能面临技术难题和人才瓶颈。而借用平台服务则可以充分利用平台方的技术和人才优势,快速实现智能化升级和转型。此外,还需要考虑数据安全和隐私保护的问题。自己开发AI Agent服务可以更好地掌控数据安全和隐私保护,但也需要投入更多的精力和资源来保障。而借用平台服务则需要确保平台方能够提供足够的数据安全保障措施,并且需要仔细阅读并理解平台方的数据使用政策和隐私保护条款。总之,从市场趋势和未来发展来看,对于一般制造企业来说,借用平台服务可能是一个更为快速、便捷和经济的选择,可以更快地实现智能化升级和转型。
我国有众多AI Agent服务平台,如阿里巴巴、腾讯、百度、京东、华为云、百川智能、联汇科技、澜码科技、 科大讯飞、商汤科技、ChatDev(由清华大学、北京邮电大学、布朗大学联合研究)、思必驰、字节跳动、旷世机器人、深兰科技(上海)、 360集团、云从科技、智谱AI等等,其中以阿里巴巴集团旗下的钉钉智能移动办公平台,一直致力于为企业提供高效、智能的办公解决方案。在AI Agent领域,钉钉凭借其在人工智能和大数据领域的深厚积累,推出了智能助理等创新产品,为企业提供了更加智能化、个性化的服务。2024年 4月19日,钉钉正式上线AI助理市场,钉钉AI助理市场正式上线,标志着钉钉全面智能化战略的进一步深化,它已规划首批推出的200多个AI助理,不远将来还要推出一万个AI助理,这不仅数量庞大,而且覆盖了企业服务、行业应用、效率工具、财税法务、教育学习、生活娱乐等多个领域,为用户带来了前所未有的智能化体验,其钉钉AI助理服务平台功能见图九,企业和员工都可使用。
九 钉钉AI Agent服务平台
四、结束语
1)我们要有这样的思想准备,随着AI Agent自主性的进一步加强,AI Agents 会发展成为更加专业化的代理,在制造业将替代多数专业工作和技能工作。从趋势上看,大模型 Agents 取代人类的 90% 的专业工作很快会到来;在不远的未来,AI Agents 会与更多的硬件产品融合(不仅限于具身智能和人形机器人),那就有可能完全取代人类工作,因此我们无论是企业还是个体,在这个新时代,我们要学习新知识、掌握新技能,以应对 AI Agent带来的挑战和机遇。
2)智能体AI Agent的核心特征在于其自主性,即根据环境变化与任务需求自主作出决策;其学习能力使智能体能够从经验中持续优化行为策略,提升适应性和问题解决能力;其环境适应性则确保智能体能在各种复杂、不确定的环境中保持高效运作。这些特性使得AI Agent成为复杂系统中不可或缺的独立决策单元。而多智体系统由多个智能体组成,通过明确的角色分工、灵活的组织结构和高效的交互机制,形成一个能够共享信息、协调行动、共同达成目标的群体智能体整体。
3)目前,AI Agent系统的研究仍面临一些挑战和局限性。评估标准的不一致性、现实应用场景的适应性、以及语言模型的内在偏差是当前研究中需要重点关注的问题。未来的研究可能会集中在建立更加全面和客观的评估体系上,提高AI Agent系统在真实世界场景中的可靠性和稳健性(Robust),并探索减少系统偏差的有效方法。尽管当前的AI Agent系统尚未完全成熟,但它们在处理推理、规划和工具使用等方面的能力已经超越了传统的静态语言模型。随着技术的持续进步,预计AI Agent将在更多的领域中发挥关键作用,成为推动AI应用发展的重要环节。
4)随着深度学习、强化学习等技术的发展,Agent 的能力将得到进一步提升,其感知、决策和学习能力将更加强大。这将使它们能够在更复杂的环境中执行任务,甚至在某些方面超越人类的能力;其次,Agent 的应用领域将进一步扩大,特别是在制造业需要高度自动化和智能化的领域,Agent 将成为不可或缺的工具;最后,Agent 的社会影响或将更加深远,可能改变我们的工作方式、生活方式甚至思维方式。同时,这也将引发一系列的社会、伦理和法律问题,需要我们进行深入的研究和探讨。但不管怎么说,我非常认同比尔·盖茨在最近发表一篇文章中指出的:“5年内AI Agent将大行其道,每个用户都将拥有一个专属的AI Agent”。