- Các kỹ năng ADK sử dụng phương pháp tiết lộ thông tin từng bước và các mẫu thiết kế rõ ràng để chỉ tải kiến thức chuyên ngành khi cần thiết, đồng thời giữ cho các lời nhắc ngắn gọn.
- Kiến trúc đa tác tử với các quy trình làm việc Router, Sequential, Loop và Parallel cho phép các tác tử chuyên biệt cộng tác giải quyết các nhiệm vụ phức tạp.
- Các công nghệ thực tiễn như AgentKit 2.0 và kỹ năng cộng đồng cho phép xây dựng các hệ thống AI mô-đun, an toàn và có thể kiểm toán được trong suốt vòng đời phần mềm.
- Việc thiết lập ADK cục bộ trên macOS, Linux và Windows giúp dễ dàng tạo nguyên mẫu, thử nghiệm và tinh chỉnh các tác nhân chuyên nghiệp dựa trên API và dữ liệu thực tế.
Các tác nhân thông minh được xây dựng bằng Bộ công cụ phát triển tác nhân (ADK) đang nhanh chóng trở thành xương sống của các ứng dụng trí tuệ nhân tạo hiện đại.Vượt xa những chatbot đơn thuần chỉ trả lời câu hỏi. Với hệ thống kỹ năng phù hợp, các tác nhân này có thể suy luận, lập kế hoạch, gọi công cụ, cộng tác với các tác nhân khác và thậm chí tự tinh chỉnh công việc của mình trong các vòng lặp, tất cả đều được thực hiện trong khi vẫn kiểm soát được việc sử dụng token và độ trễ nhờ các kỹ thuật tiết lộ thông tin dần dần.
Trong hướng dẫn chi tiết này, bạn sẽ được tìm hiểu cách thiết kế, cấu trúc và điều phối các tác nhân ADK có kỹ năng.Từ các tác nhân đơn giản cho đến các quy trình làm việc đa tác nhân chạy tuần tự, lặp lại và song song. Bạn cũng sẽ thấy cách các hệ thống thực tế như ADK codelabs của Google, các kỹ năng cộng đồng và các khung điều phối như AgentKit 2.0 sử dụng các mẫu như Router, SequentialAgent, LoopAgent và ParallelAgent, cùng với cách các công ty như Q2BSTUDIO kết hợp điều này với các nền tảng đám mây và an ninh mạng để cung cấp các hệ thống sẵn sàng cho sản xuất.
Tại sao các tác nhân ADK có kỹ năng lại quan trọng đối với các nhóm phần mềm hiện đại?
Sự bùng nổ của trí tuệ nhân tạo trong phát triển phần mềm đã thúc đẩy các nhóm tìm kiếm cách thức để đóng gói chuyên môn và quy trình làm việc thành các đơn vị có thể tái sử dụng và kết hợp được.ADK đáp ứng nhu cầu này bằng cách cho phép bạn đóng gói hành vi, quy tắc miền và công cụ vào các tác nhân có thể được tái sử dụng trên nhiều dự án, nhóm và thậm chí cả sản phẩm.
Cốt lõi của phương pháp này là Kỹ năng của Đặc vụĐây là những mô-đun kiến thức độc lập mà một tác nhân có thể tải theo yêu cầu. Thay vì đưa tất cả các hướng dẫn và quy tắc vào một lời nhắc lớn duy nhất, các kỹ năng áp dụng một cách tiếp cận riêng biệt. tiết lộ công khai Kiến trúc: các hướng dẫn, tài nguyên và tập lệnh chỉ được hiển thị khi cần thiết, giúp duy trì ngữ cảnh gọn nhẹ và hiệu suất cao ngay cả khi bạn đã cài đặt hàng trăm kỹ năng.
Hiệu quả này rất quan trọng trong một thế giới mà ngân sách token, độ trễ và chi phí tính toán là những hạn chế thực tế.Việc tải tất cả hướng dẫn kiểu dáng, thông số kỹ thuật API và quy tắc vận hành vào một lời nhắc duy nhất không khả thi. Kỹ năng cho phép bạn lưu trữ kiến thức "lạnh" trên ổ đĩa (hoặc trong kho lưu trữ) và chỉ đưa nó vào ngữ cảnh của tác nhân khi một khả năng cụ thể nào đó có liên quan.
Các công ty như Q2BSTUDIO tận dụng mô hình này để xây dựng các hệ thống AI tùy chỉnh cho doanh nghiệp.Bằng cách kết hợp trí tuệ kinh doanh, kiến thức chuyên môn và các thực tiễn an ninh mạng hiện đại, các tác nhân không chỉ có khả năng và nhận thức được ngữ cảnh mà còn được tăng cường khả năng chống lại các vectơ tấn công phổ biến trong bối cảnh mối đe dọa hiện nay.
Hiểu rõ kiến trúc tiết lộ thông tin tiến bộ của các kỹ năng ADK
Các kỹ năng kiểu ADK thường tuân theo mô hình tải ba cấp giúp tập trung vào ngữ cảnh của tác nhân. đồng thời vẫn cho phép chuyên môn hóa sâu về từng lĩnh vực khi cần thiết. Bạn có thể coi đó như một quy trình phân cấp kiến thức:
Cấp độ 1 – Khám pháKhi cuộc hội thoại bắt đầu, trợ lý ảo chỉ thấy danh mục các kỹ năng có sẵn: tên và mô tả ngắn gọn của chúng. Chưa có thông tin nào được tải lên. Điều này đủ để trợ lý ảo quyết định kỹ năng nào có thể phù hợp với yêu cầu của người dùng.
Cấp độ 2 – Hướng dẫn: khi một kỹ năng được xác định là phù hợp, tác nhân sẽ đọc thông tin của nó. SKILL.md hoặc tập tin hướng dẫn tương đương. Tài liệu này cung cấp hướng dẫn chi tiết, các mẫu và quy tắc cho kỹ năng đó, và chỉ được đưa vào ngữ cảnh mô hình khi cần thiết.
Cấp độ 3 – Tài nguyênCác tài sản cồng kềnh như lược đồ lớn, danh sách kiểm tra dài, tập lệnh hoặc tài liệu mở rộng vẫn còn trên hệ thống tệp dưới dạng tham chiếu.
và được truy xuất theo yêu cầu Chỉ khi kỹ năng đó chỉ rõ đến chúng. Trình duyệt sẽ đọc hoặc thực thi các tài nguyên này khi cần thiết, thay vì luôn hiển thị chúng trong lời nhắc chính.
Mô hình này là cốt lõi của các framework như AgentKit 2.0 và các thiết lập dựa trên Antigravity.Bạn có thể cài đặt kỹ năng trực tiếp vào các tác nhân tương thích (Claude Code, Cursor, Antigravity và các tác nhân khác) bằng các lệnh như sau: npx add-skill vercel-labs/agent-skills, công cụ này sao chép các kho kỹ năng, đặt chúng vào các thư mục chính xác và giúp người dùng tìm thấy chúng mà không cần phải chỉnh sửa thủ công các lời nhắc.
Các mẫu thiết kế để cấu trúc kỹ năng ADK
Việc tạo ra một kỹ năng mới từ đầu thường ít liên quan đến công cụ mà chủ yếu tập trung vào thiết kế nội dung.Thông số kỹ thuật của ADK thường hướng dẫn bạn cách cấu trúc gói (phần đầu trong YAML, references/, assets/, scripts/ Nó cung cấp các thư mục, v.v.), nhưng không hướng dẫn cách viết các lệnh cụ thể. Đó là lúc các mẫu thiết kế có thể tái sử dụng phát huy tác dụng.
Những người hành nghề đã xây dựng hàng chục kỹ năng cho biết rằng một số ít mô hình cấu trúc bao quát hầu hết các trường hợp sử dụng thực tế.Năm trong số những công cụ hữu ích nhất là:
Trình bao bọc công cụ: Mô hình này gói gọn các quy ước và thực tiễn tốt nhất của một thư viện hoặc nền tảng nhất định vào một kỹ năng. Các hướng dẫn mô tả các quy tắc cần tuân theo, trong khi references/ Nơi đây lưu trữ tài liệu chính thức. Thường không có mẫu hoặc kịch bản nào; mục đích là cung cấp cho người dùng một "mô hình tư duy" về một công cụ như FastAPI, React hoặc Postgres.
Máy phát điệnỞ đây, kỹ năng này tạo ra đầu ra có cấu trúc nhất quán bằng cách sử dụng các mẫu được lưu trữ trong assets/Ví dụ bao gồm tài liệu API, thông báo commit, báo cáo kỹ thuật hoặc nhật ký thay đổi. Hướng dẫn xác định các quy tắc chất lượng, trong khi mẫu xác định hình dạng của đầu ra, do đó bạn sẽ nhận được các định dạng có thể lặp lại với nội dung khác nhau mỗi lần.
Người nhận xét: mẫu này phân tách gì để kiểm tra từ làm thế nào để kiểm tra nó. Một tập tin danh sách kiểm tra trong references/ Nó liệt kê các mục cần xác minh (bảo mật, kiểu dáng, kiến trúc, v.v.), trong khi hướng dẫn xác định quy trình đánh giá: nhóm các phát hiện theo mức độ nghiêm trọng, yêu cầu giải thích, đề xuất các biện pháp khắc phục. Chỉ cần hoán đổi tệp danh sách kiểm tra, bạn sẽ có ngay một người đánh giá hoàn toàn mới mà không cần viết lại kỹ năng.
Phỏng vấn (Đảo ngược)Thay vì hành động ngay lập tức, hệ thống sẽ phỏng vấn người dùng trước thông qua các câu hỏi có cấu trúc theo từng giai đoạn, với các điều kiện như “không bắt đầu xây dựng cho đến khi tất cả các giai đoạn hoàn tất”. Điều này ngăn hệ thống đưa ra những giả định lớn và buộc nó phải làm rõ mục tiêu và ràng buộc trước khi tạo ra kết quả chi tiết.
PipelineMẫu này mã hóa các quy trình làm việc nhiều bước với các điều kiện kiểm tra rõ ràng giữa các bước, chẳng hạn như “không chuyển sang bước 3 cho đến khi người dùng xác nhận”. Nó phức tạp hơn các mẫu khác, nhưng đây là mẫu duy nhất có thể ngăn chặn các tác nhân bỏ qua các giai đoạn xác thực một cách đáng tin cậy. Kỹ năng đường dẫn có thể kết hợp các bước của Người đánh giá, đầu ra của Trình tạo hoặc các giai đoạn Phỏng vấn trong cùng một quy trình.
Các kỹ năng thực tế từ Google, Vercel và Supabase thường kết hợp hai hoặc nhiều mô hình này cho mỗi kỹ năng.Ví dụ, một kỹ năng quản trị có thể phỏng vấn người dùng về các ràng buộc của dự án, sau đó chạy quy trình đánh giá bằng cách sử dụng các danh sách kiểm tra khác nhau và tạo báo cáo quản trị bằng Trình tạo dựa trên mẫu.
Từ các tác nhân đơn lẻ đến hệ thống đa tác nhân với ADK
Khi bạn đã hiểu cách các kỹ năng đóng gói kiến thức, bước tiếp theo là xem các tác nhân ADK điều phối kiến thức đó trong quy trình làm việc như thế nào.Các bài thực hành ADK chính thức của Google là nguồn tham khảo tuyệt vời: chúng hướng dẫn bạn từ một tác nhân đơn lẻ cơ bản đến các công cụ, bộ nhớ và sự phối hợp đa tác nhân, tất cả đều được trình bày trong các sổ tay Colab thực tế.
Hành trình bắt đầu với tác nhân đầu tiên được xây dựng bằng Runner.Trong bài thực hành, bạn sẽ định nghĩa một day_trip_agent Nhiệm vụ của ứng dụng là lập kế hoạch hành trình du lịch một ngày phù hợp với sở thích và ngân sách của người dùng. Ba thành phần minh họa mô hình tương tác tổng quát của ADK:
Đại lý "Bộ não" được định nghĩa bởi các chỉ thị, mô hình cơ bản (ví dụ: Gemini) và các công cụ mà nó có thể gọi. Trong ví dụ này, tác nhân có các hướng dẫn chi tiết cộng với quyền truy cập vào Google Search.
Phiên họp Nó hoạt động như một kho lưu trữ bộ nhớ hội thoại, chứa toàn bộ lịch sử tin nhắn của người dùng và phản hồi của nhân viên hỗ trợ. Việc tái sử dụng cùng một đối tượng phiên giúp duy trì ngữ cảnh xuyên suốt các lượt tương tác.
Á hậu Điều phối quá trình thực thi bằng cách lấy một tác nhân và một phiên, xử lý từng truy vấn của người dùng và trả về câu trả lời.
đồng thời cập nhật phiên làm việc trong suốt quá trình.Các công cụ hỗ trợ tiện ích như... run_agent_query() Hãy đóng gói vòng lặp này để bạn có thể dễ dàng kích hoạt các tác nhân thông qua các bài kiểm tra hoặc tích hợp giao diện người dùng.
Việc đọc qua ví dụ đầu tiên này cho thấy hướng dẫn tốt liên quan trực tiếp như thế nào đến các yêu cầu của người dùng.Một truy vấn thử nghiệm có thể yêu cầu một chuyến đi trong ngày "tiết kiệm chi phí" và "thư giãn", và vì hướng dẫn nhấn mạnh việc tiết kiệm chi phí, nên hệ thống sẽ khéo léo lồng ghép các yếu tố ngân sách vào câu trả lời của mình.
Kết nối các công cụ tùy chỉnh với các tác nhân ADK của bạn
Các tác nhân sẽ thực sự mạnh mẽ khi chúng có thể gọi các API và dịch vụ nội bộ của riêng bạn thay vì chỉ các công cụ chung chung như tìm kiếm trên web.ADK (Advanced Practice Kit) đơn giản hóa điều này bằng cách biến các hàm thông thường thành công cụ dựa trên chữ ký và chuỗi tài liệu của chúng.
Trong phần hướng dẫn thực hành, một ví dụ đơn giản sử dụng hàm Python để gọi API thời tiết thời gian thực.Một hàm như... get_live_weather_forecast(location: str) Hàm này lấy dữ liệu hiện tại từ một dịch vụ thời tiết công cộng và trả về thông tin có cấu trúc, ví dụ như nhiệt độ và điều kiện, dưới dạng từ điển.
Phần quan trọng nhất là docstring.ADK phân tích chuỗi tài liệu của hàm để hiểu công cụ đó làm gì, nhận những đối số nào và trả về giá trị gì. Mô hình ngôn ngữ đọc mô tả đó và quyết định khi nào và làm thế nào để gọi công cụ trong quá trình suy luận.
Để tích hợp công cụ vào tác nhân, bạn chỉ cần truyền nó vào danh sách công cụ trong quá trình khởi tạo., Ví dụ tools=[get_live_weather_forecast]Các chỉ dẫn của weather_agent Sau đó, có thể chỉ định rõ ràng cho mô hình gọi công cụ này trước khi đề xuất các hoạt động ngoài trời.
Trong quá trình thử nghiệm, các câu hỏi như “Tôi muốn đi bộ đường dài gần hồ Tahoe, thời tiết ở đó như thế nào?” sẽ trực tiếp kích hoạt công cụ này.Bởi vì nhiệm vụ và chỉ thị của đại lý yêu cầu sử dụng dự báo trực tiếp trước khi đề xuất kế hoạch. Mô hình này có thể áp dụng cho các API của riêng bạn: kho hàng, định giá, CRM, phân tích hoặc bất kỳ hệ thống phụ trợ nào bạn có thể gói gọn thành một hàm.
Mô hình "Đại lý như một công cụ": xây dựng các nhóm chuyên gia.
Thay vì dồn mọi trách nhiệm vào một tác nhân duy nhất, ADK khuyến khích bạn thành lập một nhóm các chuyên gia nhỏ hơn.Điểm mấu chốt nằm ở mô hình "Đại lý như một công cụ", trong đó một đại lý có thể gọi một đại lý khác như thể đó chỉ là một công cụ khác.
Một ví dụ điển hình trong các bài thực hành lập trình là xây dựng một hệ thống lập kế hoạch hành trình nhiều lớp.:
Các đại lý chuyên gia xử lý các miền hẹp: a food_critic_agent chỉ gợi ý về các nhà hàng, một db_agent truy vấn dữ liệu khách sạn và một concierge_agent Nó đóng vai trò như một trợ lý lịch sự trong các tương tác với người dùng.
Nhân viên lễ tân coi nhà phê bình ẩm thực như một công cụ., bằng cách giao việc lựa chọn nhà hàng cho nhà phê bình, rồi diễn đạt lại kết quả bằng ngôn ngữ dễ hiểu hơn đối với người dùng.
Ở vị trí cao nhất là một tác nhân điều phối, chẳng hạn như... trip_data_concierge_agent, nhiệm vụ của họ là hiểu yêu cầu tổng thể của người dùng và quyết định nên gọi chuyên gia nào thông qua các hàm bao bọc chuyên dụng như call_db_agent và call_concierge_agent.
Khi bạn chạy một truy vấn như "tìm cho tôi một khách sạn và một nhà hàng gần đó"Các nhật ký từ các công cụ cho thấy một chuỗi ủy quyền: bộ điều phối gọi tác nhân cơ sở dữ liệu để lấy thông tin khách sạn, sau đó gọi tác nhân dịch vụ hỗ trợ khách hàng để được tư vấn về nhà hàng, và dịch vụ hỗ trợ khách hàng lại gọi cho nhà phê bình ẩm thực. Mỗi tác nhân tập trung vào lĩnh vực riêng của mình trong khi bộ điều phối xử lý việc tổng hợp thông tin.
Cách tiếp cận này phù hợp chặt chẽ với cách AgentKit 2.0 cấu trúc 16 tác nhân chuyên biệt của nó. Trên các khía cạnh frontend, backend, bảo mật, kiểm thử và cơ sở hạ tầng. Mỗi agent đều được trang bị các kỹ năng chuyên biệt (các phương pháp hay nhất của React, thiết lập cơ sở dữ liệu, kiểm tra bảo mật, quy trình triển khai, v.v.), và một orchestrator sẽ kết hợp chúng để đạt được các mục tiêu lớn hơn như “xây dựng và triển khai một module xác thực người dùng”.
Cung cấp bộ nhớ cho các tác nhân: các phiên và lập kế hoạch thích ứng
Để cảm thấy thực sự thông minh, một đặc vụ phải ghi nhớ bối cảnh xuyên suốt nhiều lượt chơi.Điều chỉnh kế hoạch dựa trên phản hồi thay vì coi mỗi thông điệp là một khởi đầu mới. Đây là lúc các buổi họp và quản lý bộ nhớ phát huy tác dụng.
Trong bài thực hành ADK, một tác nhân lập kế hoạch chuyến đi nhiều ngày minh họa sự khác biệt giữa bộ nhớ hoạt động tốt và bộ nhớ bị lỗi.Một hàm như... create_multi_day_trip_agent() Thiết lập một tác nhân với các chỉ dẫn nhấn mạnh việc lập kế hoạch từng bước, ghi nhớ các lựa chọn và phản hồi một cách chu đáo đối với các điều chỉnh.
Một bản demo thích ứng tái sử dụng một đối tượng phiên duy nhất cho nhiều lượt chơi.:
Rẽ 1Người dùng yêu cầu lập kế hoạch cho chuyến đi hai ngày và đại lý đề xuất các hoạt động cho ngày thứ nhất.
Rẽ 2Người dùng nói rằng họ không thích lâu đài. Vì phiên làm việc lưu giữ lịch trình trước đó, nhân viên hỗ trợ biết cần điều chỉnh phần nào và đề xuất một phương án thay thế cho đoạn đó trong khi vẫn giữ nguyên các chi tiết khác.
Rẽ 3Người dùng xác nhận thay đổi và yêu cầu các bước tiếp theo, vì vậy nhân viên hỗ trợ tiếp tục lập kế hoạch cho ngày thứ 2, nắm rõ toàn bộ bối cảnh trước đó.
Một ví dụ minh họa về "thất bại" tương phản sẽ tạo ra một phiên chơi mới mẻ cho mỗi lượt.Nhân viên hỗ trợ trả lời đúng câu hỏi đầu tiên, nhưng khi người dùng đề cập đến "ngày 2" sau đó, phiên làm việc mới không có lịch sử và nhân viên hỗ trợ về cơ bản bị mất trí nhớ, không thể liên kết yêu cầu trở lại kế hoạch trước đó.
Tóm lại, bài học rất đơn giản nhưng vô cùng quan trọng: các cuộc trò chuyện liên tục đòi hỏi các buổi gặp gỡ liên tục.Đối với các hệ thống sản xuất, bạn cần duy trì và truy xuất trạng thái phiên giữa các lần gọi API, thiết bị và đôi khi cả người dùng, đặc biệt khi quy trình làm việc kéo dài nhiều ngày hoặc nhiều tuần.
Bộ định tuyến (Router agent): chuyển hướng các yêu cầu đến đúng chuyên gia.
Khi danh sách các chuyên gia và kỹ năng của bạn ngày càng mở rộng, bạn cần một cơ chế để chuyển tiếp từng yêu cầu đến đúng chuyên gia.Đó là nhiệm vụ của tác nhân Router, một thành phần nhỏ nhưng rất quan trọng trong kiến trúc đa tác nhân.
Trách nhiệm chính của bộ định tuyến là phân loại chứ không phải trả lời trực tiếp các câu hỏi của người dùng.Thông thường, lệnh của nó yêu cầu đọc truy vấn của người dùng và chỉ xuất ra tên của tác nhân (hoặc quy trình làm việc) phù hợp nhất cho công việc đó.
Trong các phần đa tác nhân của bài thực hành, bộ định tuyến sẽ lựa chọn giữa nhiều tác nhân miền khác nhau. Ví dụ như người lập kế hoạch chuyến đi trong ngày, chuyên viên ẩm thực hoặc chuyên viên vận chuyển. Chức năng thực thi trước tiên hỏi bộ định tuyến về một tuyến đường, sau đó sử dụng logic điều kiện đơn giản để gọi chuyên gia phù hợp dựa trên câu trả lời của bộ định tuyến.
Mô hình này phù hợp với cách mô tả điều phối đa tác nhân trong AgentKit 2.0.Tại đây, một tác nhân điều phối nhận mục tiêu cấp cao, ủy quyền thiết kế lược đồ cho tác nhân cơ sở dữ liệu, tạo khung sườn cho tác nhân giao diện người dùng, chạy đánh giá bảo mật, sau đó chuyển giao cho tác nhân triển khai và cuối cùng tổng hợp các khác biệt và URL thành một bản tóm tắt mạch lạc cho người dùng.
SequentialAgent: điều phối các quy trình làm việc nhiều bước theo thứ tự
Một số nhiệm vụ tự nhiên được chia thành các giai đoạn có trình tự, trong đó kết quả của bước này sẽ được sử dụng cho bước tiếp theo.Ví dụ, câu "tìm quán sushi ngon nhất ở Palo Alto, rồi chỉ đường đến đó" rõ ràng cần bước tìm kiếm trước, sau đó mới đến bước chỉ đường.
ADK cung cấp một tác nhân quy trình công việc chuyên dụng, thường được gọi là SequentialAgentđể quản lý các chuỗi này một cách minh bạch.Thay vì tự viết logic điều phối thủ công, bạn chỉ cần định nghĩa một danh sách các tác nhân con và các khóa trạng thái được chia sẻ, và khung phần mềm sẽ tự động xử lý trình tự thực hiện và truyền dữ liệu.
Trong ví dụ codelab, tác nhân foodie được chỉnh sửa lại để phát ra kết quả của nó dưới dạng một output_key Lượt thích "destination"Hướng dẫn của đại lý vận chuyển sau đó bao gồm một chỗ giữ chỗ như sau: {destination} ADK sẽ tự động điền giá trị đã lưu trữ từ trạng thái chia sẻ vào đó.
Ví dụ, tác nhân quy trình làm việc tổng thể find_and_navigate_agent, được cấu hình như một SequentialAgent với các đại lý phụ theo một thứ tự cố định Lượt thích [foodie_agent, transportation_agent]Khi được kích hoạt, nó hoạt động như một tác nhân duy nhất từ góc nhìn của người gọi, đồng thời phối hợp nội bộ hai bước và quản lý trạng thái chung.
Cách tiếp cận này giúp đơn giản hóa đáng kể mã điều phối.Các cây điều kiện và việc kết nối dữ liệu tùy chỉnh biến mất, được thay thế bằng các định nghĩa khai báo về các tác nhân con và khóa. Điều này cũng giúp việc kiểm thử và mở rộng quy trình làm việc dễ dàng hơn, vì mỗi tác nhân con vẫn giữ tính mô-đun và có thể được tái sử dụng trong các chuỗi khác.
LoopAgent: quá trình tinh chỉnh lặp đi lặp lại với bộ lập kế hoạch, bộ phê bình và bộ tinh chỉnh.
Nhiều vấn đề thực tế có thể được giải quyết bằng cách cải tiến lặp đi lặp lại hơn là bằng những giải pháp một lần duy nhất.Hãy tưởng tượng việc lập kế hoạch, đánh giá, tinh chỉnh và lặp lại cho đến khi đạt được tiêu chuẩn chất lượng nhất định. Quy trình làm việc lặp lại đáp ứng nhu cầu này.
ADK nắm bắt mô hình này bằng một LoopAgent, một tác nhân quy trình công việc liên tục chạy một chuỗi các tác nhân con cho đến khi điều kiện thoát được kích hoạt.Điều này rất lý tưởng cho những người làm việc theo chủ nghĩa "hoàn hảo", những người cần tự đánh giá và sửa chữa kết quả công việc của mình dựa trên các tiêu chí chính thức.
Cấu hình vòng lặp cổ điển bao gồm ba vai tròMô hình này bao gồm một tác nhân lập kế hoạch ban đầu, một tác nhân phê bình đánh giá kế hoạch dựa trên các ràng buộc và một tác nhân tinh chỉnh chỉnh sửa hoặc viết lại kế hoạch dựa trên phản hồi của tác nhân phê bình.
Định nghĩa vòng lặp kết nối các vai trò này thành một chu trình với số lần lặp tối đa. để tránh vòng lặp vô hạn, chẳng hạn. max_iterations=3Mỗi lần xem xét, người phê bình sẽ quyết định xem kế hoạch có thể chấp nhận được hay không; nếu không, người tinh chỉnh sẽ tạo ra một phiên bản sửa đổi và vòng lặp tiếp tục.
Việc thoát khỏi vòng lặp thường liên quan đến một công cụ chuyên dụng., Chẳng hạn như exit_loopĐó là lệnh mà bộ lọc gọi khi đánh giá của nhà phê bình trở nên tích cực. Tại thời điểm đó, kế hoạch đã được xác nhận cuối cùng sẽ được trả về cho người dùng hoặc chuyển cho các tác nhân tiếp theo.
Mô hình này đặc biệt hữu ích trong các lĩnh vực như thiết kế kiến trúc, đánh giá bảo mật hoặc tạo nội dung.Trong đó, những câu trả lời chỉ một lần duy nhất hiếm khi đủ tốt và các chu kỳ phản hồi tích hợp có thể nâng cao chất lượng trung bình một cách đáng kể.
ParallelAgent: Tăng tốc quá trình làm việc với các tác nhân con đồng thời
Khi các phần khác nhau trong yêu cầu của người dùng là độc lập, việc thực hiện chúng tuần tự sẽ lãng phí thời gian.Ví dụ, câu lệnh “tìm một bảo tàng, một buổi hòa nhạc và một nhà hàng tuyệt vời cho tối nay” không yêu cầu mỗi lượt tìm kiếm phải chờ đợi các lượt tìm kiếm khác.
Quy trình làm việc song song giải quyết vấn đề này bằng cách triển khai nhiều chuyên gia cùng một lúc.Trong ADK, một ParallelAgent Chương trình chạy đồng thời một danh sách các tác nhân con, sau đó hợp nhất kết quả của chúng thông qua trạng thái chia sẻ và bước tổng hợp cuối cùng.
Một cấu hình điển hình xác định ba tác nhân chuyên biệt theo từng lĩnh vực. Lượt thích museum_finder, concert_finder và restaurant_finder, mỗi cái đều có output_key ở trạng thái chia sẻ. Tác nhân song song thực thi cả ba tác vụ cùng lúc, do đó tổng thời gian gần bằng thời gian chậm nhất của một tác nhân đơn lẻ hơn là tổng thời gian của cả ba tác nhân.
Sau khi các tác nhân này hoàn thành, một tác nhân tổng hợp sẽ đọc các ký tự giữ chỗ như sau: {museum_result}, {concert_result} và {restaurant_result} từ trạng thái chungSau đó, xây dựng một câu trả lời mạch lạc, dễ hiểu cho người dùng bằng cách kết hợp cả ba nguồn thông tin.
Mô hình này phản ánh những lợi ích của "thực thi song song" được mô tả trong các luồng điều phối của AgentKit 2.0.Các tác nhân phụ độc lập thực hiện công việc của mình đồng thời, được phân tách bởi kỹ năng riêng để không làm ảnh hưởng đến ngữ cảnh của nhau, trong khi tác nhân điều phối duy trì khả năng chịu lỗi và khả năng kiểm toán tổng thể.
AgentKit 2.0, kỹ năng cộng đồng và điều phối tác nhân theo mô-đun
AgentKit 2.0 thể hiện một hệ sinh thái hoàn thiện gồm các kỹ năng và tác nhân ADK trông như thế nào trong thực tế.Nó được trang bị 16 tác nhân chuyên biệt bao gồm các lĩnh vực giao diện người dùng, máy chủ, bảo mật, kiểm thử và cơ sở hạ tầng, mỗi tác nhân đều được trang bị sẵn các kỹ năng chuyên môn để có thể hoạt động tự chủ trên các nhiệm vụ phụ phức tạp.
Hơn 40 kỹ năng chuyên biệt theo từng lĩnh vực được tích hợp sẵn.Bao gồm các lĩnh vực thường xuyên xuất hiện như luồng xác thực, cấu hình cơ sở dữ liệu, triển khai thời gian thực và giám sát hiệu suất. Đây chính xác là những phần của các hệ thống hiện đại thường đòi hỏi nhiều thời gian thiết kế nhất.
Ngoài ra, cộng đồng rộng lớn hơn đóng góp hơn 1,000 kỹ năng được duy trì.Cùng với các framework như Agent MD, những kỹ năng này cho phép các agent diễn giải các quy tắc vận hành chi tiết và áp dụng chúng một cách nhất quán trên các codebase lớn, phức tạp và các hệ thống triển khai nhiều lớp.
Triết lý cốt lõi là phát triển theo mô-đun, hướng tác nhân.Thay vì một "siêu điệp" cố gắng làm mọi thứ, bạn tập hợp một nhóm các chuyên gia chuyên biệt và điều phối họ. Mỗi điệp viên chỉ tải những kỹ năng cần thiết cho lĩnh vực của mình, phù hợp với mô hình tiết lộ thông tin từng bước được sử dụng ở cấp độ kỹ năng.
Các quy trình điều phối điển hình tuân theo một mô hình rõ ràng.Một tác nhân điều phối nhận mục tiêu cấp cao nhất, chuyển giao thiết kế cơ sở dữ liệu cho tác nhân cơ sở dữ liệu (sử dụng kỹ năng lược đồ), gửi khung giao diện người dùng cho tác nhân giao diện người dùng (với kỹ năng thực hành tốt nhất của React), chạy tác nhân bảo mật để kiểm tra và cuối cùng yêu cầu tác nhân triển khai đẩy lên cơ sở hạ tầng như InForge. Trong suốt quá trình, tác nhân điều phối thu thập kết quả, thử lại các bước thất bại khi cần thiết và ghi lại các tương tác để kiểm tra.
Kiến trúc này không chỉ cải thiện hiệu suất và độ tin cậy, mà còn có khả năng mở rộng khi kỹ năng của cộng đồng tăng lên hàng nghìn người.Bạn không còn cần một người “biết tuốt” duy nhất nữa; thay vào đó, bạn dựa vào một đội ngũ ăn ý, nơi mỗi thành viên đều trau dồi kỹ năng chuyên môn của mình.
Thực hành: Chạy các tác nhân web ADK cục bộ trên macOS, Linux và Windows.
Tất cả những khái niệm này sẽ trở nên rõ ràng hơn nhiều khi bạn tự chạy một tác nhân ADK thực sự trên máy tính của mình.Cấu hình ADK Web được cung cấp trong các kho lưu trữ ví dụ cho phép bạn chạy một tác nhân lập kế hoạch chuyến đi trong ngày cục bộ với giao diện web đơn giản.
Trước khi bắt đầu, bạn cần đáp ứng một vài điều kiện tiên quyết.Yêu cầu hệ thống: Python 3.8 trở lên (khuyến nghị 3.9 trở lên), khóa API của Google AI Studio và kết nối internet. Đối với các phiên bản Python mới hơn, bạn có thể cài đặt... google-adk==1.5.0Trong khi đó, người dùng Python 3.8 nên sử dụng phiên bản tương thích như... google-adk==0.3.0.
Quy trình cơ bản cho macOS và Linux bắt đầu bằng việc sao chép kho lưu trữ và thiết lập môi trường ảo.Sau khi chạy git clone và cd Trong dự án, bạn có thể thực thi một tập lệnh tự động như sau: ./setup_venv.sh (sau khi cấp quyền thực thi) hoặc tạo và kích hoạt môi trường ảo theo cách thủ công với python3 -m venv .adk_env và source .adk_env/bin/activate, theo dõi bởi pip install -r requirements.txt.
Một bước quan trọng là thiết lập các biến môi trường thông qua... .env tập tin trong agent/ thư mụcBạn tạo tệp này, mở nó trong trình soạn thảo và thêm các dòng như sau: GOOGLE_GENAI_USE_VERTEXAI=FALSE và GOOGLE_API_KEY=your_actual_api_key_hereThay thế phần giữ chỗ bằng khóa API thực của bạn. Bỏ qua bước này sẽ ngăn tác nhân gọi đến các mô hình cơ bản.
Sau khi môi trường được kích hoạt, bạn chỉ cần chạy lệnh. adk web để khởi động giao diện web cục bộCửa sổ terminal hiển thị một URL, thường là... http://localhost:8000, nơi bạn có thể mở trình duyệt của mình, chọn agent Chọn tùy chọn từ menu thả xuống và bắt đầu trò chuyện với người lập kế hoạch chuyến đi trong ngày. Khi hoàn tất, bạn tắt môi trường ảo bằng nút deactivate chỉ huy.
Người dùng Windows cũng sử dụng cách thức tương tự khi dùng Command Prompt hoặc PowerShell.Sau khi sao chép kho lưu trữ và chuyển đến thư mục đó, bạn có thể chạy một tập lệnh tiện ích như sau: setup_venv.bat hoặc tạo môi trường ảo (venv) theo cách thủ công bằng python -m venv .adk_env và kích hoạt nó thông qua .adk_env\Scripts\activate trong Command Prompt hoặc .adk_env\Scripts\Activate.ps1 trong PowerShell.
.env Tệp trên Windows nằm ở cùng một vị trí. agent\ thư mục, được tạo ra chẳng hạn với type nul > agent\.env và được chỉnh sửa bằng Notepad. Sau đó, bạn thêm các cặp khóa-giá trị tương tự để cấu hình quyền truy cập Google AI. Nếu bạn gặp sự cố về chính sách thực thi trong PowerShell, một lệnh như... Set-ExecutionPolicy -ExecutionPolicy RemoteSigned -Scope CurrentUser Giải quyết chúng cho các tập lệnh cục bộ.
Sau khi cài đặt các thư viện phụ thuộc và cấu hình các biến môi trường, hãy chạy lệnh sau: adk web mang đến cho bạn trải nghiệm tương tự như khi sử dụng đại lý trên trình duyệt. Trên Windows cũng như macOS hoặc Linux, với khả năng vô hiệu hóa môi trường bất cứ lúc nào bằng cách sử dụng deactivate.
Tóm lại, các tác nhân ADK với kỹ năng, khả năng tiết lộ thông tin dần dần và điều phối đa tác nhân cung cấp một phương pháp mạnh mẽ để xây dựng các hệ thống AI có khả năng mở rộng, bảo mật và chuyên biệt cao. Phù hợp với quy trình làm việc phần mềm thực tế. Bằng cách cấu trúc các kỹ năng với các mẫu thiết kế vững chắc, kết nối các tác nhân với các công cụ và API của riêng bạn, tận dụng các tác nhân Router, Sequential, Loop và Parallel và chạy các thiết lập cục bộ hoặc trên đám mây, các nhóm có thể chuyển từ chatbot đơn giản sang các cộng tác viên AI mạnh mẽ làm việc cùng với các nhà phát triển, nhà phân tích và người vận hành trong công việc hàng ngày.
