프리미의 공간

AI Agent 도입의 5단계 역량 본문

카테고리 없음

AI Agent 도입의 5단계 역량

프리미_ 2026. 5. 6. 11:00

요즘 “AI Agent”라는 말은 너무 넓게 쓰인다. ChatGPT를 사내 시스템에 붙이는 일, Dify로 업무 자동화를 만드는 일, LangGraph로 직접 에이전트를 구현하는 일, 사내 에이전트 플랫폼을 구축하는 일이 모두 같은 표현으로 불린다.

그래서 “에이전트를 만들 줄 안다”는 말을 다음 5단계로 나눠볼 수 있다.

1. 제품형 AI 에이전트 연동·활용

  • 제품형 AI 에이전트를 사내 업무에 안전하게 도입·연동·활용할 수 있는가
  • ChatGPT Enterprise, Copilot, Claude Code, Amazon Q 같은 제품형 AI를 사내 시스템과 연결해 업무에 적용하는 역량이다.

2. 노코드·로우코드 에이전트 빌더 활용

  • 노코드/로우코드 빌더로 업무용 agentic workflow를 빠르게 만들고 배포할 수 있는가
  • n8n, Dify, Flowise, Copilot Studio 같은 도구로 LLM node, API connector, trigger, action을 조합해 업무 자동화를 만드는 역량이다.

3. 프레임워크 기반 에이전트 직접 구현

  • 코드로 에이전트를 직접 구현할 수 있는가
  • LangGraph, LangChain, CrewAI, OpenAI Agents SDK 등으로 state, tool calling, planning, RAG, API 연동을 직접 구현하는 역량이다.

4. 에이전트 실행 플랫폼·운영 인프라 구축

  • 에이전트를 실행·관리하는 플랫폼을 만들 수 있는가
  • 여러 에이전트를 등록·배포·관리하는 플랫폼을 만드는 역량이다. agent registry, tool registry, sandbox, 권한, 로그, 배포 체계가 포함된다.

5. Production Agent 평가·보안·운영

  • 에이전트를 실제 운영 환경에서 평가 보안 모니터링 개선할 수 있는가
  • 에이전트가 실제 업무에서 안정적으로 동작하도록 평가, 모니터링, 가드레일, 승인 흐름, 실패 복구, 비용 관리를 설계하는 역량이다.

 

단계별 AI Agent 필요 역량

1. 제품형 AI 에이전트 연동 및 업무 적용 역량

  • ChatGPT Enterprise, Microsoft Copilot, Copilot Studio, Claude, Claude Code, GitHub Copilot, Amazon Q Developer, Gemini Enterprise 같은 제품형 AI 도구의 기능과 한계를 이해할 수 있음.
  • 완제품 AI 도구를 사내 업무 환경에 도입할 때 필요한 권한, 보안, 데이터 연동, 사용자 정책을 검토할 수 있음.
  • Microsoft 365, Google Workspace, Slack, Teams, Jira, GitHub, Confluence, Notion, ServiceNow, Salesforce 같은 SaaS와 AI 제품을 연결해 업무 흐름을 구성할 수 있음.
  • Copilot Studio, GPTs, Claude Projects/Skills, Gemini Gems, Amazon Q Business 같은 제품 기능을 이용해 업무별 assistant 또는 agent를 만들 수 있음.
  • 사내 문서, 위키, 정책, 규정, 회의록, 티켓, 코드 저장소를 AI 제품의 knowledge source로 연결할 수 있음.
  • 제품형 AI가 제공하는 connector, action, plugin, skill, GPT action, MCP 연동 기능을 이해하고 활용할 수 있음.
  • 사내 데이터가 외부 모델 학습에 사용되는지, 로그가 어디에 저장되는지, retention policy가 무엇인지 검토할 수 있음.
  • Enterprise 플랜, API 사용, self-hosted, cloud-hosted 방식의 보안 차이를 설명할 수 있음.
  • 제품형 AI 도입 시 SSO, SCIM, RBAC, admin console, audit log, DLP, data residency 요구사항을 확인할 수 있음.
  • 현업 부서 요구사항을 받아 “제품 기능만으로 가능한 것”과 “별도 개발이 필요한 것”을 구분할 수 있음.
  • Copilot 또는 ChatGPT 도입 후 사용률, 업무 절감 시간, 반복 문의 감소율, 사용자 만족도 같은 효과를 측정할 수 있음.
  • 제품형 AI 도구의 prompt template, instruction, custom GPT, custom action을 설계할 수 있음.
  • Claude Code, Codex, GitHub Copilot coding agent, Amazon Q Developer 같은 개발자용 에이전트를 코드 리뷰, 테스트 생성, 마이그레이션, 문서화에 적용할 수 있음.
  • 제품형 코딩 에이전트가 수정 가능한 repo 범위, command 실행 권한, PR 생성 권한, secret 접근 권한을 제한할 수 있음.
  • 제품형 AI가 실패하는 경우, 예를 들어 hallucination, over-permission, wrong tool call, context leakage, stale document 문제를 식별할 수 있음.
  • 제품형 AI 도입 과정에서 법무, 보안, 정보보호, IT, 현업 부서와 요구사항을 조율할 수 있음.
  • 사내 보안 정책상 외부 SaaS AI 사용이 어려운 경우, Azure OpenAI, Bedrock, Vertex AI, 온프레미스 LLM 등 대안을 비교할 수 있음.
  • 제품형 AI를 단순 채팅 도구로 쓰는 것과, 사내 시스템 action까지 연결하는 agentic usage의 차이를 설명할 수 있음.

 

2. 노코드·로우코드 에이전트 빌더 기반 제작 및 배포 역량

  • n8n, Dify, Flowise, Langflow, Microsoft Copilot Studio, Dataiku Agent Builder, Google Agentspace, AWS PartyRock, Zapier AI Actions 같은 빌더형 도구의 사용 방식을 이해할 수 있음.
  • 노코드/로우코드 도구로 업무 흐름을 시각적으로 구성하고, trigger, node, condition, action, approval step을 설계할 수 있음.
  • 사용자의 자연어 요청을 받아 특정 업무 action으로 연결하는 간단한 agentic workflow를 만들 수 있음.
  • RAG node, LLM node, classifier node, router node, HTTP request node, database node, webhook node를 조합할 수 있음.
  • Slack, Teams, Gmail, Google Calendar, Jira, GitHub, Notion, Airtable, Google Sheets, Salesforce, ServiceNow 같은 외부 시스템을 connector로 연결할 수 있음.
  • n8n 같은 automation tool에서 webhook trigger, scheduled trigger, manual trigger, event trigger를 설정할 수 있음.
  • Dify나 Flowise 같은 LLM app builder에서 knowledge base, prompt, tool, workflow, agent mode를 구성할 수 있음.
  • Copilot Studio에서 topic, trigger, action, connector, generative answers, adaptive card, Power Automate flow를 구성할 수 있음.
  • 업무 담당자가 직접 수정할 수 있도록 prompt, 변수, 조건, approval flow를 이해하기 쉬운 형태로 설계할 수 있음.
  • 간단한 사내 업무 자동화, 예를 들어 FAQ 응답, 문서 검색, 회의록 생성, 티켓 생성, 보고서 초안, 고객 문의 분류를 빌더로 구현할 수 있음.
  • HTTP API 호출, 인증 토큰, OAuth, API key, secret variable을 빌더 안에서 안전하게 관리할 수 있음.
  • 빌더에서 제공하는 tool/action의 입력·출력 schema를 정의하고, 실패 시 fallback branch를 구성할 수 있음.
  • LLM output을 JSON, table, markdown, email body, ticket field 같은 downstream format으로 변환할 수 있음.
  • 조건 분기, 반복, human approval, escalation, notification을 workflow에 넣을 수 있음.
  • 빌더 기반 agent가 할 수 있는 일과 custom code가 필요한 일을 구분할 수 있음.
  • 빌더 기반 agent의 성능 한계, latency, 비용, vendor lock-in, observability 한계를 설명할 수 있음.
  • 현업 부서가 만든 workflow를 검토해 보안, 권한, 데이터 유출, 무한 루프, 잘못된 action 실행 위험을 점검할 수 있음.
  • 간단한 custom node, custom connector, webhook server를 직접 만들어 빌더의 한계를 보완할 수 있음.
  • 빌더 기반 agent를 PoC로 빠르게 만들 수 있음.
  • low-code로 만든 agent의 로그, 실행 이력, 실패율, 사용자 피드백을 수집해 개선할 수 있음.
  • 사내 업무 담당자에게 빌더 사용법을 교육하고, 공통 template과 reusable component를 제공할 수 있음.
  • 노코드/로우코드 빌더를 “최종 제품”으로 쓸지, “PoC·프로토타이핑 도구”로 쓸지 판단할 수 있음.
  • n8n/Dify류 도구를 self-hosted로 운영할 때 DB, storage, secret, auth, backup, access control을 구성할 수 있음.
  • 빌더 기반 agent가 사내망, 폐쇄망, 온프레미스 환경에서 동작 가능한지 검토할 수 있음.

 

3. 프레임워크 기반 에이전트 직접 구현 역량

  • LangGraph, LangChain, LlamaIndex, CrewAI, OpenAI Agents SDK, Google ADK, Claude Agent SDK 등으로 agentic workflow를 직접 설계·구현할 수 있음.
  • 단순 chain이 아니라 planner → tool selection → tool execution → observation → next action 구조를 구현할 수 있음.
  • ReAct, plan-and-execute, router agent, supervisor-worker, multi-agent coordination 같은 패턴을 이해하고 적용할 수 있음.
  • FastAPI, Flask, Node.js 등으로 에이전트를 서버 API 형태로 배포할 수 있음.
  • OpenAI-compatible API, Anthropic API, Gemini API, Bedrock, Azure OpenAI 등 다양한 LLM API를 연동할 수 있음.
  • vLLM, TGI, Ollama, llama.cpp, Bedrock, Vertex AI 등 서빙 환경에 맞춰 LLM 호출 계층을 추상화할 수 있음.
  • tool/function calling schema를 설계하고, JSON Schema, Pydantic 등으로 입력·출력을 검증할 수 있음.
  • 사내 API, DB, 검색엔진, Jira, GitHub, Slack, Teams, Notion, Confluence, Google Workspace, Microsoft 365 등과 tool 형태로 연동할 수 있음.
  • MCP 서버/클라이언트를 구성해 agent가 사내 데이터·도구를 표준화된 방식으로 호출하게 만들 수 있음.
  • RAG pipeline과 agent를 결합해 retrieval 결과를 바탕으로 다음 action을 선택하게 만들 수 있음.
  • vector DB, BM25, hybrid search, reranker, metadata filter를 agent tool로 구성할 수 있음.
  • SQL agent, code execution agent, browser/search agent, document QA agent, report generation agent 같은 업무별 agent를 구현할 수 있음.
  • agent state를 정의하고, 대화 상태·작업 상태·tool 결과·사용자 승인 상태를 관리할 수 있음.
  • streaming 응답, tool call 중간 이벤트, long-running task progress를 사용자에게 전달할 수 있음.
  • async Python, background task, queue, webhook 등을 사용해 오래 걸리는 agent task를 처리할 수 있음.
  • agent가 실패했을 때 retry, fallback, clarification question, human handoff를 수행하도록 설계할 수 있음.
  • tool 결과가 불완전하거나 충돌할 때 검증·재질문·추가 검색을 수행하도록 만들 수 있음.
  • agent prompt, system instruction, tool description, role separation을 안정적으로 설계할 수 있음.
  • structured output, constrained generation, output parser를 사용해 downstream system에 안전하게 넘길 수 있는 결과를 생성할 수 있음.
  • agent를 실제 업무 흐름에 적용해 검색, 분석, 문서 생성, 티켓 생성, 코드 리뷰, 규정 검토, 데이터 질의 같은 산출물을 만들 수 있음.

 

4. 에이전트 실행 플랫폼·운영 인프라 구축 역량

  • 개별 agent가 아니라 여러 agent를 등록, 실행, 관리하는 agent platform을 설계할 수 있음.
  • agent registry를 만들어 agent 이름, 역할, tool 권한, 모델, prompt, version, owner, 배포 상태를 관리할 수 있음.
  • tool registry를 만들어 사내 API, MCP server, DB connector, RPA, 검색 도구, 코드 실행 도구를 표준화해 제공할 수 있음.
  • agent별 tool permission을 분리하고, 사용자·조직·역할 기반 권한 모델을 설계할 수 있음.
  • multi-agent system에서 supervisor, planner, worker, validator, auditor, reviewer agent의 역할을 나누고 orchestration할 수 있음.
  • agent handoff 구조를 설계해 한 agent가 다른 전문 agent에게 작업을 넘기도록 만들 수 있음.
  • long-running task를 처리하기 위한 queue, job worker, scheduler, checkpoint, resume 구조를 만들 수 있음.
  • agent 실행 상태를 DB에 저장하고, 작업 중단·재시작·재현이 가능하게 만들 수 있음.
  • agent sandbox를 연동해 코드 실행, 파일 조작, 브라우저 조작, 데이터 분석을 격리된 환경에서 수행하게 할 수 있음.
  • Docker, Kubernetes, Firecracker, gVisor, E2B, Modal, Code Interpreter류 환경을 이용해 안전한 실행 격리를 설계할 수 있음.
  • 파일시스템, 네트워크, secret, package install, shell command 권한을 sandbox policy로 제한할 수 있음.
  • agent가 생성한 코드나 스크립트를 테스트 환경에서 실행하고, 운영 시스템 반영 전 승인 단계를 둘 수 있음.
  • 사내망, 온프레미스, 폐쇄망 환경에서 LLM serving, vector DB, tracing, logging, auth를 구성할 수 있음.
  • Kubernetes, Helm, Docker Compose, Terraform 등을 활용해 agent runtime과 관련 인프라를 배포할 수 있음.
  • API gateway, ingress, service mesh, secret manager, vault를 이용해 agent system을 운영 환경에 연결할 수 있음.
  • agent execution log, tool call log, prompt/version log, user action log를 감사 가능한 형태로 저장할 수 있음.
  • agent별 비용, latency, token usage, tool call count, 실패율, retry count, human handoff rate를 수집할 수 있음.
  • Langfuse, LangSmith, Phoenix, Arize, OpenTelemetry 등을 붙여 agent trace를 관측할 수 있음.
  • agent evaluation pipeline을 CI/CD에 붙여 prompt나 tool 변경 시 regression test를 수행할 수 있음.
  • agent versioning과 rollback 구조를 만들어 잘못된 prompt/tool/model 변경을 되돌릴 수 있음.
  • dev/staging/prod 환경을 분리하고, agent release process를 관리할 수 있음.
  • multi-tenant 환경에서 고객사별 데이터, prompt, tool, 권한, 로그를 분리할 수 있음.
  • agent marketplace 또는 내부 catalog를 구성해 현업 사용자가 승인된 agent를 선택해 사용할 수 있게 만들 수 있음.
  • low-code builder와 custom-code agent를 함께 운영할 수 있는 구조를 설계할 수 있음.
  • MCP hub, API connector hub, data connector hub 같은 사내 tool 연결 계층을 구축할 수 있음.
  • agent가 사용하는 credential을 사용자가 직접 갖는지, system account가 갖는지, delegated auth를 쓸지 설계할 수 있음.
  • SSO, RBAC, ABAC, audit log, DLP, data retention policy를 agent platform에 통합할 수 있음.
  • 장애 발생 시 agent 실행을 중단·격리·재시도·관리자 알림하는 운영 체계를 만들 수 있음.

 

5. Production Agent를 위한 평가·보안·운영 역량

  • agent가 단순히 “동작한다”가 아니라, 업무적으로 맞는 결과를 내는지 평가하는 evaluation dataset을 만들 수 있음.
  • task success rate, tool call accuracy, tool selection accuracy, answer correctness, groundedness, faithfulness를 측정할 수 있음.
  • RAGAS, DeepEval, LangSmith Evaluation, Phoenix Evals, OpenAI Evals, custom LLM-as-a-Judge를 활용할 수 있음.
  • retrieval precision/recall, context relevance, answer relevance, hallucination rate를 측정하고 개선할 수 있음.
  • agent가 잘못된 tool을 선택하거나 잘못된 인자를 넣는 경우를 평가·디버깅할 수 있음.
  • golden test case, adversarial test case, regression test case를 구성할 수 있음.
  • prompt 변경, 모델 변경, tool schema 변경 시 성능 저하를 탐지하는 regression evaluation을 만들 수 있음.
  • human evaluation rubric을 설계하고, LLM-as-a-Judge 결과와 사람 평가를 비교할 수 있음.
  • agent trace를 분석해 실패 원인을 retrieval failure, planning failure, tool failure, reasoning failure, permission failure, output formatting failure로 분류할 수 있음.
  • Langfuse, LangSmith, Phoenix, Arize, OpenTelemetry 등으로 span 단위 tracing을 구성할 수 있음.
  • tool call latency, model latency, retrieval latency, end-to-end latency를 분리해 병목을 찾을 수 있음.
  • token cost, inference cost, tool execution cost를 추적하고 모델 라우팅·캐싱·context pruning으로 비용을 줄일 수 있음.
  • prompt injection, indirect prompt injection, tool poisoning, data exfiltration, over-permissioned tool use를 방어할 수 있음.
  • PII, 금융정보, 내부 보안정보, 영업비밀을 탐지·마스킹·차단하는 guardrail을 구성할 수 있음.
  • tool call 전후에 policy check를 넣어 위험한 실행을 차단할 수 있음.
  • 승인 없는 이메일 발송, 결재, DB update, 파일 삭제, 배포, 외부 전송을 막는 정책을 설계할 수 있음.
  • agent가 생성한 SQL, shell command, code, API request를 실행 전 검증할 수 있음.
  • SQL injection, command injection, path traversal, SSRF, credential leakage 위험을 점검할 수 있음.
  • sandbox escape, secret exposure, network egress, package supply-chain risk를 방어할 수 있음.
  • 모델 hallucination이 시스템 action으로 이어지지 않도록 deterministic validation layer를 둘 수 있음.
  • fallback model, fallback retriever, fallback workflow, manual handoff를 설계할 수 있음.
  • output citation, source grounding, evidence extraction을 통해 사용자가 근거를 검증할 수 있게 만들 수 있음.
  • agent memory에 저장해도 되는 정보와 저장하면 안 되는 정보를 구분할 수 있음.
  • data retention, audit, compliance, access control 정책에 맞춰 로그와 대화 데이터를 관리할 수 있음.
  • 사내 보안 기준, 개인정보보호, 망분리, 온프레미스 요구사항에 맞춰 agent를 운영할 수 있음.
  • 운영 중인 agent의 KPI를 정의할 수 있음: 업무 성공률, 자동화율, human approval rate, escalation rate, 평균 처리 시간, 비용 절감, 사용자 만족도.
  • 현업 피드백을 수집해 prompt, tool, retrieval, workflow를 지속적으로 개선할 수 있음.
  • agent 실패 사례를 축적하고, 실패 유형별 대응책을 문서화할 수 있음.
  • PoC 단계와 production 단계의 차이를 이해하고, 권한·로그·평가·배포·보안 기준을 명확히 나눌 수 있음.