기준 UVM 테스트벤치 이미지 준비
기존 UVM Testbench 구조를 기준 이미지로 준비합니다. 이후 Stitch와 에이전트는 이 이미지를 출발점으로 하네스 엔지니어링 구조를 확장합니다.
GPT-3 → GPT-4 → GPT-4o → GPT-5 → GPT-5.2 → GPT-5.3 → GPT-5.4 → GPT-5.5의 성능 진화, Claude Opus와 Gemini 최신 릴리즈 흐름, GLM-5.1 같은 오픈 모델의 추격, LLM 동작 원리, benchmark 해석, Local vs Cloud 전략, agentic coding tool explosion, 그리고 하드웨어 엔지니어의 역할 변화를 세미나용으로 재정리한 HTML 자료입니다.
2020년에는 few-shot generalization, 2021년에는 자연어→코드 인터페이스, 2022년에는 instruction following과 대화형 인터페이스, 2023년에는 고난도 추론, 2024년에는 실시간 멀티모달, 2025년에는 라우터와 사고 깊이, 2026년에는 computer-use·터미널 코딩·전문 업무 산출물까지 결합된 실행형 에이전트로 진화했습니다.
텍스트 생성기에서 대화형 모델로, 다시 멀티모달·에이전트형 모델로 넘어온 흐름을 시간순으로 정리했습니다.
자연어로 코드를 설명하면 바로 함수와 코드 조각을 제안하는 UX를 대중화하며, 이후 에이전트 코딩 흐름의 출발점 가운데 하나가 됐습니다.
RLHF와 instruction following을 전면화하며 “다음 토큰을 잘 맞히는 모델”을 “사람 지시를 더 잘 따르는 모델”로 바꾸는 전환점을 만들었습니다.
한국어 중심 초거대 모델을 상용 라인업으로 올리며, 한국어 reasoning·문화 맥락 이해·소버린 AI 축의 대표 사례가 됐습니다.
GPQA 같은 graduate-level expert reasoning benchmark에서 강세를 보이며, “복잡한 지식 작업” 시장에서 Claude의 존재감을 키운 전환점이었습니다.
대규모 RL 기반 reasoning 모델을 공개 가중치로 풀며, “오픈 모델도 frontier 추론에 근접할 수 있다”는 인식을 시장에 강하게 남겼습니다.
thinking model을 전면에 내세우며 AIME 2025·GPQA·HLE 같은 reasoning benchmark에서 선두권을 기록했습니다.
오픈웨이트 계열에서 math·coding·general benchmark 전반을 끌어올리며, 로컬/오픈 스택의 실전성을 크게 높였습니다.
Humanity’s Last Exam 50% 돌파를 공식적으로 내세우며, frontier-level reasoning 경쟁에 xAI가 본격적으로 들어왔음을 보여줬습니다.
Codex를 장시간 agentic coding과 전문 업무 산출물까지 확장한 모델로, 2026년 초 모델 경쟁의 초점이 코딩 agent 쪽으로 이동했음을 보여줬습니다.
Gemini 3 계열의 core intelligence를 올린 최신 Pro 라인으로, 복잡한 reasoning·멀티모달·agentic workflow를 전면에 내세웠습니다.
GPT-5.3-Codex의 코딩 강점과 computer-use, 전문 업무 산출물, 1M context를 결합하며 범용 업무형 frontier model로 확장됐습니다.
Anthropic의 최신 일반 공개 Opus 모델로, 고난도 소프트웨어 엔지니어링·장시간 작업·고해상도 vision에서 Opus 4.6 대비 개선을 내세웠습니다.
Terminal-Bench 2.0 82.7%, SWE-Bench Pro 58.6%, GDPval 84.9%, OSWorld-Verified 78.7%를 공개하며, 모델 경쟁의 중심이 “답변”에서 “실행”으로 더 이동했음을 보여줬습니다.
| 계열 | 모델/릴리즈 | 공개/기준일 | 자료에서 볼 포인트 |
|---|---|---|---|
| OpenAI | GPT-5.3-Codex | 2026-02-05 | Codex agent를 장시간 코딩·도구 사용·전문 업무로 확장한 5.3 계열의 핵심 릴리즈. |
| OpenAI | GPT-5.3-Codex-Spark | 2026-02-12 | Cerebras 기반 초저지연 coding preview. 실시간 수정·반복 작업을 겨냥한 5.3 소형 계열. |
| OpenAI | GPT-5.3 Instant | 2026-02-13 기준 | ChatGPT에서 GPT-5.3이 기본 경험으로 전환된 기준일. everyday workhorse 성격의 빠른 모델. |
| OpenAI | GPT-5.4 / GPT-5.4 Pro | 2026-03-05 | ChatGPT, API, Codex에 배포. computer-use, 1M context, 전문 업무 산출물 성능을 전면화. |
| OpenAI | GPT-5.5 / GPT-5.5 Pro | 2026-04-23 | ChatGPT와 Codex에 배포. API는 2026-04-24부터 제공으로 업데이트. |
| Anthropic | Claude Opus 4.6 | 2026-02-05 | 1M context beta와 agentic coding 강화를 내세운 Opus 계열의 직전 기준선. |
| Anthropic | Claude Opus 4.7 | 2026-04-16 | 현재 최신 일반 공개 Opus. 코딩, 장시간 작업, 고해상도 vision 개선을 강조. |
| Gemini 3 Deep Think update | 2026-02-12 | 과학·연구·엔지니어링 문제를 겨냥한 Deep Think 업데이트. | |
| Gemini 3.1 Pro | 2026-02-19 | Gemini 3 계열의 core intelligence 업그레이드. API, Vertex AI, Gemini app 등에 preview rollout. | |
| Gemini 3.1 Flash Image | 2026-02-26 | 이미지 생성/편집 계열의 3.1 Flash 라인 모델 카드 기준일. | |
| Gemini 3.1 Flash-Lite | 2026-03-03 | 고처리량·저지연·비용 효율을 겨냥한 3.1 Flash-Lite 모델 카드 기준일. | |
| Gemini 3.1 Flash Audio | 2026-04-15 | Flash Live/TTS 계열의 3.1 오디오 모델 카드 기준일. |
| 모델 · 시점 | 세대 의미 | 대표 공개 포인트 |
|---|---|---|
| GPT-3 · 2020.05 | few-shot generalization의 출발점 | 175B 파라미터 공개와 함께, 미세조정 없이 예시만으로 과업을 수행하는 방향을 열었습니다. |
| ChatGPT · 2022.11 | 대화형 인터페이스의 대중화 | follow-up 질문, 자기 수정, 전제 반박이 가능한 협업형 UX가 보편화되며 LLM 사용 방식 자체가 바뀌었습니다. |
| GPT-4 · 2023.03 | 전문직 시험형 추론의 전환점 | simulated bar exam 상위 10% 수준으로 공개되며, “전문성 있는 텍스트 생성기”라는 인식이 확산됐습니다. |
| GPT-4o · 2024.05 | 실시간 멀티모달 상호작용의 시작 | 텍스트·이미지·오디오를 한 체계로 다루고 평균 320ms 응답을 제시하며, 화면/음성 협업 UX를 현실화했습니다. |
| GPT-4.1 · 2025.04 | 코딩·지시이행 성능의 정교화 | SWE-bench Verified 54.6%로 4o 이후 coding benchmark 상승을 공식 수치로 보여줬습니다. |
| GPT-5 · 2025.08 | 라우터 + 깊은 추론 + 실행 구조 | SWE-bench Verified 74.9%, AIME 2025 94.6으로 reasoning과 agentic coding이 동시에 도약했습니다. |
| GPT-5.2 · 2025.12 | knowledge work 중심의 고도화 | GDPval 70.9%, SWE-bench Verified 80.0으로 전문 지식 업무와 long-running agent 성능이 본격화됐습니다. |
| GPT-5.3-Codex · 2026.02.05 | agentic coding 전용선의 도약 | SWE-Bench Pro 56.8%, Terminal-Bench 2.0 77.3%를 공개하며 Codex가 코드 작성기를 넘어 컴퓨터 업무 agent로 확장되는 흐름을 만들었습니다. |
| GPT-5.4 · 2026.03.05 | computer-use와 실제 작업 완료 능력 | GDPval 83.0, OSWorld-Verified 75.0, 1M context, computer use 성능 향상으로 “일을 끝내는 모델”에 더 가까워졌습니다. |
| GPT-5.5 · 2026.04.23 | agentic coding과 지식 업무 실행력의 재도약 | Terminal-Bench 2.0 82.7, SWE-Bench Pro 58.6, GDPval 84.9, OSWorld-Verified 78.7로 GPT-5.4 대비 실제 작업 수행 지표가 다시 상승했습니다. |
OpenAI 공개 수치 흐름을 GPT-5.5까지 확장하고, 여기에 Qwen·Gemini·Claude·Grok·HyperCLOVA의 공식 공개 benchmark를 추가했습니다. 글로벌 frontier benchmark와 한국어 특화 benchmark를 나눠서, 어떤 축에서 누가 강한지 한눈에 보이도록 재구성했습니다.
단위: 초 / 짧을수록 좋음
단위: percentile
GPT-5.5는 더 어려운 SWE-Bench Pro 기준이므로 Verified 수치와 직접 동치 비교하지 않습니다.
Human 기준: Verified/Pro에는 동일 조건의 단일 human baseline이 함께 공개되어 있지 않아 모델 간 해결률로 비교합니다.
전문 업무 산출물 기준에서 보이는 5세대 이후의 점프
Human 기준: 전문가 산출물이 비교 대상입니다. 점수는 모델 결과가 전문가 결과와 동급/우위로 평가된 비율로 읽습니다.
실제 작업 수행형 모델로 넘어가는 분기점
복잡한 command-line workflow를 계획·실행·검증하는 agentic coding 지표
Human 기준: 이 차트에 맞는 단일 공개 human baseline이 없어 모델별 성공률만 표시합니다.
벤치마크 이름이 어려워 보여도 실제 질문은 단순합니다. GDPval은 직장 업무 산출물을 얼마나 사람답게 만드는가, OSWorld-Verified는 컴퓨터를 실제로 조작할 수 있는가, SWE-bench 계열은 실제 저장소의 이슈를 고칠 수 있는가를 묻는 시험입니다.
OpenAI의 GDPval은 44개 직종에서 실제로 쓰이는 산출물—예를 들어 legal brief, engineering blueprint, customer support conversation, nursing care plan, slide, spreadsheet, diagram, short video—을 만들게 하고 전문가와 비교합니다.
점수 의미: 모델 출력이 전문가와 동급 이상으로 판정된 비율입니다. 즉 84.9는 “비교의 약 85%에서 professional-quality”에 가깝다는 뜻입니다.
OSWorld는 우분투/데스크톱 환경에서 파일 관리, 앱 제어, 문서 작업, 웹 작업, 멀티앱 workflow를 실제로 수행하게 하는 benchmark입니다. 채점은 화면 보기만이 아니라 실행 결과로 성공/실패를 가립니다.
점수 의미: 성공한 실제 컴퓨터 태스크의 비율입니다. 공식 OSWorld 기준 human performance는 72.36%, OpenAI 공개 기준 GPT-5.5는 78.7%입니다.
SWE-bench Verified는 12개 Python 오픈소스 저장소의 실제 GitHub issue를 가져와, 모델이 코드를 고친 뒤 숨겨진 FAIL_TO_PASS 테스트를 통과하고 기존 PASS_TO_PASS 테스트를 깨뜨리지 않는지로 채점합니다.
점수 의미: 실제 저장소 이슈를 끝까지 해결한 비율입니다. Verified 주석 기준으로 easy는 15분 미만, hard는 1시간 초과로 추정된 이슈입니다.
4월 마지막 주의 흐름은 두 축입니다. OpenAI는 GPT-5.5로 에이전트 코딩과 컴퓨터 사용 성능을 다시 끌어올렸고, Z.AI의 GLM-5.1은 오픈 모델이 실전 코딩 benchmark에서 frontier proprietary model에 근접하거나 일부 지표에서 앞설 수 있음을 보여줬습니다.
OpenAI는 2026년 4월 23일 GPT-5.5를 ChatGPT와 Codex 유료 사용자에게 배포했습니다. 공식 수치 기준 Terminal-Bench 2.0은 82.7%, SWE-Bench Pro는 58.6%, GDPval은 84.9%, OSWorld-Verified는 78.7%입니다.
해석: 단순 지식 Q&A보다 터미널, 코드베이스, 도구, 운영체제 조작처럼 “실제로 일을 끝내는” 평가에서 개선 폭이 큽니다.
Z.AI 문서에는 GLM-5.1이 2026년 4월 7일 릴리스로 표기되어 있으며, 장시간 작업에서 최대 8시간 독립 실행을 지향한다고 설명됩니다. 관련 리뷰들은 3월 27일 초기 공개/접근 이후 4월 SWE-Bench Pro 58.4를 핵심 성과로 정리합니다.
해석: 첨부 벤치마크 기준으로 GLM-5.1은 SWE-Bench Pro에서 GPT-5.4 57.7, Claude Opus 4.6 57.3, Gemini 3.1 Pro 54.2를 근소하게 앞섭니다.
| 모델/주제 | 핵심 수치 | 세미나에서의 해석 |
|---|---|---|
| GPT-5.5 | Terminal-Bench 82.7, SWE-Bench Pro 58.6, GDPval 84.9, OSWorld 78.7 | 고급 코딩, 터미널 작업, 컴퓨터 사용, 전문 업무 산출물에서 GPT-5.4 대비 일관된 상승. 에이전트형 업무가 주전장이 됐다는 신호. |
| GLM-5.1 | SWE-Bench Pro 58.4, CyberGym 68.7, NL2Repo 42.7, Terminal-Bench 63.5 | 코딩·보안·장시간 agentic task에서 오픈 모델 경쟁력이 크게 상승. 다만 HLE no-tools 31.0, GPQA 86.2처럼 순수 추론·과학 지식은 GPT/Gemini/Claude 상위권에 뒤지는 영역이 남음. |
| 오픈 모델 전략 | 744B/754B급 MoE, 약 40B active, 200K context 계열 | 오픈 모델도 “작고 가벼운 로컬 모델”만이 아니라, 자체 인프라나 고메모리 장비를 요구하는 초대형 self-hosting 선택지로 분화. |
| 하드웨어 관점 | 장시간 에이전트, 대형 컨텍스트, 도구 호출 증가 | 성능 경쟁은 모델뿐 아니라 메모리 대역폭, KV cache, 스토리지, 로그/검증 파이프라인, agent harness 운영 능력의 경쟁으로 이어짐. |
공개 수치 기준 / 모델명은 각 사 페이지 표기 그대로 사용. Human 기준: 대회·문항 구성상 단일 human baseline 대신 만점 100을 기준으로 읽습니다.
no tools 공개 수치 기준. Human 기준: 공식 리더보드는 단일 human baseline 대신 교수·연구자·전문가가 만든 문제셋으로 난이도를 설명합니다.
모델 카드·공식 페이지 표기 기준
HyperCLOVA X SEED Think 14B와 Qwen3-14B 공식 비교
14B급 공개 수치 비교
A100-80GB, MFU 50% 기준 GPU Hours
공식 benchmark가 제공하는 human baseline과 문제 난이도 정의를 기준으로, 모델 성능을 전문직 시험, 박사급 과학 Q&A, 컴퓨터 조작, 프론티어 연구 문제로 나누어 비교했습니다.
GPT-4는 simulated bar exam에서 상위 10% 수준으로 보고됐습니다.
GPQA는 생물·물리·화학의 PhD-level 문제셋입니다. 인간 PhD 전문가 baseline이 공개되어 있어 사람 비교가 가장 직접적입니다.
OSWorld-Verified는 실제 컴퓨터 사용 태스크입니다. OpenAI 공개 기준에서 GPT-5.5 78.7, human baseline 72.4가 제시됐습니다.
Humanity’s Last Exam은 전세계 약 1,000명의 전문가가 작성한 frontier benchmark입니다.
출처: GPQA paper · Google Gemini 3 · OpenAI GPT-5.2
출처: OpenAI GPT-5.4 · OpenAI GPT-5.5 · Anthropic Claude Sonnet 4.5
HLE는 100+ 분야, 2,500문항, 약 1,000명의 전문가가 기여한 benchmark입니다. 즉 이 차트는 “교수·연구자들이 설계한 프론티어 문제셋에 모델이 얼마나 접근했는가”를 보여주는 그림입니다.
출처: Humanity’s Last Exam · Google Gemini 3 · xAI Grok 4 · OpenAI GPT-5.2
LLM은 텍스트를 토큰으로 바꾸고, 각 토큰을 벡터로 표현한 뒤, Transformer가 문맥 관계를 계산해 다음 토큰의 확률을 만들고, 이 과정을 반복해 문장을 생성하는 모델입니다. 이 장에서는 학습보다도 입력 → 문맥 계산 → 다음 토큰 생성이라는 실제 동작 순서에 초점을 맞춥니다.
문장을 토큰 단위로 쪼개어 모델이 다룰 수 있는 ID 시퀀스로 바꿉니다.
각 토큰을 연속 벡터로 바꾸고, 위치 정보까지 더해 초기 표현을 만듭니다.
Self-attention과 MLP 층이 문맥을 섞어가며 “지금 무엇이 중요한가”를 계산합니다.
다음에 올 토큰의 확률 분포를 계산합니다. 즉, 정답 후보들의 점수를 뽑습니다.
선택된 다음 토큰을 다시 입력 뒤에 붙이고, 이 과정을 반복해 문장을 생성합니다.
토큰 ID를 연속 벡터 공간으로 바꾸는 단계입니다. 모델은 이제 단어가 아니라 숫자 벡터를 처리합니다.
토큰 순서를 표현에 더해 “앞뒤 위치” 정보를 잃지 않게 합니다. 순서 정보가 있어야 문맥 해석이 가능합니다.
현재 토큰이 앞선 토큰들 가운데 무엇을 얼마나 참고할지 계산합니다. GPT 계열은 미래 토큰을 볼 수 없도록 마스킹합니다.
마지막 벡터를 vocabulary 점수로 바꾸고, 확률이 높은 후보 중 하나를 다음 토큰으로 선택해 다시 루프에 넣습니다.
정답 다음 토큰과 예측 분포의 차이를 loss로 계산하고, backpropagation으로 가중치를 업데이트합니다. 이 단계가 “피팅”에 해당합니다.
서비스 단계에서는 가중치를 더 이상 바꾸지 않습니다. 학습된 가중치를 고정한 채 다음 토큰 확률만 계산하고, 토큰을 하나씩 생성합니다.
이미지처럼 가까운 위치끼리 강하게 관련되는 문제에 맞춰, locality와 weight sharing을 넣어 효율을 높였습니다.
핵심: 동일한 학습 원리 + 문제 구조에 맞는 아키텍처 편향
이전 상태를 다음 단계로 넘겨 순차 데이터를 다루도록 설계됐지만, 긴 문맥과 병렬화에서는 한계가 있었습니다.
핵심: 시간 순서 처리에는 적합, 긴 시퀀스·대규모 병렬화에는 불리
Self-attention으로 멀리 떨어진 토큰 관계도 직접 계산하고, recurrence 없이 병렬 학습할 수 있어 현대 LLM의 기본 구조가 됐습니다.
핵심: 장문 문맥 처리 + 대규모 병렬 학습 + 범용성
실무 기본값은 여전히 Hybrid입니다. 2024년에는 GPT-4o와 Gemini 1.5 같은 cloud frontier가 시장을 주도했고, 2025년에는 Apple Mac Studio(M4 Max / M3 Ultra)와 NVIDIA DGX Spark·DGX Station 발표로 로컬 AI 컴퓨팅 관심이 크게 늘었습니다. 다만 실제 제품 운영 관점에서는 여전히 cloud·hybrid가 기본값이었고, 2026년에는 메모리 절감 연구와 경량·오픈 모델 성숙으로 local training이 아니라 local inference / fine-tuning / agent execution 쪽의 기회가 더 커지고 있습니다.
GPT-4o는 실시간 멀티모달 cloud flagship으로 자리 잡았고, Gemini 1.5도 AI Studio·Vertex AI 같은 cloud 경로에서 긴 컨텍스트와 효율을 밀었습니다.
키워드: frontier quality · API ecosystem · 멀티모달 · 실시간성
Apple은 2025년 3월 Mac Studio를 M4 Max와 M3 Ultra로 갱신했고, NVIDIA는 같은 해 3월 DGX Spark·DGX Station을 발표했습니다. DeepSeek-R1과 Qwen3 같은 공개 모델도 더해지며 “개인/소규모 팀의 로컬 AI 실험”이 빠르게 늘었습니다.
키워드: Mac Studio refresh · DGX personal AI computers · open model experiment
하지만 full training과 최상위 추론은 여전히 메모리·운영 효율의 벽이 컸습니다. NVIDIA도 DGX Spark를 “로컬에서 프로토타이핑하고, 이후 DGX Cloud나 데이터센터로 이어지는 시스템”으로 설명했고, DGX Spark 실제 출하는 2025년 10월부터 시작됐습니다.
키워드: local prototype, production hybrid/cloud, shipment late-2025
Google의 TurboQuant·KVCIS 같은 메모리 절감 연구와 Qwen3·Qwen3-Coder·Qwen Code 같은 로컬/에이전트 스택 성숙은 로컬 추론 여건을 개선하고 있습니다. 다만 M5 Ultra는 아직 Apple 공식 발표가 없으므로, 2026 로컬 재부상 논리는 “확정 사실”보다 “합리적 기대”로 보는 편이 정확합니다.
키워드: memory-efficient inference · local agent stack · M5 Ultra is still unannounced
ZNews/Vietnam.vn 계열 보도는 2026년 4월 19일 기준 고메모리 Mac mini와 Mac Studio 일부 구성이 Apple Store에서 품절 또는 장기 배송 지연 상태였다고 전했습니다. 핵심은 단순 신제품 전환 신호가 아니라, 로컬 AI 에이전트와 대형 LLM을 직접 돌리려는 수요가 소비자용 고메모리 장비까지 압박하기 시작했다는 점입니다.
고메모리 Mac mini / Mac Studio는 화면 없는 컴퓨트 노드처럼 쓸 수 있어, OpenClaw 같은 로컬 에이전트와 대형 언어모델 실험용으로 주목받고 있습니다.
AI 데이터센터 확장은 HBM뿐 아니라 DRAM과 NAND 수요도 끌어올립니다. 그 결과 고메모리 PC, 개발 보드, 엣지 장비의 가격과 납기가 흔들리는 신호가 늘고 있습니다.
로컬 LLM은 “클라우드 대체”라기보다 기밀 처리, 비용 제어, 장시간 agent 실행, 장애 시 fallback을 위한 내부 컴퓨트 계층으로 봐야 합니다.
요구사항, 내부 문서, RTL/UVM 로그, 목표 조건 입력
문서 검색, 기밀정보 필터링, 포맷 정리, RAG, 정책 체크
간단한 작업은 로컬 처리, 복잡한 reasoning과 multimodal은 클라우드로 분기
고급 추론, 코드 생성, 에이전트 orchestration, tool use
사람 승인, 결과 저장, 품질 게이트, 반복 루프 관리
| 업무 | 권장 위치 | 설명 |
|---|---|---|
| 사내 문서 요약 / 분류 / 전처리 | Local | 기밀 통제와 비용 효율이 좋고, 작은 모델 또는 로컬 파이프라인으로도 충분한 경우가 많습니다. |
| 복잡한 코딩 / 고난도 reasoning / multimodal | Cloud | 최신 frontier 모델의 성능과 tool ecosystem이 가장 중요합니다. |
| RTL/UVM 로그 해석 + 버그 의심지점 추천 | Hybrid | 로그 수집과 민감 정보 처리는 로컬, 고급 해석과 보고서 품질 향상은 클라우드가 적합합니다. |
| 사내 승인 플로우 / 결과 감사 / 이력 저장 | Local | 최종 책임과 추적성은 내부 시스템 안에 두는 것이 바람직합니다. |
코딩의 중심이 “함수를 잘 호출하는 사람”에서 “대화 흐름과 에이전트 협업 구조를 설계하는 사람”으로 이동하고 있습니다. 중요한 변화는 단순 프롬프트가 아니라, 계획·라우팅·도구 사용·반복 검증, 그리고 이 전체를 감싸는 harness 설계가 이미 제품 내부에서 실행되기 시작했다는 점입니다.
프롬프트 → 응답 → 파서 → 다음 호출. 사람이 루프를 직접 설계하던 단계.
follow-up, 수정 요청, 맥락 유지가 가능해지며 코딩이 자연어 협업으로 변한 단계.
화면, 이미지, 오디오, 로그를 함께 보며 개발자와 모델이 동시 협업하는 단계.
이미 제품 안으로 들어온 단계입니다. 모델이 작업을 여러 하위 과제로 나누고, 어떤 에이전트에 무엇을 맡길지, 어떤 도구를 쓸지, 다음 액션과 질문을 무엇으로 둘지 스스로 정합니다. 사람은 세부 프롬프트 작성보다 목표·우선순위·승인 기준을 정하는 쪽으로 이동합니다.
이미 확산 중인 단계입니다. 에이전트가 코드 수정, 테스트 실행, 실패 분석, 재시도, 병렬 실행까지 맡고, 사람은 최종 품질·리스크·우선순위를 감독합니다. 경쟁 포인트도 이제 “답변 한 번”보다 “여러 에이전트를 얼마나 안정적으로 운영하느냐”로 옮겨가고 있습니다.
이 단계에서 핵심 역량은 모델 바깥의 state · tools · permissions · verification · observability · retry loop를 설계하는 것입니다. 즉 하네스 엔지니어링은 에이전트가 장시간 안정적으로 일하도록 만드는 시스템 설계·운영 방법론에 가깝고, 단순 파이프라인 작성보다 더 넓은 개념입니다.
“We may see the first AI agents join the workforce.”
“Now, we’re entering the era of physical AI, AI that can proceed, reason, plan and act.”
“Complex real work gets done with less back and forth.”
사용자는 목표, 제약, 승인 기준만 제시
작업 분해, 우선순위, 오더링 설계, 에이전트 간 hand-off 정의
Design / Debug / Test / Web / Docs 에이전트가 순차·병렬 협업
자체 평가, 부족점 추출, 재질문, 재실행, 재정렬, 재시도
승인 게이트, 상호작용 모니터링, 품질 기준, 최종 책임
Hardware RTL에서 harness-engineered pipeline은 “LLM이 Verilog를 써준다”가 아닙니다. spec, microarchitecture, RTL, golden model, testbench, assertion, coverage, regression, sign-off evidence를 하나의 실행 가능한 검증 하네스로 묶어, 설계 변경이 생길 때마다 품질 신호가 자동으로 되돌아오게 만드는 방식입니다.
레지스터 맵, 프로토콜, latency, reset, clock-domain, power intent를 명세화합니다.
pipeline, FSM, buffering, backpressure, arbitration 후보를 만들고 trade-off를 기록합니다.
SystemVerilog/VHDL 구현을 branch별 후보로 만들고 lint, CDC/RDC, synthesis rule을 즉시 적용합니다.
UVM/cocotb testbench, driver, monitor, scoreboard, assertion, coverage model을 연결합니다.
regression, functional/code coverage, formal, waveform triage, waiver, release note를 근거로 승인합니다.
Stitch와 MCP를 통해 만든 최종 process_8.html 다이어그램으로 교체했습니다. RTL 설계, DV 하네스, 시뮬레이터, coverage/regression, sign-off evidence가 한 루프로 묶이고, 실패 로그가 다시 에이전트와 사용자 승인 게이트로 되돌아오는 구조를 보여줍니다.
자연어 요구사항을 interface contract, timing table, register map, golden model로 바꿉니다. RTL agent는 이 근거 없이는 코드를 쓰지 못하게 합니다.
FIFO depth, pipeline stage, arbitration policy 같은 선택지는 branch/worktree로 분리합니다. 후보 RTL은 lint, reset rule, synthesis constraint를 통과해야 다음 단계로 갑니다.
DUT 주변에 driver, monitor, scoreboard, reference model, assertion, coverage point를 배치합니다. 이렇게 해야 LLM이 만든 RTL이 “그럴듯한 코드”인지 “검증 가능한 설계”인지 구분됩니다.
시뮬레이션, cocotb/UVM regression, formal assertion, CDC/RDC, waveform diff가 실패하면 에이전트 답변보다 실패 로그를 우선합니다.
pass/fail만 저장하지 않고 seed, coverage, waveform bookmark, waiver, known issue, timing/power 영향, 변경 이유를 repo-local evidence로 남깁니다.
RTL/DV에서는 대화창 기억보다 저장소 안의 검증 지식이 더 중요합니다. 에이전트가 다음날 다시 들어와도 같은 interface, 같은 coverage goal, 같은 waiver 판단으로 움직이게 해야 합니다.
AGENTS.md: RTL/DV 작업 규칙, 금지된 자동 수정, simulator 명령MICROARCH.md: pipeline/FSM/buffer 선택과 버린 후보DV_PLAN.md: test scenario, assertion, coverage target, negative testSIGNOFF.md: regression 결과, waiver, coverage hole, tapeout 전 확인 목록하드웨어에서 실패는 화면 버그보다 비쌉니다. 하네스의 목적은 에이전트가 만든 RTL을 믿는 것이 아니라, 실패가 어디서 났는지 빠르게 좁히고 되돌릴 수 있게 만드는 것입니다.
| 단계 | 담당 에이전트 | 주요 산출물 | 승인 게이트 |
|---|---|---|---|
| Spec Freeze | spec agent + architect | interface contract, register map, protocol timing, reset/clock assumptions | 이 명세로 RTL을 고정해도 되는가? |
| Microarchitecture | RTL designer + reviewer | FSM/pipeline/buffer 후보, latency/area/power trade-off | 어느 구조를 구현 후보로 둘 것인가? |
| RTL Fork | RTL implementation agent | SystemVerilog/VHDL diff, lint report, synthesis sanity check | interface나 timing 의미가 바뀌었는가? |
| DV Harness | verification architect + tester | UVM/cocotb testbench, assertions, scoreboard, coverage model | pass 기준과 coverage 목표가 충분한가? |
| Sign-off | evaluator + human owner | regression summary, formal/CDC/RDC 결과, waveform triage, waiver list | waiver를 받아들일 것인가, RTL을 되돌릴 것인가? |
2025~2026의 차이는 “AI 코딩 툴이 또 하나 늘었다”가 아닙니다. 에이전트 툴이 쏟아지는 가장 큰 이유는 단순한 유행이 아니라 효용성이 이미 너무 크기 때문입니다. 코드베이스 이해, 파일 수정, 실행, 검증, 재시도, 병렬 작업을 하나의 루프로 묶으면 개발자의 병목이 “직접 타이핑”에서 목표 설정, 검토, 승인, 아키텍처 판단으로 이동합니다.
에이전트 툴의 가치는 “코드를 조금 빨리 쓰는 것”보다 훨씬 큽니다. 사람이 하던 탐색, 수정, 실행, 실패 분석, 재시도, 문서화를 한 작업 루프로 묶기 때문에, 소프트웨어 작업의 대기 시간과 전환 비용을 크게 줄입니다.
개발자는 파일을 하나씩 찾고, 명령을 기억하고, 실패 로그를 붙여넣는 시간을 줄입니다. agent는 관련 파일 탐색, diff 작성, 테스트 실행, 에러 분석, 재수정을 한 번에 이어갑니다.
새 코드베이스나 오래된 레거시 프로젝트에서도 agent가 구조를 읽고 관계를 요약합니다. 온보딩, 영향 범위 파악, 리팩터링 계획처럼 시간이 오래 걸리던 작업이 짧아집니다.
사람 한 명은 보통 한 작업에 묶이지만, agent는 테스트 수정, 문서 갱신, 버그 재현, PR 준비 같은 독립 작업을 병렬로 돌릴 수 있습니다. 그래서 툴의 효용은 개인 생산성뿐 아니라 팀 처리량으로 이어집니다.
코드 자동완성, 특정 IDE 플러그인, 단일 diff 제안, 제한된 코드 검색처럼 한 지점의 편의성을 높이는 도구가 중심이었습니다. 툴마다 장점 하나와 불편 여러 개가 분리돼 있었습니다.
최신 툴은 코드베이스 읽기, 파일 수정, 명령 실행, 테스트, 재질문, PR 생성, 병렬 태스크, 로그·diff 검토를 하나의 실행 루프로 묶습니다. 즉 “답변기”가 아니라 “작업기”에 가깝습니다.
이제 중요한 것은 어느 모델이 더 똑똑한가만이 아닙니다. 터미널/IDE/브라우저/채팅앱/클라우드 샌드박스 중 어디에서 움직이는지, 병렬화·메모리·승인 게이트·로그를 어떻게 제공하는지가 실제 생산성을 가릅니다.
공식 문서만 보면 공통점이 분명합니다. 각 툴은 서로 다른 표면에서 동작하지만, 대부분 이미 계획 → 수정 → 실행 → 검증 → 병렬화의 기본 루프를 제공합니다.
| 툴 | 공식 포지셔닝 | 주요 실행 표면 | 공식 문서에 명시된 핵심 기능 | 현업에서 읽히는 의미 |
|---|---|---|---|---|
| OpenCode | open-source AI coding agent | Terminal / IDE / Desktop | LSP enabled, multi-session, share links, any model, any editor | 모델 락인 없이 여러 agent를 병렬로 돌리면서 같은 프로젝트를 다루기 좋은 구조 |
| Codex | cloud-based software engineering agent | Cloud sandbox / Repo task board | many tasks in parallel, repo-preloaded sandbox, test/lint/typecheck, PR workflow | 로컬 환경 대신 클라우드 작업장에 업무를 던져 병렬 처리하는 배경 작업형 도구 |
| Claude Code | agentic coding tool | Terminal / IDE / Desktop / Browser | reads codebase, edits files, runs commands, MCP, multiple agents, git/PR | 코드베이스 이해와 multi-file 작업, CLI/CI 연계를 강하게 밀어주는 terminal-native 계열 |
| Gemini CLI | open-source AI agent | Terminal / Cloud Shell / VS Code agent mode | ReAct loop, shell/file/web tools, MCP, 1M context, generous free quota | 개발용 터미널 자체가 agent host가 되는 방향을 가장 공개적으로 밀고 있는 계열 |
| Google Antigravity | agentic development platform | Agent Manager + Editor + Browser | Mission Control, autonomous agents, multi-workspace monitoring, browser-in-the-loop | IDE를 “텍스트 편집기”가 아니라 “agent orchestration 콘솔”로 바꾸려는 방향 |
| OpenClaw | personal AI assistant / local agent runtime | Chat apps + local machine | runs on your machine, persistent memory, browser control, full system access, skills/plugins, OpenAI/Anthropic/local models | 모델을 불러 답받는 도구가 아니라, 여러 에이전트와 도구를 계속 굴리는 상위 runtime/manager에 가까움 |
앞으로 사용자는 “어떤 앱을 열어야 하는가”보다 “무슨 일을 끝내고 싶은가”를 먼저 말하게 됩니다. 그러면 agent layer가 필요한 UI, 도구, 모델, 브라우저 작업, 파일 수정, 승인 흐름을 그때그때 조합해 실행하고, 일이 끝나면 그 표면은 바뀌거나 사라지는 방향으로 갑니다. OpenClaw는 이 변화를 보여주는 대표적인 runtime/manager 계층 사례입니다.
Sam Altman은 The Gentle Singularity에서 “2025 has seen the arrival of agents that can do real cognitive work”라고 썼고, 같은 글에서 “A lot more people will be able to create software”라고 전망했습니다. 또 GPT-4o 글에서는 AI로 인해 사람들이 “create all sorts of amazing things”를 하게 되고, 컴퓨터로 “much more than ever before”를 하게 될 미래를 언급했습니다. 여기에 OpenAI가 2025년 10월 공개한 Apps in ChatGPT와 Apps SDK를 함께 보면, 소프트웨어는 미리 설치해 두는 고정 애플리케이션보다 필요할 때 생성·조합되어 과업을 수행하는 agentic surface에 가까워지는 방향으로 읽을 수 있습니다.
지금 시점에서 가장 좋은 전략은 “완전 자율화”를 기다리는 것이 아니라, 반복적이면서 구조화된 검증/디버깅/리포트 루프를 먼저 자동화하고, 사람이 아키텍처·승인·최종 sign-off를 잡는 구조를 만드는 것입니다.
| 업무 항목 | 현 수준 | 설명 |
|---|---|---|
| 컴파일 / 리그레션 / 테스트 리포트 자동 생성 | 지금 가능 | CI/CD, TCL, Python, 사내 파이프라인으로 바로 적용 가능한 영역 |
| 로그 요약 / 에러 클러스터링 / 우선순위 정리 | 지금 가능 | LLM이 보고서 초안을 만들고, 사람이 빠르게 검토하는 구조가 가장 효율적 |
| UVM 테스트 초안 생성 / 유사 프로젝트 이식 초안 | 부분 가능 | 초안과 골격 생성은 빠르지만, 프로토콜/타이밍/인터페이스 차이 검증은 사람이 필요 |
| 파형·덤프 기반 이상 징후 요약 | 부분 가능 | 의심 지점 ranking, 리포트화, 중요 신호 후보 제시는 가능성이 높음 |
| RTL 수정안 제안 | 부분 가능 | 패치 후보를 제안하는 수준은 현실적, 최종 반영과 검증은 사람 승인 필요 |
| 완전 자율 RTL 수정 + sign-off | 미래 영역 | 방향성은 크지만, 최종 책임은 여전히 사람에게 있습니다. |
하드웨어 설계와 검증도 소프트웨어가 먼저 겪은 변화를 따라가게 됩니다. 먼저 템플릿 자동화가 들어오고, 그다음에는 보고서/테스트/버그 요약 자동화가 들어오며, 이후에는 다중 에이전트가 설계-검증-문서화를 연결하는 폐루프 구조가 중심이 됩니다.
입출력, 타이밍, 인터페이스, 승인 기준 정의
RTL 초안, UVM 골격, 문서 초안, 리뷰 포인트 생성
컴파일, 리그레션, 파형 수집, 커버리지, 리포트 생성
실패 원인 분류, 재질문, 재시도, 재정렬, 수정안 생성
사람이 최종 승인하고, sign-off와 조직 자산으로 축적
이 장은 OpenCode로 출발하여 agentic coding을 적용하고, 이후 harness engineering 관점에서 병렬 실행·감독형 운영으로 확장한 적용 사례를 화면으로 보여주는 파트입니다.
공개 수치와 업계 리더의 발언을 보면, 소프트웨어는 AI-generated code share가 가장 먼저 크게 올라간 분야입니다. 대기업 내부 측정치는 25~30% 수준까지 올라왔고, 스타트업 일부 cohort에서는 95% 사례가 보고됐으며, 업계 리더는 90%+ 구간을 전망하고 있습니다.
무엇을 고칠지, 무엇을 통과로 볼지 먼저 명시합니다. 이후 에이전트는 이 기준을 중심으로 작업을 분해합니다.
파일을 읽히고 수정안·스크립트·문서를 생성합니다. 사람은 모든 코드를 직접 치기보다 작업 의도와 제약을 줍니다.
빌드, 테스트, 로그, 에러 메시지, diff를 다시 읽혀서 원인을 추정하고 다음 수정안을 생성하는 폐루프를 만듭니다.
동일한 패턴의 작업을 큐로 올리고 여러 워커를 동시에 돌립니다. 사람은 개별 작업보다 전체 큐의 throughput을 보게 됩니다.
최종적으로는 에이전트가 컴파일·검증·대안 제시를 수행하고, 사람은 선택·승인·예외만 감독하는 방식으로 전환합니다.
초기 단계에서는 OpenCode 단일 세션으로 문제 원인을 분석하고, 어떤 파일을 왜 바꿔야 하는지 설명받는 방식으로 사용했습니다. 이 단계만으로도 사람이 직접 코드를 모두 뒤지지 않고 빠르게 문제 구조를 파악할 수 있었습니다.
다음 단계에서는 에러 메시지, 수정 diff, 다음에 읽을 파일 위치를 다시 모델에 넣어 폐루프를 만들었습니다. 즉, “답변”이 아니라 “패치 → 재빌드 → 재질문” 루프를 만들기 시작한 단계입니다.
이후에는 단일 코드 수정에 그치지 않고, 배치 처리와 로그 생성, 진행 옵션 제어, 외부 스크립트까지 포함하는 자동화 파이프라인으로 확장했습니다. 즉 에이전트를 IDE 보조가 아니라 실제 작업 파이프라인의 일부로 붙인 것입니다.
이 화면은 여러 에이전트가 각자 코딩, 검증, 아이디어 제시를 수행하고 그 결과를 사용자가 한눈에 모니터링하는 상황을 보여줍니다. 즉 사람은 직접 한 작업을 치는 것이 아니라, 에이전트들이 상호작용하며 내놓는 산출물과 예외를 감독하는 역할로 이동합니다.
이 단계에서는 여러 모델과 런을 동시에 호출해 progress, 로그, 병합 결과를 관리합니다. 결국 사람은 전체 실행 팜의 상태를 보면서 실패 작업만 집어 들고, 성공한 작업은 계속 자동으로 흘려 보내는 운영 모델에 가까워집니다.
핵심은 도메인이 아니라 운영 구조입니다. 목표 정의, 초안 생성, 실행/검증, 재질문, 재시도, 병렬 운영, 승인 게이트라는 구조는 앱 개발에서 통했던 것과 같은 방식으로 메모리·낸드 설계/검증/제품화 workflow에도 그대로 이식할 수 있습니다.
| 루프 단계 | 실제 적용 사례에서 한 일 | 메모리·낸드 설계/검증/제품화로 확장했을 때 |
|---|---|---|
| 목표 정의 | 수정 목표, 통과 기준, 파일 범위, 산출물 형식을 먼저 명시 | Spec, 인터페이스 제약, timing 목표, 검증 통과 기준, sign-off 조건을 명시 |
| 초안 생성 | 코드 수정안, 스크립트, 문서 초안, 패치 후보 생성 | RTL 초안, UVM sequence/scoreboard 골격, TCL/pytest/regression 스크립트, 체크리스트 초안 생성 |
| 실행/검증 | 빌드, 실행, 번역/패치, 결과 로그 수집 | lint, compile, simulation, regression, waveform/log 수집, coverage/리포트 자동 생성 |
| 재질문/재시도 | 오류와 diff를 다시 읽혀 다음 수정안을 자동 생성 | 실패 testcase 분류, 에러 signature 추출, 의심 RTL/UVM 구간 재분석, 수정안 제안 후 재실행 |
| 병렬 운영 | 여러 작업을 동시에 올리고 큐 단위로 처리 | corner별 회귀, block별 verification, firmware/driver/validation 병렬 실행, issue triage 큐 운영 |
| 감독과 승인 | 실패 작업, 재시도, 예외 로그, 승인 여부만 사람이 관리 | 설계자는 승인 게이트, 우선순위, 품질 기준, tape-out / 제품화 리스크를 관리 |
OpenCode에서는 다섯 가지를 구분해 보면 덜 헷갈립니다. AGENTS.md는 기본 행동 규칙, command는 사용자가 직접 치는 슬래시 명령, skill은 에이전트가 필요할 때만 불러오는 작업 플레이북, MCP는 외부 도구·데이터 연결 표준, /init은 저장소를 스캔해 AGENTS.md를 만들거나 다듬는 내장 명령입니다.
프로젝트 루트의 AGENTS.md는 그 디렉터리 이하에서 적용되고, ~/.config/opencode/AGENTS.md는 모든 세션에 공통 적용됩니다. OpenCode는 시작 시 현재 디렉터리에서 위로 올라가며 로컬 규칙을 찾고, 그다음 글로벌 규칙, 마지막으로 Claude Code 호환용 CLAUDE.md를 fallback으로 봅니다.
예시처럼 AGENTS.md에는 저장소 범위, 실제 엔트리포인트, 자주 쓰는 명령, 검증 방법, 건드리면 안 되는 파일 같은 프로젝트 기본 운영 규칙을 모아 둡니다. 그래서 새 세션을 열어도 에이전트가 같은 작업 기준을 공유합니다.
빌드·린트·테스트 명령, 중요한 실행 순서, 저장소 구조, 프로젝트 특유의 컨벤션과 운영상의 주의점을 적어 두는 곳입니다.
/test, /review 같은 커스텀 슬래시 명령입니다. opencode.json의 command 항목으로 정의하거나, .opencode/commands/ 또는 ~/.config/opencode/commands/ 아래 markdown 파일로 만들 수 있습니다.
TUI에서 /help, /review, /skills처럼 사용자가 직접 선택해 실행하는 계층입니다. 즉 command는 에이전트가 알아서 불러오는 지식 모듈이 아니라, 사람이 반복 작업을 매크로처럼 호출하는 슬래시 명령입니다.
내용은 프롬프트 템플릿이고, $ARGUMENTS, $1, $2 같은 인자 치환, !명령어의 셸 출력 주입, @파일경로의 파일 자동 포함도 지원합니다. 특정 agent·model 지정과 subtask 강제도 가능합니다.
스킬은 SKILL.md 기반의 재사용 가능한 지침입니다. OpenCode는 먼저 스킬 목록과 설명만 보고, 에이전트가 필요하다고 판단할 때 native skill tool로 본문을 로드합니다. 즉 기본 프롬프트에 항상 다 들어가는 것이 아니라 온디맨드로 불러오는 지식 모듈입니다.
예시처럼 skill은 Firebase, Genkit, Firestore, 배포 같은 작업별 폴더로 나뉘고 각 폴더의 SKILL.md가 전문 플레이북 역할을 합니다. AGENTS.md가 항상 깔리는 기본 규칙이라면, skill은 필요한 순간에만 열어 보는 작업별 매뉴얼입니다.
경로는 .opencode/skills/<name>/SKILL.md 또는 ~/.config/opencode/skills/<name>/SKILL.md를 쓰고, YAML frontmatter의 name과 description이 필수입니다.
MCP는 OpenCode 고유 포맷이 아니라 Model Context Protocol이라는 외부 표준입니다. 공식 문서는 이를 AI용 USB-C 포트에 비유합니다. OpenCode에서는 opencode.json의 mcp 항목에 서버를 등록해 로컬·리모트 MCP를 붙입니다.
핵심은 저장소 안 규칙을 정리하는 것이 아니라 GitHub·Jira·문서 검색기 같은 바깥 시스템과 연결해 실제 도구와 데이터를 가져오게 하는 것입니다. MCP는 컨텍스트 사용량을 크게 늘릴 수 있으므로 많이 붙일수록 무거워질 수 있습니다.
정확히 말하면 MCP 서버가 LLM과 직접 대화하는 것은 아닙니다. OpenCode, Claude Desktop, Cursor 같은 AI 앱이 MCP Host이자 MCP Client가 되고, 외부 기능을 제공하는 프로그램이 MCP Server가 됩니다. LLM은 Host가 알려준 tool schema를 보고 “어떤 도구를 쓸지” 결정하고, 실제 통신과 실행은 Host와 MCP Server가 JSON-RPC로 처리합니다.
| 구성 | 역할 | 예시 |
|---|---|---|
| Resource | 읽기용 데이터 | 파일 내용, DB schema, 문서, 설정값 |
| Tool | 실행 가능한 함수 | 검색, 빌드 실행, 테스트 실행, API 호출 |
| Prompt | 재사용 프롬프트 템플릿 | 코드 리뷰 템플릿, SVA 리뷰 템플릿 |
JSON-RPC로 보면: Host는 먼저 initialize로 protocol version과 capability를 맞추고, tools/list로 tool 목록을 가져오며, 실제 실행은 tools/call 요청으로 합니다.
{
"jsonrpc": "2.0",
"id": 11,
"method": "tools/call",
"params": {
"name": "search_signal",
"arguments": {
"signal_name": "axi_awvalid"
}
}
}
로컬 stdio 방식: OpenCode가 MCP 서버를 subprocess로 실행하고, stdin/stdout으로 JSON-RPC 메시지를 주고받습니다. 그래서 MCP 서버에서 debug용 print()를 stdout에 막 쓰면 통신이 깨질 수 있고, 로그는 stderr로 보내는 것이 안전합니다.
OpenCode
├─ subprocess: python rtl_mcp_server.py
├─ stdin → JSON-RPC request
└─ stdout ← JSON-RPC response
OpenCode 연결 예: local MCP는 opencode.jsonc의 mcp 섹션에서 실행 명령과 환경변수를 지정합니다.
{
"$schema": "https://opencode.ai/config.json",
"mcp": {
"rtl-helper": {
"type": "local",
"command": ["python", "/home/user/mcp_servers/rtl_mcp_server.py"],
"enabled": true,
"environment": {
"PROJECT_ROOT": "/home/user/my_rtl_project"
}
}
}
}
search_signal, read_rtl_file, find_module, parse_sim_log, extract_assertion_failures, generate_sva_candidate 같은 tool을 만들 수 있습니다. 그러면 자연어 요청 하나가 내부적으로 파일 검색 → RTL 읽기 → 로그 분석 → SVA 후보 생성 같은 tool 호출 체인으로 바뀝니다.
unit_test, lint, sim_smoke처럼 허용된 작업만 enum으로 제공하는 방식이 안전합니다.
한 줄 요약: MCP는 “AI가 외부 기능을 호출할 수 있도록 함수 목록, 입력 스키마, 실행 결과를 JSON-RPC로 표준화한 client-server 프로토콜”입니다.
참고: MCP server docs · MCP Tools spec · MCP Transports · Python SDK · OpenCode MCP servers
아래 흐름은 “하네스 엔지니어링을 하드웨어 RTL 설계/검증 모델로 시각화해 달라”는 요청을 Stitch에 만들고, OpenCode가 MCP 서버를 통해 그 화면과 산출물을 읽고 개선하는 예시입니다. 발표에서는 1번부터 9번까지 순서대로 보면 MCP가 단순 설정 파일이 아니라 외부 도구를 에이전트 작업 루프에 붙이는 연결 표준이라는 점이 드러납니다.
기존 UVM Testbench 구조를 기준 이미지로 준비합니다. 이후 Stitch와 에이전트는 이 이미지를 출발점으로 하네스 엔지니어링 구조를 확장합니다.
첨부한 기준 이미지를 하드웨어 개발·검증용 하네스 엔지니어링 모델로 확장해 달라고 Stitch에 요청합니다.
Stitch가 만든 UVM testbench 참조와 아키텍처 다이어그램을 확인하고, 오른쪽 패널에서 OpenCode MCP 연결을 준비합니다.
opencode.json의 mcp 항목에 Stitch 서버를 등록합니다. 로컬 작업기인 OpenCode가 외부 디자인 도구를 호출할 수 있는 통로가 생깁니다.
OpenCode TUI의 MCP 상태 창에서 stitch connected와 Enabled 상태를 확인합니다. 이때부터 에이전트가 Stitch 도구를 쓸 수 있습니다.
에이전트가 stitch_get_screen, stitch_list_screens 같은 MCP 도구로 화면과 산출물을 읽고, HTML 다이어그램으로 옮길 구조를 추출합니다.
Stitch 화면에서 읽은 구조를 먼저 HTML/SVG 다이어그램으로 옮긴 버전입니다.
초기 HTML 결과와 Stitch 화면을 비교하면서, 발표에 쓸 최종 RTL harness loop 이미지에 더 가깝게 다시 생성하도록 요청합니다.
자율 하네스 엔지니어링 루프를 RTL 설계/검증 관점으로 정리한 최종 버전입니다.
/init은 TUI의 built-in command이며, 역할은 저장소를 스캔해 AGENTS.md를 새로 만들거나 기존 파일을 개선하는 것입니다. 코드만으로 알 수 없는 부분은 몇 가지 질문을 던지고, 이후 세션에 필요한 build/lint/test 명령, 아키텍처, 관례, 주의사항을 요약해 넣습니다.
/init이 먼저 기본 규칙을 깔고, 평소 세션에서는 AGENTS.md가 기본 행동을 잡아주며, 사용자는 /command로 반복 작업을 직접 실행하고, 에이전트는 필요할 때 skill을 불러 작업 방식을 보강하고, 외부 접근이 필요할 때 MCP를 통해 바깥 도구와 데이터를 씁니다.OpenCode는 어떤 행동을 자동 실행할지, 물어보고 실행할지, 막을지를 permission으로 제어합니다. 문서상 legacy tools 설정은 deprecated 되었고 permission 체계로 합쳐졌기 때문에, 실제 운영에서는 기능 추가보다 권한 설계가 먼저라는 관점이 중요합니다.
bash, 파일 수정, MCP 계열을 allow / ask / deny로 나누는 감각이 중요합니다. 에이전트 도입의 핵심은 기능 추가보다 권한 설계에 가깝습니다.
OpenCode 공식 문서는 build를 기본 개발용 agent, plan을 코드 변경 없이 분석·계획만 하는 제한형 agent로 설명합니다. 그래서 처음부터 다 맡기기보다, 먼저 plan으로 분석하고 그다음 build로 실행하는 2단계 운영이 실무적으로 안정적입니다.
세션 중에는 Tab으로 primary agent를 전환할 수 있고, subagent는 @mention으로 직접 호출할 수 있습니다. 즉 “생각은 plan, 실행은 build”로 역할을 나누는 방식이 추천됩니다.
| 항목 | 누가 호출하나 | 언제 로드되나 | 어디에 두나 | 핵심 용도 |
|---|---|---|---|---|
| AGENTS.md | OpenCode 시작 시 자동 반영 | 세션 기본 규칙으로 상시 적용 | 프로젝트 루트 또는 ~/.config/opencode/ | 프로젝트별 행동 규칙, 명령 순서, 컨벤션, 운영 주의점 |
| command | 사용자 | /test처럼 직접 실행할 때 | opencode.json, .opencode/commands/, ~/.config/opencode/commands/ | 반복 작업용 슬래시 명령·매크로 |
| skill | 에이전트 | 필요하다고 판단할 때 on-demand 로드 | .opencode/skills/, ~/.config/opencode/skills/ | 전문 작업용 플레이북·재사용 지침 |
| MCP | 에이전트 / 호스트 | 외부 도구나 데이터가 필요할 때 | opencode.json의 mcp | GitHub·Jira·검색기 등 외부 시스템 연결 |
| /init | 사용자 | 초기 설정 또는 규칙 정리 시 | TUI 내장 명령 | 저장소 분석 후 AGENTS.md 생성·개선 |
AGENTS.md는 규칙 파일이고, 문서의 Agents는 설정 가능한 AI assistant 객체입니다. 실제 agent 정의는 opencode.json의 agent 항목이나 .opencode/agents/ markdown 파일로 구성합니다. 이름은 비슷하지만 다른 레이어입니다.이 파트는 보안 사고의 시시비비보다, 유출 이후 커뮤니티가 무엇을 빠르게 읽어냈는가에 집중합니다. 핵심은 weights가 아니라 agent product layer가 공개됐고, 그 결과 구조 분석 · 기능 해석 · 재구현 · 로드맵 추정이 거의 실시간으로 일어났다는 점입니다.
Harness engineering은 에이전틱 코딩을 잘 하도록 “파이프라인 하나를 짜는 일”보다 더 넓습니다. 더 정확히는 모델이 실제로 일을 끝내도록 state · prompts · tools · permissions · memory · verification · observability · retry loop · artifact handoff를 설계하는 시스템 설계·운영 practice입니다.
| 항목 | 쉽게 말하면 |
|---|---|
| State / Memory | 긴 작업이 끊겨도 이어서 할 수 있게 남기는 파일, 계획, 메모, 세션 간 artifact |
| Tools | 쉘, 테스트 러너, 브라우저, git, 코드 실행 환경, 외부 MCP 연결 |
| Constraints / Permissions | 해도 되는 것과 안 되는 것, 아키텍처 경계, 보안·품질 규칙, 승인 정책 |
| Verification | 빌드, 테스트, 로그, 영상 캡처, 비교 실행으로 스스로 확인하는 루프 |
| Observability | 사람이 진행 상황과 실패 원인을 한눈에 볼 수 있는 로그, 대시보드, 결과 파일 |
AGENTS.md를 목차처럼 두고, 상세 지식은 저장소 문서 체계 안에 두며, custom lint와 구조 규칙으로 agent가 빠르게 움직여도 아키텍처가 무너지지 않게 만들었습니다.“에이전틱 코딩을 잘 하도록 파이프라인을 설계하는 방법론”이라는 표현도 크게 틀리지는 않지만, 더 정확히는 모델이 실제로 일을 끝내게 만드는 상태·도구·검증·관찰성·제약·아티팩트 흐름 전체를 설계하는 시스템 설계·운영 방식이라고 보는 편이 맞습니다.
이번 업데이트의 결론은 단순히 “GPT-5.5가 더 좋아졌다”가 아닙니다. 프론티어 모델 성능은 계속 오르고, GLM-5.1 같은 오픈 모델도 빠르게 추격하지만, 동시에 API 비용·구독 한도·DRAM/NAND 공급·로컬 장비 수요가 모두 압박 요인으로 바뀌고 있습니다.
OpenAI 공식 발표와 AI타임스 보도 기준으로 GPT-5.5는 2026년 4월 23일 ChatGPT와 Codex 유료 사용자에게 배포됐고, API는 안전·보안 요건을 거쳐 곧 제공될 예정입니다.
핵심 benchmark: Terminal-Bench 2.0 82.7%, SWE-Bench Pro 58.6%, Expert-SWE 73.1%, GDPval 84.9%, OSWorld-Verified 78.7%.
GLM-5.1은 Z.AI 문서상 2026년 4월 7일 릴리스로 표시되며, 관련 자료는 3월 27일 초기 접근 이후 4월 benchmark 업데이트를 함께 설명합니다. 첨부 벤치마크 기준 SWE-Bench Pro 58.4로 GPT-5.4와 Claude Opus 4.6을 근소하게 앞섭니다.
다만 HLE no-tools, GPQA, 일부 terminal/browser 지표에서는 여전히 Gemini/GPT/Claude 상위 모델이 앞서는 영역이 있습니다.
고메모리 Mac mini와 Mac Studio 품절/장기 배송 보도는 로컬 에이전트 실행 수요가 실제 하드웨어 수급에 반영되는 신호입니다. AI 데이터센터 수요는 DRAM/NAND 가격과 납기에도 압력을 줍니다.
하드웨어 관점에서는 local/cloud 선택보다 routing, 캐시, 장시간 실행, 로그/검증, 내부 승인 체계를 함께 설계해야 합니다.
OpenAI 공식 API 가격표 기준 GPT-5.5는 GPT-5.4보다 입력·캐시 입력·출력 단가가 모두 정확히 2배입니다. 모델이 더 토큰 효율적일 수는 있지만, 장시간 agentic workflow에서는 호출 횟수와 tool loop가 늘어 총비용이 빠르게 커질 수 있습니다.
| 모델 | 입력 / 100만 토큰 | 캐시 입력 / 100만 토큰 | 출력 / 100만 토큰 | 해석 |
|---|---|---|---|---|
| GPT-5.4 | US$2.50 | US$0.25 | US$15.00 | 2026년 3월 기준 프론티어 업무 모델의 기준선. |
| GPT-5.5 | US$5.00 | US$0.50 | US$30.00 | GPT-5.4 대비 2배. 에이전트 코딩·전문 업무 성능 향상과 함께 가격도 상승. |
| GPT-5.5 Pro 예정 | US$30.00 | - | US$180.00 | 가장 어려운 연구·전문 업무용. 일반 자동화 파이프라인의 기본값으로 쓰기에는 비용 관리가 핵심. |
2026년 4월 27일 기준 GitHub Trending Today 페이지에서 보이는 상위 10개 실제 레포를 간단히 정리했습니다. 눈에 띄는 점은 skills, code intelligence, agent memory, Claude/Codex workflow, multi-agent framework처럼 에이전트 실행 환경을 보강하는 레포들이 상단에 많이 올라왔다는 점입니다.
| 순위 | 레포 | 무엇을 하는가 | agentic coding 관점 |
|---|---|---|---|
| 1 | mattpocock / skills | Claude/Codex류 에이전트가 재사용할 수 있는 실전형 skill 모음입니다. | 프롬프트를 매번 새로 쓰는 대신, 작업 절차를 skill artifact로 축적하는 흐름을 보여줍니다. |
| 2 | abhigyanpatwari / GitNexus | 브라우저 안에서 GitHub repo나 ZIP을 지식 그래프로 만들고 Graph RAG agent로 탐색하는 코드 인텔리전스 도구입니다. | 코드베이스를 agent가 읽기 좋은 graph/context로 바꾸는 harness layer 사례입니다. |
| 3 | ComposioHQ / awesome-codex-skills | Codex CLI와 API에서 워크플로를 자동화하는 실전형 Codex skill 모음입니다. | repo-local skill과 반복 가능한 agent 작업 절차가 하나의 지식 자산으로 쌓이는 흐름을 보여줍니다. |
| 4 | Alishahryar1 / free-claude-code | 터미널, VS Code 확장, Discord 경로에서 Claude Code와 비슷한 사용 경험을 제공하려는 도구입니다. | coding agent UI가 IDE 하나에 묶이지 않고 터미널·채팅·확장으로 퍼지는 흐름입니다. |
| 5 | gastownhall / beads | 코딩 에이전트에 장기 기억과 작업 상태를 보강하려는 도구입니다. | 장시간 작업에서 context window 바깥의 memory/state 관리가 핵심 문제가 되고 있습니다. |
| 6 | penpot / penpot | 디자인과 코드 협업을 위한 오픈소스 디자인 도구입니다. | designer agent와 engineer agent가 같은 산출물을 두고 검토하는 협업 파이프라인과 잘 맞습니다. |
| 7 | davila7 / claude-code-templates | Claude Code 환경을 설정하고 모니터링하기 위한 CLI 템플릿 도구입니다. | agent coding이 단발 프롬프트가 아니라 템플릿, 설정, 모니터링으로 운영되는 방향을 보여줍니다. |
| 8 | microsoft / VibeVoice | 오픈소스 음성 AI 모델/도구를 제공하는 프로젝트입니다. | coding agent의 입력·피드백 채널이 텍스트를 넘어 음성 인터페이스로 확장될 수 있음을 보여줍니다. |
| 9 | Z4nzu / hackingtool | 여러 보안 테스트 유틸리티를 한곳에 모은 all-in-one 보안 도구 모음입니다. | 에이전트가 보안 점검을 할 때도 도구 권한·범위·합법적 테스트 경계가 중요하다는 점을 상기시킵니다. |
| 10 | TauricResearch / TradingAgents | 여러 LLM agent가 금융 시장 분석과 의사결정을 나누어 수행하는 trading framework입니다. | planner, analyst, reviewer처럼 역할별 agent가 상호 검토하는 multi-agent 설계 패턴과 직접 맞닿아 있습니다. |