LLM & Hardware Engineering Seminar

LLM 추론 능력의 진화와 하드웨어 엔지니어의 다음 역할

GPT-3 → GPT-4 → GPT-4o → GPT-5 → GPT-5.2 → GPT-5.3 → GPT-5.4 → GPT-5.5의 성능 진화, Claude Opus와 Gemini 최신 릴리즈 흐름, GLM-5.1 같은 오픈 모델의 추격, LLM 동작 원리, benchmark 해석, Local vs Cloud 전략, agentic coding tool explosion, 그리고 하드웨어 엔지니어의 역할 변화를 세미나용으로 재정리한 HTML 자료입니다.

업데이트 버전 · 2026-04-27 · GitHub Trending 보강 그래픽 타임라인 + 수치 비교 포함

이 페이지는 매일 오전 9시에 최신 뉴스와 사용자 의견을 반영하여 자동으로 업데이트됩니다.

01 REASONING TRAJECTORY

GPT-3에서 GPT-5.5까지: “텍스트 생성기”에서 “실행 가능한 에이전트”로

2020년에는 few-shot generalization, 2021년에는 자연어→코드 인터페이스, 2022년에는 instruction following과 대화형 인터페이스, 2023년에는 고난도 추론, 2024년에는 실시간 멀티모달, 2025년에는 라우터와 사고 깊이, 2026년에는 computer-use·터미널 코딩·전문 업무 산출물까지 결합된 실행형 에이전트로 진화했습니다.

불과 6년 만에, LLM은 이렇게 바뀌었습니다

텍스트 생성기에서 대화형 모델로, 다시 멀티모달·에이전트형 모델로 넘어온 흐름을 시간순으로 정리했습니다.

주요 모델과 전환점

2020년 GPT-3부터 2026년 프론티어 모델까지의 변화입니다.

2021.06 · GitHub/OpenAI

Copilot / Codex

자연어로 코드를 설명하면 바로 함수와 코드 조각을 제안하는 UX를 대중화하며, 이후 에이전트 코딩 흐름의 출발점 가운데 하나가 됐습니다.

2022.01 · OpenAI

InstructGPT

RLHF와 instruction following을 전면화하며 “다음 토큰을 잘 맞히는 모델”을 “사람 지시를 더 잘 따르는 모델”로 바꾸는 전환점을 만들었습니다.

2023.08 · NAVER

HyperCLOVA X

한국어 중심 초거대 모델을 상용 라인업으로 올리며, 한국어 reasoning·문화 맥락 이해·소버린 AI 축의 대표 사례가 됐습니다.

2024.03 · Anthropic

Claude 3 Opus

GPQA 같은 graduate-level expert reasoning benchmark에서 강세를 보이며, “복잡한 지식 작업” 시장에서 Claude의 존재감을 키운 전환점이었습니다.

2025.01 · DeepSeek

DeepSeek-R1

대규모 RL 기반 reasoning 모델을 공개 가중치로 풀며, “오픈 모델도 frontier 추론에 근접할 수 있다”는 인식을 시장에 강하게 남겼습니다.

2025.03 · Google

Gemini 2.5 Pro

thinking model을 전면에 내세우며 AIME 2025·GPQA·HLE 같은 reasoning benchmark에서 선두권을 기록했습니다.

2025.04 · Qwen

Qwen3

오픈웨이트 계열에서 math·coding·general benchmark 전반을 끌어올리며, 로컬/오픈 스택의 실전성을 크게 높였습니다.

2025.07 · xAI

Grok 4

Humanity’s Last Exam 50% 돌파를 공식적으로 내세우며, frontier-level reasoning 경쟁에 xAI가 본격적으로 들어왔음을 보여줬습니다.

2026.02.05 · OpenAI

GPT-5.3-Codex

Codex를 장시간 agentic coding과 전문 업무 산출물까지 확장한 모델로, 2026년 초 모델 경쟁의 초점이 코딩 agent 쪽으로 이동했음을 보여줬습니다.

2026.02.19 · Google

Gemini 3.1 Pro

Gemini 3 계열의 core intelligence를 올린 최신 Pro 라인으로, 복잡한 reasoning·멀티모달·agentic workflow를 전면에 내세웠습니다.

2026.03.05 · OpenAI

GPT-5.4

GPT-5.3-Codex의 코딩 강점과 computer-use, 전문 업무 산출물, 1M context를 결합하며 범용 업무형 frontier model로 확장됐습니다.

2026.04.16 · Anthropic

Claude Opus 4.7

Anthropic의 최신 일반 공개 Opus 모델로, 고난도 소프트웨어 엔지니어링·장시간 작업·고해상도 vision에서 Opus 4.6 대비 개선을 내세웠습니다.

2026.04.23 · OpenAI

GPT-5.5

Terminal-Bench 2.0 82.7%, SWE-Bench Pro 58.6%, GDPval 84.9%, OSWorld-Verified 78.7%를 공개하며, 모델 경쟁의 중심이 “답변”에서 “실행”으로 더 이동했음을 보여줬습니다.

계열	모델/릴리즈	공개/기준일	자료에서 볼 포인트
OpenAI	GPT-5.3-Codex	2026-02-05	Codex agent를 장시간 코딩·도구 사용·전문 업무로 확장한 5.3 계열의 핵심 릴리즈.
OpenAI	GPT-5.3-Codex-Spark	2026-02-12	Cerebras 기반 초저지연 coding preview. 실시간 수정·반복 작업을 겨냥한 5.3 소형 계열.
OpenAI	GPT-5.3 Instant	2026-02-13 기준	ChatGPT에서 GPT-5.3이 기본 경험으로 전환된 기준일. everyday workhorse 성격의 빠른 모델.
OpenAI	GPT-5.4 / GPT-5.4 Pro	2026-03-05	ChatGPT, API, Codex에 배포. computer-use, 1M context, 전문 업무 산출물 성능을 전면화.
OpenAI	GPT-5.5 / GPT-5.5 Pro	2026-04-23	ChatGPT와 Codex에 배포. API는 2026-04-24부터 제공으로 업데이트.
Anthropic	Claude Opus 4.6	2026-02-05	1M context beta와 agentic coding 강화를 내세운 Opus 계열의 직전 기준선.
Anthropic	Claude Opus 4.7	2026-04-16	현재 최신 일반 공개 Opus. 코딩, 장시간 작업, 고해상도 vision 개선을 강조.
Google	Gemini 3 Deep Think update	2026-02-12	과학·연구·엔지니어링 문제를 겨냥한 Deep Think 업데이트.
Google	Gemini 3.1 Pro	2026-02-19	Gemini 3 계열의 core intelligence 업그레이드. API, Vertex AI, Gemini app 등에 preview rollout.
Google	Gemini 3.1 Flash Image	2026-02-26	이미지 생성/편집 계열의 3.1 Flash 라인 모델 카드 기준일.
Google	Gemini 3.1 Flash-Lite	2026-03-03	고처리량·저지연·비용 효율을 겨냥한 3.1 Flash-Lite 모델 카드 기준일.
Google	Gemini 3.1 Flash Audio	2026-04-15	Flash Live/TTS 계열의 3.1 오디오 모델 카드 기준일.

출처: OpenAI · GPT-5.3-Codex · OpenAI · GPT-5.3-Codex-Spark · OpenAI Help · GPT-5.3/5.5 in ChatGPT · OpenAI · GPT-5.4 · OpenAI · GPT-5.5 · Anthropic · Opus 4.6 · Anthropic · Opus 4.7 · Google · Gemini 3 Deep Think · Google · Gemini 3.1 Pro · Google DeepMind · Model cards

모델 · 시점	세대 의미	대표 공개 포인트
GPT-3 · 2020.05	few-shot generalization의 출발점	175B 파라미터 공개와 함께, 미세조정 없이 예시만으로 과업을 수행하는 방향을 열었습니다.
ChatGPT · 2022.11	대화형 인터페이스의 대중화	follow-up 질문, 자기 수정, 전제 반박이 가능한 협업형 UX가 보편화되며 LLM 사용 방식 자체가 바뀌었습니다.
GPT-4 · 2023.03	전문직 시험형 추론의 전환점	simulated bar exam 상위 10% 수준으로 공개되며, “전문성 있는 텍스트 생성기”라는 인식이 확산됐습니다.
GPT-4o · 2024.05	실시간 멀티모달 상호작용의 시작	텍스트·이미지·오디오를 한 체계로 다루고 평균 320ms 응답을 제시하며, 화면/음성 협업 UX를 현실화했습니다.
GPT-4.1 · 2025.04	코딩·지시이행 성능의 정교화	SWE-bench Verified 54.6%로 4o 이후 coding benchmark 상승을 공식 수치로 보여줬습니다.
GPT-5 · 2025.08	라우터 + 깊은 추론 + 실행 구조	SWE-bench Verified 74.9%, AIME 2025 94.6으로 reasoning과 agentic coding이 동시에 도약했습니다.
GPT-5.2 · 2025.12	knowledge work 중심의 고도화	GDPval 70.9%, SWE-bench Verified 80.0으로 전문 지식 업무와 long-running agent 성능이 본격화됐습니다.
GPT-5.3-Codex · 2026.02.05	agentic coding 전용선의 도약	SWE-Bench Pro 56.8%, Terminal-Bench 2.0 77.3%를 공개하며 Codex가 코드 작성기를 넘어 컴퓨터 업무 agent로 확장되는 흐름을 만들었습니다.
GPT-5.4 · 2026.03.05	computer-use와 실제 작업 완료 능력	GDPval 83.0, OSWorld-Verified 75.0, 1M context, computer use 성능 향상으로 “일을 끝내는 모델”에 더 가까워졌습니다.
GPT-5.5 · 2026.04.23	agentic coding과 지식 업무 실행력의 재도약	Terminal-Bench 2.0 82.7, SWE-Bench Pro 58.6, GDPval 84.9, OSWorld-Verified 78.7로 GPT-5.4 대비 실제 작업 수행 지표가 다시 상승했습니다.

OpenAI 공개 지표 기준: 주요 모델 비교 그래프

OpenAI 공개 수치 흐름을 GPT-5.5까지 확장하고, 여기에 Qwen·Gemini·Claude·Grok·HyperCLOVA의 공식 공개 benchmark를 추가했습니다. 글로벌 frontier benchmark와 한국어 특화 benchmark를 나눠서, 어떤 축에서 누가 강한지 한눈에 보이도록 재구성했습니다.

1) 음성 상호작용 지연 시간

단위: 초 / 짧을수록 좋음

GPT-3.5 Voice 2.8s

GPT-4 Voice 5.4s

GPT-4o Avg 0.32s

출처: OpenAI · GPT-4o

2) Simulated bar exam percentile

단위: percentile

GPT-3.5 10

Human median examinee 50

GPT-4 90

출처: OpenAI · GPT-4

3) Coding benchmark: SWE-bench Verified / Pro

GPT-5.5는 더 어려운 SWE-Bench Pro 기준이므로 Verified 수치와 직접 동치 비교하지 않습니다.

Human 기준: Verified/Pro에는 동일 조건의 단일 human baseline이 함께 공개되어 있지 않아 모델 간 해결률로 비교합니다.

GPT-4o 33.2

GPT-4.1 54.6

GPT-5 74.9

GPT-5.2 80.0

GPT-5.5 · Pro 58.6

출처: OpenAI · GPT-4.1 · OpenAI · GPT-5 · OpenAI · GPT-5.2 · OpenAI · GPT-5.5

4) Knowledge work: GDPval

전문 업무 산출물 기준에서 보이는 5세대 이후의 점프

Human 기준: 전문가 산출물이 비교 대상입니다. 점수는 모델 결과가 전문가 결과와 동급/우위로 평가된 비율로 읽습니다.

GPT-5 38.8

GPT-5.2 70.9

GPT-5.4 83.0

GPT-5.5 84.9

출처: OpenAI · GPT-5.2 · OpenAI · GPT-5.4 · OpenAI · GPT-5.5

5) Computer use: OSWorld-Verified

실제 작업 수행형 모델로 넘어가는 분기점

GPT-5.2 47.3

Human (숙련 사용자) 72.4

GPT-5.4 75.0

GPT-5.5 78.7

출처: OpenAI · GPT-5.4 · OpenAI · GPT-5.5 · OSWorld benchmark

6) Terminal coding: Terminal-Bench 2.0

복잡한 command-line workflow를 계획·실행·검증하는 agentic coding 지표

Human 기준: 이 차트에 맞는 단일 공개 human baseline이 없어 모델별 성공률만 표시합니다.

Gemini 3.1 Pro 68.5

Claude Opus 4.7 69.4

GPT-5.4 75.1

GPT-5.5 82.7

출처: OpenAI · GPT-5.5

GDPval, OSWorld, SWE-bench를 쉬운 말로 번역하면

벤치마크 이름이 어려워 보여도 실제 질문은 단순합니다. GDPval은 직장 업무 산출물을 얼마나 사람답게 만드는가, OSWorld-Verified는 컴퓨터를 실제로 조작할 수 있는가, SWE-bench 계열은 실제 저장소의 이슈를 고칠 수 있는가를 묻는 시험입니다.

GDPval = 직장 업무 산출물 시험

OpenAI의 GDPval은 44개 직종에서 실제로 쓰이는 산출물—예를 들어 legal brief, engineering blueprint, customer support conversation, nursing care plan, slide, spreadsheet, diagram, short video—을 만들게 하고 전문가와 비교합니다.

점수 의미: 모델 출력이 전문가와 동급 이상으로 판정된 비율입니다. 즉 84.9는 “비교의 약 85%에서 professional-quality”에 가깝다는 뜻입니다.

0–30초안 보조 수준

30–60일부 업무에서 실무 보조

60–80여러 직무에서 professional-grade

80+대다수 비교에서 전문가급

예: GPT-5.5의 84.9는 “잘 정의된 knowledge work 다수에서 전문가와 동급/이상”으로 읽는 것이 가장 직관적입니다.

OSWorld-Verified = 컴퓨터를 실제로 다루는 시험

OSWorld는 우분투/데스크톱 환경에서 파일 관리, 앱 제어, 문서 작업, 웹 작업, 멀티앱 workflow를 실제로 수행하게 하는 benchmark입니다. 채점은 화면 보기만이 아니라 실행 결과로 성공/실패를 가립니다.

점수 의미: 성공한 실제 컴퓨터 태스크의 비율입니다. 공식 OSWorld 기준 human performance는 72.36%, OpenAI 공개 기준 GPT-5.5는 78.7%입니다.

0–30간단한 GUI 조작 일부

30–50단순 task 수행 가능

50–70강한 digital operator

70+이 benchmark에서 인간 숙련 사용자권

즉 OSWorld 70+는 “말을 잘하는 모델”이 아니라 “실제 컴퓨터를 다루는 사용자”에 가까워졌다는 신호입니다.

SWE-bench = 실제 GitHub 이슈 해결 시험

SWE-bench Verified는 12개 Python 오픈소스 저장소의 실제 GitHub issue를 가져와, 모델이 코드를 고친 뒤 숨겨진 FAIL_TO_PASS 테스트를 통과하고 기존 PASS_TO_PASS 테스트를 깨뜨리지 않는지로 채점합니다.

점수 의미: 실제 저장소 이슈를 끝까지 해결한 비율입니다. Verified 주석 기준으로 easy는 15분 미만, hard는 1시간 초과로 추정된 이슈입니다.

0–20쉬운 이슈 일부 해결

20–40버그 수정 보조자

40–60실전 repo 문제 해결 보조

60+frontier coding agent tier

SWE-bench 계열은 단일 human 점수보다 “얼마나 많은 real issue를 독립적으로 해결했는가”로 읽는 편이 정확합니다.

출처: OpenAI · GDPval · OSWorld official benchmark · OpenAI · SWE-bench Verified · SWE-bench Verified

2026년 4월 26일 업데이트: GPT-5.5와 GLM-5.1이 의미하는 것

4월 마지막 주의 흐름은 두 축입니다. OpenAI는 GPT-5.5로 에이전트 코딩과 컴퓨터 사용 성능을 다시 끌어올렸고, Z.AI의 GLM-5.1은 오픈 모델이 실전 코딩 benchmark에서 frontier proprietary model에 근접하거나 일부 지표에서 앞설 수 있음을 보여줬습니다.

GPT-5.5: 챗봇보다 에이전트 업무에 초점

OpenAI는 2026년 4월 23일 GPT-5.5를 ChatGPT와 Codex 유료 사용자에게 배포했습니다. 공식 수치 기준 Terminal-Bench 2.0은 82.7%, SWE-Bench Pro는 58.6%, GDPval은 84.9%, OSWorld-Verified는 78.7%입니다.

해석: 단순 지식 Q&A보다 터미널, 코드베이스, 도구, 운영체제 조작처럼 “실제로 일을 끝내는” 평가에서 개선 폭이 큽니다.

GLM-5.1: 오픈 모델의 코딩 추격

Z.AI 문서에는 GLM-5.1이 2026년 4월 7일 릴리스로 표기되어 있으며, 장시간 작업에서 최대 8시간 독립 실행을 지향한다고 설명됩니다. 관련 리뷰들은 3월 27일 초기 공개/접근 이후 4월 SWE-Bench Pro 58.4를 핵심 성과로 정리합니다.

해석: 첨부 벤치마크 기준으로 GLM-5.1은 SWE-Bench Pro에서 GPT-5.4 57.7, Claude Opus 4.6 57.3, Gemini 3.1 Pro 54.2를 근소하게 앞섭니다.

모델/주제	핵심 수치	세미나에서의 해석
GPT-5.5	Terminal-Bench 82.7, SWE-Bench Pro 58.6, GDPval 84.9, OSWorld 78.7	고급 코딩, 터미널 작업, 컴퓨터 사용, 전문 업무 산출물에서 GPT-5.4 대비 일관된 상승. 에이전트형 업무가 주전장이 됐다는 신호.
GLM-5.1	SWE-Bench Pro 58.4, CyberGym 68.7, NL2Repo 42.7, Terminal-Bench 63.5	코딩·보안·장시간 agentic task에서 오픈 모델 경쟁력이 크게 상승. 다만 HLE no-tools 31.0, GPQA 86.2처럼 순수 추론·과학 지식은 GPT/Gemini/Claude 상위권에 뒤지는 영역이 남음.
오픈 모델 전략	744B/754B급 MoE, 약 40B active, 200K context 계열	오픈 모델도 “작고 가벼운 로컬 모델”만이 아니라, 자체 인프라나 고메모리 장비를 요구하는 초대형 self-hosting 선택지로 분화.
하드웨어 관점	장시간 에이전트, 대형 컨텍스트, 도구 호출 증가	성능 경쟁은 모델뿐 아니라 메모리 대역폭, KV cache, 스토리지, 로그/검증 파이프라인, agent harness 운영 능력의 경쟁으로 이어짐.

출처: OpenAI · Introducing GPT-5.5 · AI타임스 · GPT-5.5 출시 · Z.AI Docs · GLM-5.1 · Serenities AI · GLM-5.1 benchmark review · DogDrip · GLM-5.1 정리

7) 글로벌 수학 reasoning: AIME 2025

공개 수치 기준 / 모델명은 각 사 페이지 표기 그대로 사용. Human 기준: 대회·문항 구성상 단일 human baseline 대신 만점 100을 기준으로 읽습니다.

OpenAI GPT-5.2 Thinking 100.0

Qwen3-235B-A22B-Thinking-2507 92.3

xAI Grok 4 Fast 92.0

Gemini 2.5 Pro Thinking 88.0

Claude Opus 4 Thinking 75.5

출처: OpenAI · GPT-5.2 · Qwen · Qwen3-235B-A22B-Thinking-2507 · xAI · Grok 4 Fast · Google DeepMind · Gemini 2.5 Pro

8) 글로벌 종합 추론: Humanity's Last Exam

no tools 공개 수치 기준. Human 기준: 공식 리더보드는 단일 human baseline 대신 교수·연구자·전문가가 만든 문제셋으로 난이도를 설명합니다.

Gemini 3.1 Pro Thinking (High) 44.4

Claude Opus 4.6 Thinking (Max) 40.0

OpenAI GPT-5 (high) 24.8

xAI Grok 4 Fast 20.0

Qwen3-235B-A22B-Thinking-2507 18.2

출처: Google DeepMind · Gemini 3.1 Pro · OpenAI · GPT-5 · xAI · Grok 4 Fast · Qwen · Qwen3-235B-A22B-Thinking-2507

9) 과학 지식 benchmark: GPQA 공개 수치

모델 카드·공식 페이지 표기 기준

Human (비전문가+web) 34.0

Human (PhD 전문가) 65.0

Gemini 3.1 Pro (GPQA Diamond) 94.3

OpenAI GPT-5.2 (GPQA Diamond) 92.4

Claude Opus 4.6 (GPQA Diamond) 91.3

xAI Grok 4 Fast (GPQA Diamond) 85.7

Qwen3-235B-A22B-Thinking-2507 (GPQA) 81.1

출처: GPQA paper · Google DeepMind · Gemini 3.1 Pro · OpenAI · GPT-5.2 · xAI · Grok 4 Fast · Qwen · Qwen3-235B-A22B-Thinking-2507

10) HyperCLOVA X vs Qwen | 한국어 reasoning

HyperCLOVA X SEED Think 14B와 Qwen3-14B 공식 비교

KMMLU

HyperCLOVA X SEED Think 66.49%

Qwen3-14B 49.30%

HAERAE

HyperCLOVA X SEED Think 85.37%

Qwen3-14B 74.10%

CLIcK

HyperCLOVA X SEED Think 72.80%

Qwen3-14B 68.80%

KoBALT

HyperCLOVA X SEED Think 45.00%

Qwen3-14B 38.40%

출처: HyperCLOVA X SEED Think 14B

11) HyperCLOVA X vs Qwen | coding & math

14B급 공개 수치 비교

GSM8K

HyperCLOVA X SEED Think 95.53%

Qwen3-14B 95.90%

MATH500

HyperCLOVA X SEED Think 93.80%

Qwen3-14B 96.80%

HumanEval

HyperCLOVA X SEED Think 94.51%

Qwen3-14B 95.70%

MBPP

HyperCLOVA X SEED Think 87.59%

Qwen3-14B 90.80%

출처: HyperCLOVA X SEED Think 14B

12) HyperCLOVA X vs Qwen | 학습 비용 공개치

A100-80GB, MFU 50% 기준 GPU Hours

HyperCLOVA X SEED Think 14B 68,049

Qwen2.5-14B 3,603,432

Qwen3-14B 6,267,077

HyperCLOVA X SEED Think 14B 공개 페이지에는 Qwen2.5-14B 대비 약 52.60×, Qwen3-14B 대비 약 91.38× 낮은 학습 비용이 함께 제시되어 있습니다.

출처: HyperCLOVA X SEED Think 14B

사람 기준으로 번역한 성능: 전문직·박사·숙련 사용자·프론티어 연구자

공식 benchmark가 제공하는 human baseline과 문제 난이도 정의를 기준으로, 모델 성능을 전문직 시험, 박사급 과학 Q&A, 컴퓨터 조작, 프론티어 연구 문제로 나누어 비교했습니다.

① 전문직 시험 상위권

GPT-4는 simulated bar exam에서 상위 10% 수준으로 보고됐습니다.

② 박사급 과학 Q&A

GPQA는 생물·물리·화학의 PhD-level 문제셋입니다. 인간 PhD 전문가 baseline이 공개되어 있어 사람 비교가 가장 직접적입니다.

③ 숙련 사용자급 컴퓨터 조작

OSWorld-Verified는 실제 컴퓨터 사용 태스크입니다. OpenAI 공개 기준에서 GPT-5.5 78.7, human baseline 72.4가 제시됐습니다.

④ 교수·연구자 작성 프론티어 문제셋

Humanity’s Last Exam은 전세계 약 1,000명의 전문가가 작성한 frontier benchmark입니다.

GPQA: 박사급 과학 Q&A

숙련 비전문가34.0

인간 PhD 전문가65.0

Gemini 3 Pro91.9

GPT-5.292.4

출처: GPQA paper · Google Gemini 3 · OpenAI GPT-5.2

OSWorld: 숙련 사용자급 컴퓨터 작업

GPT-5.247.3

Claude Sonnet 4.561.4

Human72.4

GPT-5.475.0

GPT-5.578.7

출처: OpenAI GPT-5.4 · OpenAI GPT-5.5 · Anthropic Claude Sonnet 4.5

HLE: 교수·연구자 작성 프론티어 문제셋

GPT-5.234.5

Gemini 3 Pro37.5

Grok 4 Heavy50.7

HLE는 100+ 분야, 2,500문항, 약 1,000명의 전문가가 기여한 benchmark입니다. 즉 이 차트는 “교수·연구자들이 설계한 프론티어 문제셋에 모델이 얼마나 접근했는가”를 보여주는 그림입니다.

출처: Humanity’s Last Exam · Google Gemini 3 · xAI Grok 4 · OpenAI GPT-5.2

GPT-4: 전문직 시험 상위권
GPT-5.2 / Gemini 3 Pro: 박사급 과학 문제 human baseline 상회
GPT-5.5: 숙련 사용자 baseline 상회 computer use
Grok 4 / Gemini 3 / GPT-5.2: frontier expert benchmark 경쟁

핵심 자료 링크

OpenAI · GPT-3 GitHub · Copilot / Codex (2021.06) OpenAI · InstructGPT (2022.01) OpenAI · GPT-4 OpenAI · GPT-4o OpenAI · GPT-4.1 OpenAI · GPT-5 OpenAI · GPT-5.2 OpenAI · GPT-5.4 OpenAI · GPT-5.5 Z.AI · GLM-5.1 Google · Gemini 2.5 Pro Anthropic · Claude 3 Opus DeepSeek · DeepSeek-R1 xAI · Grok 4 Qwen · Qwen3 NAVER · HyperCLOVA X (2023.08) GPQA paper Humanity’s Last Exam

02 HOW LLM WORKS

LLM은 어떻게 동작하는가? — 입력을 토큰화하고 문맥을 계산해 다음 토큰을 생성한다

LLM은 텍스트를 토큰으로 바꾸고, 각 토큰을 벡터로 표현한 뒤, Transformer가 문맥 관계를 계산해 다음 토큰의 확률을 만들고, 이 과정을 반복해 문장을 생성하는 모델입니다. 이 장에서는 학습보다도 입력 → 문맥 계산 → 다음 토큰 생성이라는 실제 동작 순서에 초점을 맞춥니다.

학습 단계의 기본 메커니즘 · 용어 설명 링크

텍스트를 숫자 토큰으로 바꾸고, 이를 임베딩 벡터로 변환합니다.
모델은 각 위치에서 다음 토큰 확률을 예측하고, 정답과의 차이를 loss로 계산합니다.
backpropagation으로 파라미터를 업데이트하며, 이 과정을 반복해 가중치를 학습합니다.

Transformer가 문맥을 계산하는 방식

Self-attention이 각 토큰이 다른 토큰을 얼마나 참고할지 계산합니다.
Causal mask가 미래 토큰을 가려서, 모델이 왼쪽 문맥만 보고 다음 토큰을 예측하게 만듭니다.
MLP + residual + layer norm이 표현을 정제하며 여러 블록을 거쳐 문맥 정보를 강화합니다.

LLM의 최소 동작 그림: 학습과 추론

1) Tokenization

문장을 토큰 단위로 쪼개어 모델이 다룰 수 있는 ID 시퀀스로 바꿉니다.

2) Embedding

각 토큰을 연속 벡터로 바꾸고, 위치 정보까지 더해 초기 표현을 만듭니다.

3) Transformer Blocks

Self-attention과 MLP 층이 문맥을 섞어가며 “지금 무엇이 중요한가”를 계산합니다.

4) Output Head

다음에 올 토큰의 확률 분포를 계산합니다. 즉, 정답 후보들의 점수를 뽑습니다.

5) Autoregressive Loop

선택된 다음 토큰을 다시 입력 뒤에 붙이고, 이 과정을 반복해 문장을 생성합니다.

이미지로 보는 LLM 내부 동작

1) Token Embeddings

토큰 ID를 연속 벡터 공간으로 바꾸는 단계입니다. 모델은 이제 단어가 아니라 숫자 벡터를 처리합니다.

2) Positional Encoding

토큰 순서를 표현에 더해 “앞뒤 위치” 정보를 잃지 않게 합니다. 순서 정보가 있어야 문맥 해석이 가능합니다.

3) Masked Self-Attention

현재 토큰이 앞선 토큰들 가운데 무엇을 얼마나 참고할지 계산합니다. GPT 계열은 미래 토큰을 볼 수 없도록 마스킹합니다.

4) Output Logits → Next Token

마지막 벡터를 vocabulary 점수로 바꾸고, 확률이 높은 후보 중 하나를 다음 토큰으로 선택해 다시 루프에 넣습니다.

도식 출처: Jay Alammar, The Illustrated GPT-2

학습 단계

정답 다음 토큰과 예측 분포의 차이를 loss로 계산하고, backpropagation으로 가중치를 업데이트합니다. 이 단계가 “피팅”에 해당합니다.

추론 단계

서비스 단계에서는 가중치를 더 이상 바꾸지 않습니다. 학습된 가중치를 고정한 채 다음 토큰 확률만 계산하고, 토큰을 하나씩 생성합니다.

CNN: 구조적 편향의 첫 번째 강한 사례

이미지처럼 가까운 위치끼리 강하게 관련되는 문제에 맞춰, locality와 weight sharing을 넣어 효율을 높였습니다.

핵심: 동일한 학습 원리 + 문제 구조에 맞는 아키텍처 편향

RNN / LSTM: 순서를 기억하는 모델

이전 상태를 다음 단계로 넘겨 순차 데이터를 다루도록 설계됐지만, 긴 문맥과 병렬화에서는 한계가 있었습니다.

핵심: 시간 순서 처리에는 적합, 긴 시퀀스·대규모 병렬화에는 불리

Transformer / LLM: 문맥 전체를 한 번에 보는 모델

Self-attention으로 멀리 떨어진 토큰 관계도 직접 계산하고, recurrence 없이 병렬 학습할 수 있어 현대 LLM의 기본 구조가 됐습니다.

핵심: 장문 문맥 처리 + 대규모 병렬 학습 + 범용성

현대 성능 점프의 실제 이정표

1943

McCulloch & Pitts

논리 뉴런을 형식화
인공 뉴런의 가장 이른 수학적 출발점

1958

Rosenblatt Perceptron

입력에 가중치를 두고 학습하는 단층 모델
“가중치를 학습한다”는 직관의 대표 사례 · 원리 링크

1986

Backpropagation

Rumelhart·Hinton·Williams가 hidden layer 학습을 대중화
다층 네트워크 성능 도약의 핵심 토대

2017

Transformer

Recurrence와 convolution 없이 attention만으로 시퀀스 처리
병렬화와 장거리 문맥 처리에서 큰 이점

2020

Scaling Laws

모델 크기·데이터·컴퓨트가 성능과 예측 가능하게 연결됨
“크게 만들면 왜 좋아지는가”를 공학적으로 설명

2022

Chinchilla + InstructGPT

같은 예산에서도 데이터/모델 비율을 더 잘 잡으면 더 좋아짐
RLHF로 “정답을 맞히는 모델”에서 “지시를 따르는 모델”로 이동

왜 성능이 이렇게 좋아졌는가?

Architecture

Transformer의 self-attention, residual connection, layer normalization, 병렬화 가능성이 성능과 학습 효율을 바꿨습니다.

Scale

모델 크기, 데이터 양, 컴퓨트가 커질수록 성능이 좋아지는 scaling 패턴이 실증적으로 확인됐습니다.

Training Recipe

같은 예산이라도 데이터/모델 비율, optimizer, curriculum, compute allocation을 잘 잡으면 성능 차이가 크게 납니다.

Post-training

Instruction tuning, RLHF, tool use, system prompting이 “똑똑함”을 실제 사용성으로 바꾸는 단계였습니다.

핵심 자료 링크

McCulloch & Pitts · 1943 logical neuron Rosenblatt · 1958 perceptron Rumelhart, Hinton & Williams · 1986 backprop Google Research · Attention Is All You Need OpenAI · Scaling Laws NeurIPS 2022 · Chinchilla OpenAI · InstructGPT / RLHF

03 LOCAL VS CLOUD

Local LLM vs Cloud LLM: 2024→2026 트렌드 변화와 권장 구성

실무 기본값은 여전히 Hybrid입니다. 2024년에는 GPT-4o와 Gemini 1.5 같은 cloud frontier가 시장을 주도했고, 2025년에는 Apple Mac Studio(M4 Max / M3 Ultra)와 NVIDIA DGX Spark·DGX Station 발표로 로컬 AI 컴퓨팅 관심이 크게 늘었습니다. 다만 실제 제품 운영 관점에서는 여전히 cloud·hybrid가 기본값이었고, 2026년에는 메모리 절감 연구와 경량·오픈 모델 성숙으로 local training이 아니라 local inference / fine-tuning / agent execution 쪽의 기회가 더 커지고 있습니다.

2024 → 2025 → 2026: Local vs Cloud 트렌드 변화

2024 | Cloud LLM이 대세

GPT-4o는 실시간 멀티모달 cloud flagship으로 자리 잡았고, Gemini 1.5도 AI Studio·Vertex AI 같은 cloud 경로에서 긴 컨텍스트와 효율을 밀었습니다.

키워드: frontier quality · API ecosystem · 멀티모달 · 실시간성

2025 | 로컬 실험 관심이 급증

Apple은 2025년 3월 Mac Studio를 M4 Max와 M3 Ultra로 갱신했고, NVIDIA는 같은 해 3월 DGX Spark·DGX Station을 발표했습니다. DeepSeek-R1과 Qwen3 같은 공개 모델도 더해지며 “개인/소규모 팀의 로컬 AI 실험”이 빠르게 늘었습니다.

키워드: Mac Studio refresh · DGX personal AI computers · open model experiment

2025 | 실전은 다시 Hybrid/Cloud

하지만 full training과 최상위 추론은 여전히 메모리·운영 효율의 벽이 컸습니다. NVIDIA도 DGX Spark를 “로컬에서 프로토타이핑하고, 이후 DGX Cloud나 데이터센터로 이어지는 시스템”으로 설명했고, DGX Spark 실제 출하는 2025년 10월부터 시작됐습니다.

키워드: local prototype, production hybrid/cloud, shipment late-2025

2026 | 변화 포인트

Google의 TurboQuant·KVCIS 같은 메모리 절감 연구와 Qwen3·Qwen3-Coder·Qwen Code 같은 로컬/에이전트 스택 성숙은 로컬 추론 여건을 개선하고 있습니다. 다만 M5 Ultra는 아직 Apple 공식 발표가 없으므로, 2026 로컬 재부상 논리는 “확정 사실”보다 “합리적 기대”로 보는 편이 정확합니다.

키워드: memory-efficient inference · local agent stack · M5 Ultra is still unannounced

cloud frontier 우세
Mac Studio refresh + DGX 발표로 local 실험 급증
late: DGX Spark 출하, production 기본값은 hybrid/cloud
압축 연구 + 오픈 모델 성숙 + Mac mini 고메모리 수요 급증

2026년 4월 관찰: Mac mini 품절은 로컬 LLM 수요의 실물 신호

ZNews/Vietnam.vn 계열 보도는 2026년 4월 19일 기준 고메모리 Mac mini와 Mac Studio 일부 구성이 Apple Store에서 품절 또는 장기 배송 지연 상태였다고 전했습니다. 핵심은 단순 신제품 전환 신호가 아니라, 로컬 AI 에이전트와 대형 LLM을 직접 돌리려는 수요가 소비자용 고메모리 장비까지 압박하기 시작했다는 점입니다.

로컬 에이전트 장비 수요

고메모리 Mac mini / Mac Studio는 화면 없는 컴퓨트 노드처럼 쓸 수 있어, OpenClaw 같은 로컬 에이전트와 대형 언어모델 실험용으로 주목받고 있습니다.

DRAM/NAND 공급 압박

AI 데이터센터 확장은 HBM뿐 아니라 DRAM과 NAND 수요도 끌어올립니다. 그 결과 고메모리 PC, 개발 보드, 엣지 장비의 가격과 납기가 흔들리는 신호가 늘고 있습니다.

하드웨어 전략 변화

로컬 LLM은 “클라우드 대체”라기보다 기밀 처리, 비용 제어, 장시간 agent 실행, 장애 시 fallback을 위한 내부 컴퓨트 계층으로 봐야 합니다.

출처: Vietnam.vn · Mac mini 품절 보도 · ZNews · Lý do Mac Mini biến mất khỏi Apple Store · Business Standard · Mac delivery delays

Cloud LLM이 잘하는 영역

최상위 reasoning / coding / agentic workflow
멀티모달 입력과 웹 기반 tool use
지속적인 모델 업그레이드와 생태계 확장
다양한 외부 서비스와의 빠른 통합

Local LLM이 잘하는 영역

민감 문서 전처리와 사내 지식 필터링
저비용 배치 처리와 분류·요약 자동화
네트워크 격리 환경 또는 edge inference
작은 모델 기반의 빠른 초안 생성

로컬 LLM 구성에 대한 분석리포트

권장 아키텍처

1) 사용자 입력

요구사항, 내부 문서, RTL/UVM 로그, 목표 조건 입력

2) Local Layer

문서 검색, 기밀정보 필터링, 포맷 정리, RAG, 정책 체크

3) Router

간단한 작업은 로컬 처리, 복잡한 reasoning과 multimodal은 클라우드로 분기

4) Cloud Frontier Model

고급 추론, 코드 생성, 에이전트 orchestration, tool use

5) Approval / Audit

사람 승인, 결과 저장, 품질 게이트, 반복 루프 관리

어떤 업무를 어디에 둘 것인가?

업무	권장 위치	설명
사내 문서 요약 / 분류 / 전처리	Local	기밀 통제와 비용 효율이 좋고, 작은 모델 또는 로컬 파이프라인으로도 충분한 경우가 많습니다.
복잡한 코딩 / 고난도 reasoning / multimodal	Cloud	최신 frontier 모델의 성능과 tool ecosystem이 가장 중요합니다.
RTL/UVM 로그 해석 + 버그 의심지점 추천	Hybrid	로그 수집과 민감 정보 처리는 로컬, 고급 해석과 보고서 품질 향상은 클라우드가 적합합니다.
사내 승인 플로우 / 결과 감사 / 이력 저장	Local	최종 책임과 추적성은 내부 시스템 안에 두는 것이 바람직합니다.

트렌드 자료 링크

참고: M5는 Apple이 공식 발표했지만, 이 HTML 작성 시점 기준 M5 Ultra Mac Studio는 Apple 공식 발표가 없습니다.

OpenAI · GPT-4o Google · Gemini 1.5 Apple · Mac Studio (M3 Ultra) NVIDIA · DGX Spark NVIDIA · DGX Spark / Station NVIDIA · DGX Spark 출하 DeepSeek · R1 Google Research · TurboQuant Google Research · KVCIS Qwen · Qwen3 Qwen · Qwen3-Coder Qwen Code · model providers Qwen Code · headless mode Apple · M5 공식 발표 (MacBook Air)

04 CODING PARADIGM

API 호출 기반 코딩에서 대화형·에이전트형 코딩으로

코딩의 중심이 “함수를 잘 호출하는 사람”에서 “대화 흐름과 에이전트 협업 구조를 설계하는 사람”으로 이동하고 있습니다. 중요한 변화는 단순 프롬프트가 아니라, 계획·라우팅·도구 사용·반복 검증, 그리고 이 전체를 감싸는 harness 설계가 이미 제품 내부에서 실행되기 시작했다는 점입니다.

1) Scripted API Call

프롬프트 → 응답 → 파서 → 다음 호출. 사람이 루프를 직접 설계하던 단계.

2) Chat-style Copilot

follow-up, 수정 요청, 맥락 유지가 가능해지며 코딩이 자연어 협업으로 변한 단계.

3) Multimodal Pairing

화면, 이미지, 오디오, 로그를 함께 보며 개발자와 모델이 동시 협업하는 단계.

4) Planner + Router

이미 제품 안으로 들어온 단계입니다. 모델이 작업을 여러 하위 과제로 나누고, 어떤 에이전트에 무엇을 맡길지, 어떤 도구를 쓸지, 다음 액션과 질문을 무엇으로 둘지 스스로 정합니다. 사람은 세부 프롬프트 작성보다 목표·우선순위·승인 기준을 정하는 쪽으로 이동합니다.

이미 진행 중

5) Agentic Execution

이미 확산 중인 단계입니다. 에이전트가 코드 수정, 테스트 실행, 실패 분석, 재시도, 병렬 실행까지 맡고, 사람은 최종 품질·리스크·우선순위를 감독합니다. 경쟁 포인트도 이제 “답변 한 번”보다 “여러 에이전트를 얼마나 안정적으로 운영하느냐”로 옮겨가고 있습니다.

이미 확산 중

6) Harness Engineering

이 단계에서 핵심 역량은 모델 바깥의 state · tools · permissions · verification · observability · retry loop를 설계하는 것입니다. 즉 하네스 엔지니어링은 에이전트가 장시간 안정적으로 일하도록 만드는 시스템 설계·운영 방법론에 가깝고, 단순 파이프라인 작성보다 더 넓은 개념입니다.

곧 확산 예정

프롬프트보다 환경, 단일 호출보다 루프 설계가 중요해지는 구간

“We may see the first AI agents join the workforce.”

Sam Altman · 2025 · Reflections

“Now, we’re entering the era of physical AI, AI that can proceed, reason, plan and act.”

Jensen Huang · CES 2025 · NVIDIA Blog

“Complex real work gets done with less back and forth.”

OpenAI · GPT-5.4 · Introducing GPT-5.4

그래픽: 에이전트형 코딩의 실행 구조

Goal / Constraints

사용자는 목표, 제약, 승인 기준만 제시

Planner Agent

작업 분해, 우선순위, 오더링 설계, 에이전트 간 hand-off 정의

Specialist Agents

Design / Debug / Test / Web / Docs 에이전트가 순차·병렬 협업

Evaluator Loop

자체 평가, 부족점 추출, 재질문, 재실행, 재정렬, 재시도

Human Monitor

승인 게이트, 상호작용 모니터링, 품질 기준, 최종 책임

핵심은 사람이 계속 핑퐁하던 대화 루프가 시스템 내부 루프로 들어간다는 점입니다. 사용자는 프롬프트를 여러 번 주고받는 대신, 목표·제약·품질 게이트를 정의하고 에이전트 상호작용을 관찰·승인하는 역할로 이동합니다.

출처: OpenAI · Harness engineering · Anthropic · Effective harnesses for long-running agents · Anthropic · Harness design for long-running application development

05 HARNESS-ENGINEERED PRODUCT PIPELINE

RTL을 칩 품질로 묶는 설계/검증 하네스

Hardware RTL에서 harness-engineered pipeline은 “LLM이 Verilog를 써준다”가 아닙니다. spec, microarchitecture, RTL, golden model, testbench, assertion, coverage, regression, sign-off evidence를 하나의 실행 가능한 검증 하네스로 묶어, 설계 변경이 생길 때마다 품질 신호가 자동으로 되돌아오게 만드는 방식입니다.

RTL harness loop: intent에서 sign-off evidence까지

Spec / Interface

레지스터 맵, 프로토콜, latency, reset, clock-domain, power intent를 명세화합니다.

Microarchitecture

pipeline, FSM, buffering, backpressure, arbitration 후보를 만들고 trade-off를 기록합니다.

RTL Candidate

SystemVerilog/VHDL 구현을 branch별 후보로 만들고 lint, CDC/RDC, synthesis rule을 즉시 적용합니다.

DV Harness

UVM/cocotb testbench, driver, monitor, scoreboard, assertion, coverage model을 연결합니다.

Sign-off Gate

regression, functional/code coverage, formal, waveform triage, waiver, release note를 근거로 승인합니다.

로컬 생성 이미지: Autonomous Harness Engineering Architecture

Stitch와 MCP를 통해 만든 최종 process_8.html 다이어그램으로 교체했습니다. RTL 설계, DV 하네스, 시뮬레이터, coverage/regression, sign-off evidence가 한 루프로 묶이고, 실패 로그가 다시 에이전트와 사용자 승인 게이트로 되돌아오는 구조를 보여줍니다.

process_8.html 크게 열기

명세를 실행 가능하게 만들기

자연어 요구사항을 interface contract, timing table, register map, golden model로 바꿉니다. RTL agent는 이 근거 없이는 코드를 쓰지 못하게 합니다.

RTL 후보를 격리해서 만들기

FIFO depth, pipeline stage, arbitration policy 같은 선택지는 branch/worktree로 분리합니다. 후보 RTL은 lint, reset rule, synthesis constraint를 통과해야 다음 단계로 갑니다.

검증 하네스 먼저 고정하기

DUT 주변에 driver, monitor, scoreboard, reference model, assertion, coverage point를 배치합니다. 이렇게 해야 LLM이 만든 RTL이 “그럴듯한 코드”인지 “검증 가능한 설계”인지 구분됩니다.

Regression이 대화보다 우선

시뮬레이션, cocotb/UVM regression, formal assertion, CDC/RDC, waveform diff가 실패하면 에이전트 답변보다 실패 로그를 우선합니다.

Sign-off 증거를 남기기

pass/fail만 저장하지 않고 seed, coverage, waveform bookmark, waiver, known issue, timing/power 영향, 변경 이유를 repo-local evidence로 남깁니다.

Repo-local DV knowledge base

RTL/DV에서는 대화창 기억보다 저장소 안의 검증 지식이 더 중요합니다. 에이전트가 다음날 다시 들어와도 같은 interface, 같은 coverage goal, 같은 waiver 판단으로 움직이게 해야 합니다.

AGENTS.md: RTL/DV 작업 규칙, 금지된 자동 수정, simulator 명령
MICROARCH.md: pipeline/FSM/buffer 선택과 버린 후보
DV_PLAN.md: test scenario, assertion, coverage target, negative test
SIGNOFF.md: regression 결과, waiver, coverage hole, tapeout 전 확인 목록

RTL 실패를 다루는 방식

하드웨어에서 실패는 화면 버그보다 비쌉니다. 하네스의 목적은 에이전트가 만든 RTL을 믿는 것이 아니라, 실패가 어디서 났는지 빠르게 좁히고 되돌릴 수 있게 만드는 것입니다.

컴파일 실패, assertion fail, scoreboard mismatch, coverage hole을 서로 다른 defect class로 분류합니다.
에이전트가 waveform을 해석할 때는 cursor time, signal path, expected transaction을 함께 남기게 합니다.
한 후보가 실패하면 같은 RTL을 덧칠하기보다 microarchitecture 후보를 되돌려 비교합니다.
사용자 승인 없이 interface 변경, reset semantics 변경, waiver 추가, coverage 목표 완화를 하지 않게 막습니다.

RTL/DV 하네스 산출물과 승인 지점

단계	담당 에이전트	주요 산출물	승인 게이트
Spec Freeze	spec agent + architect	interface contract, register map, protocol timing, reset/clock assumptions	이 명세로 RTL을 고정해도 되는가?
Microarchitecture	RTL designer + reviewer	FSM/pipeline/buffer 후보, latency/area/power trade-off	어느 구조를 구현 후보로 둘 것인가?
RTL Fork	RTL implementation agent	SystemVerilog/VHDL diff, lint report, synthesis sanity check	interface나 timing 의미가 바뀌었는가?
DV Harness	verification architect + tester	UVM/cocotb testbench, assertions, scoreboard, coverage model	pass 기준과 coverage 목표가 충분한가?
Sign-off	evaluator + human owner	regression summary, formal/CDC/RDC 결과, waveform triage, waiver list	waiver를 받아들일 것인가, RTL을 되돌릴 것인가?

RTL harness 참고 링크

Local diagram · Autonomous Harness Engineering Architecture cocotb docs · Python-based RTL verification Accellera · UVM standard/community AMD Vitis HLS · C/RTL verification flow UVM² · LLM-aided UVM machine for RTL verification Agents Cookbook · Harness = model + runtime wrapper

06 AGENT TOOL EXPLOSION

OpenCode, Antigravity, Codex, Claude Code, Gemini CLI, OpenClaw: 에이전트 툴이 쏟아지는 이유

2025~2026의 차이는 “AI 코딩 툴이 또 하나 늘었다”가 아닙니다. 에이전트 툴이 쏟아지는 가장 큰 이유는 단순한 유행이 아니라 효용성이 이미 너무 크기 때문입니다. 코드베이스 이해, 파일 수정, 실행, 검증, 재시도, 병렬 작업을 하나의 루프로 묶으면 개발자의 병목이 “직접 타이핑”에서 목표 설정, 검토, 승인, 아키텍처 판단으로 이동합니다.

6-1. 왜 이렇게 많이 등장하는가: 효용성이 이미 증명됐기 때문

에이전트 툴의 가치는 “코드를 조금 빨리 쓰는 것”보다 훨씬 큽니다. 사람이 하던 탐색, 수정, 실행, 실패 분석, 재시도, 문서화를 한 작업 루프로 묶기 때문에, 소프트웨어 작업의 대기 시간과 전환 비용을 크게 줄입니다.

시간 절감

개발자는 파일을 하나씩 찾고, 명령을 기억하고, 실패 로그를 붙여넣는 시간을 줄입니다. agent는 관련 파일 탐색, diff 작성, 테스트 실행, 에러 분석, 재수정을 한 번에 이어갑니다.

컨텍스트 흡수

새 코드베이스나 오래된 레거시 프로젝트에서도 agent가 구조를 읽고 관계를 요약합니다. 온보딩, 영향 범위 파악, 리팩터링 계획처럼 시간이 오래 걸리던 작업이 짧아집니다.

병렬 실행

사람 한 명은 보통 한 작업에 묶이지만, agent는 테스트 수정, 문서 갱신, 버그 재현, PR 준비 같은 독립 작업을 병렬로 돌릴 수 있습니다. 그래서 툴의 효용은 개인 생산성뿐 아니라 팀 처리량으로 이어집니다.

핵심: 이 시장이 커지는 이유는 모델 성능 경쟁만이 아니라, 실제 업무 시간을 줄이고, 기존 코드베이스를 다루는 비용을 낮추며, 여러 작업을 동시에 진행할 수 있게 만드는 경제적 효용이 너무 명확하기 때문입니다.

예전: point tool 시대

코드 자동완성, 특정 IDE 플러그인, 단일 diff 제안, 제한된 코드 검색처럼 한 지점의 편의성을 높이는 도구가 중심이었습니다. 툴마다 장점 하나와 불편 여러 개가 분리돼 있었습니다.

지금: agent runtime 시대

최신 툴은 코드베이스 읽기, 파일 수정, 명령 실행, 테스트, 재질문, PR 생성, 병렬 태스크, 로그·diff 검토를 하나의 실행 루프로 묶습니다. 즉 “답변기”가 아니라 “작업기”에 가깝습니다.

선택 기준도 달라짐

이제 중요한 것은 어느 모델이 더 똑똑한가만이 아닙니다. 터미널/IDE/브라우저/채팅앱/클라우드 샌드박스 중 어디에서 움직이는지, 병렬화·메모리·승인 게이트·로그를 어떻게 제공하는지가 실제 생산성을 가릅니다.

6-2. 주요 agentic coding / execution 툴 한눈에 보기

공식 문서만 보면 공통점이 분명합니다. 각 툴은 서로 다른 표면에서 동작하지만, 대부분 이미 계획 → 수정 → 실행 → 검증 → 병렬화의 기본 루프를 제공합니다.

툴	공식 포지셔닝	주요 실행 표면	공식 문서에 명시된 핵심 기능	현업에서 읽히는 의미
OpenCode	open-source AI coding agent	Terminal / IDE / Desktop	LSP enabled, multi-session, share links, any model, any editor	모델 락인 없이 여러 agent를 병렬로 돌리면서 같은 프로젝트를 다루기 좋은 구조
Codex	cloud-based software engineering agent	Cloud sandbox / Repo task board	many tasks in parallel, repo-preloaded sandbox, test/lint/typecheck, PR workflow	로컬 환경 대신 클라우드 작업장에 업무를 던져 병렬 처리하는 배경 작업형 도구
Claude Code	agentic coding tool	Terminal / IDE / Desktop / Browser	reads codebase, edits files, runs commands, MCP, multiple agents, git/PR	코드베이스 이해와 multi-file 작업, CLI/CI 연계를 강하게 밀어주는 terminal-native 계열
Gemini CLI	open-source AI agent	Terminal / Cloud Shell / VS Code agent mode	ReAct loop, shell/file/web tools, MCP, 1M context, generous free quota	개발용 터미널 자체가 agent host가 되는 방향을 가장 공개적으로 밀고 있는 계열
Google Antigravity	agentic development platform	Agent Manager + Editor + Browser	Mission Control, autonomous agents, multi-workspace monitoring, browser-in-the-loop	IDE를 “텍스트 편집기”가 아니라 “agent orchestration 콘솔”로 바꾸려는 방향
OpenClaw	personal AI assistant / local agent runtime	Chat apps + local machine	runs on your machine, persistent memory, browser control, full system access, skills/plugins, OpenAI/Anthropic/local models	모델을 불러 답받는 도구가 아니라, 여러 에이전트와 도구를 계속 굴리는 상위 runtime/manager에 가까움

출처: OpenCode · OpenAI · Codex · Anthropic · Claude Code · Google · Gemini CLI · Google Codelabs · Antigravity · OpenClaw

6-3. Application 시대의 종말, Application Layer를 넘어선 Agent Layer 시대

앞으로 사용자는 “어떤 앱을 열어야 하는가”보다 “무슨 일을 끝내고 싶은가”를 먼저 말하게 됩니다. 그러면 agent layer가 필요한 UI, 도구, 모델, 브라우저 작업, 파일 수정, 승인 흐름을 그때그때 조합해 실행하고, 일이 끝나면 그 표면은 바뀌거나 사라지는 방향으로 갑니다. OpenClaw는 이 변화를 보여주는 대표적인 runtime/manager 계층 사례입니다.

왜 Application Layer가 약해지는가

정적인 앱을 찾아 열고 기능을 탐색하는 방식보다, 목표를 말하고 agent가 workflow를 조합하는 방식이 더 빠릅니다.
앱은 고정된 목적물보다, 특정 과업을 처리하기 위해 잠시 생성되는 작업 표면(work surface)으로 바뀝니다.
사용자는 메뉴 탐색보다 목표·제약·권한·승인 기준을 지정하는 역할로 이동합니다.
같은 사용자도 과업마다 다른 app/agent 조합을 즉석에서 불러 쓰게 됩니다.

왜 Agent Layer가 위로 올라오는가

agent layer는 모델 선택, memory, routing, browser/shell/file tool, 권한 경계, background task를 하나의 실행 계층으로 묶습니다.
OpenClaw 같은 runtime은 채팅앱을 front-end로 두고, 뒤에서 여러 모델·도구·작업을 상주형으로 운영합니다.
핵심 가치는 “답변 품질”만이 아니라 관찰성, 재시도, replay, 승인 게이트, 정책 준수로 이동합니다.
결국 사용자는 개별 앱 사용자가 아니라 agent fleet operator에 가까운 역할을 맡게 됩니다.

User Intent
Goal · Constraints · Approval

→

Agent Layer
Runtime · Memory · Routing · Permissions

→

Generated Work Surface
App/UI · Browser · Shell · Docs · Code

앱 선택 → 목표 선언
고정 UI → 과업별 생성 UI
사용자 조작 → agent orchestration + human approval

Sam Altman은 The Gentle Singularity에서 “2025 has seen the arrival of agents that can do real cognitive work”라고 썼고, 같은 글에서 “A lot more people will be able to create software”라고 전망했습니다. 또 GPT-4o 글에서는 AI로 인해 사람들이 “create all sorts of amazing things”를 하게 되고, 컴퓨터로 “much more than ever before”를 하게 될 미래를 언급했습니다. 여기에 OpenAI가 2025년 10월 공개한 Apps in ChatGPT와 Apps SDK를 함께 보면, 소프트웨어는 미리 설치해 두는 고정 애플리케이션보다 필요할 때 생성·조합되어 과업을 수행하는 agentic surface에 가까워지는 방향으로 읽을 수 있습니다.

출처: Sam Altman · The Gentle Singularity · Sam Altman · GPT-4o · OpenAI · Introducing apps in ChatGPT and the new Apps SDK · OpenClaw

07 WHAT HARDWARE ENGINEERS SHOULD DO NOW

하드웨어 엔지니어로서 어느 정도까지 무엇을 해야 하는가?

지금 시점에서 가장 좋은 전략은 “완전 자율화”를 기다리는 것이 아니라, 반복적이면서 구조화된 검증/디버깅/리포트 루프를 먼저 자동화하고, 사람이 아키텍처·승인·최종 sign-off를 잡는 구조를 만드는 것입니다.

지금 가능한 것 / 사람 승인 필요한 것 / 미래 확장 영역

업무 항목	현 수준	설명
컴파일 / 리그레션 / 테스트 리포트 자동 생성	지금 가능	CI/CD, TCL, Python, 사내 파이프라인으로 바로 적용 가능한 영역
로그 요약 / 에러 클러스터링 / 우선순위 정리	지금 가능	LLM이 보고서 초안을 만들고, 사람이 빠르게 검토하는 구조가 가장 효율적
UVM 테스트 초안 생성 / 유사 프로젝트 이식 초안	부분 가능	초안과 골격 생성은 빠르지만, 프로토콜/타이밍/인터페이스 차이 검증은 사람이 필요
파형·덤프 기반 이상 징후 요약	부분 가능	의심 지점 ranking, 리포트화, 중요 신호 후보 제시는 가능성이 높음
RTL 수정안 제안	부분 가능	패치 후보를 제안하는 수준은 현실적, 최종 반영과 검증은 사람 승인 필요
완전 자율 RTL 수정 + sign-off	미래 영역	방향성은 크지만, 최종 책임은 여전히 사람에게 있습니다.

지금 바로 해볼 것

컴파일/시뮬레이션/회귀 테스트를 하나의 자동화 파이프라인으로 묶기
로그 요약과 버그 후보 추정을 LLM 보고서로 연결하기
UVM 테스트 템플릿, 체크리스트, 리포트 생성 자동화하기
사람 승인 지점을 명확하게 넣어 품질 게이트 만들기

사람이 끝까지 잡아야 하는 것

아키텍처 방향과 시스템 수준 설계 판단
프로토콜 해석과 예외 상황에 대한 책임 있는 승인
sign-off 기준과 실패 허용 범위 정의
도구 체인 전체의 리스크 관리와 최종 의사결정

08 HARDWARE CODING FUTURE

Hardware Coding Future: 사람이 직접 치는 코드보다, 루프를 설계하는 능력이 중요해진다

하드웨어 설계와 검증도 소프트웨어가 먼저 겪은 변화를 따라가게 됩니다. 먼저 템플릿 자동화가 들어오고, 그다음에는 보고서/테스트/버그 요약 자동화가 들어오며, 이후에는 다중 에이전트가 설계-검증-문서화를 연결하는 폐루프 구조가 중심이 됩니다.

미래 파이프라인 비전

Spec & Constraints

입출력, 타이밍, 인터페이스, 승인 기준 정의

Design Agents

RTL 초안, UVM 골격, 문서 초안, 리뷰 포인트 생성

Simulation Farm

컴파일, 리그레션, 파형 수집, 커버리지, 리포트 생성

Evaluator Loop

실패 원인 분류, 재질문, 재시도, 재정렬, 수정안 생성

Approval Gate

사람이 최종 승인하고, sign-off와 조직 자산으로 축적

Horizon 1

지금 ~ 6개월

리그레션 자동화
로그 분석 보고서 자동 생성
UVM 템플릿/스크립트 자동화

Horizon 2

6 ~ 18개월

다중 에이전트 기반 설계·검증 분업
오류 패턴 분류와 재시도 루프 자동화
사람은 승인 게이트와 우선순위 관리 담당

Horizon 3

18개월 이후

Spec-to-Verification 폐루프 고도화
에이전트 상호작용 관찰·모니터링 중심 운영
하드웨어 엔지니어의 역할이 “감독자 + 설계 책임자”로 재편

핵심 메시지: 앞으로 경쟁력의 핵심은 “누가 RTL을 더 많이 직접 타이핑하는가”보다, “누가 에이전트 루프를 더 잘 설계하고, 검증 기준을 더 잘 세우며, 최종 책임을 더 정확히 질 수 있는가”로 이동합니다.

참고 링크

Sam Altman · Reflections NVIDIA · CES 2025 Jensen Huang OpenAI · GPT-5.4 OpenAI · GPT-5

09 PRACTICAL AGENT PIPELINE CASE

실전 적용 사례: OpenCode로 시작해 병렬 실행·감독형 운영으로 확장

이 장은 OpenCode로 출발하여 agentic coding을 적용하고, 이후 harness engineering 관점에서 병렬 실행·감독형 운영으로 확장한 적용 사례를 화면으로 보여주는 파트입니다.

흐름: OpenCode 기반 단일 세션 보조 → 패치·재빌드·검증 폐루프 → 외부 스크립트 자동화 → 멀티 에이전트 병렬 실행 → 사람의 감독·승인 중심 운영.

소프트웨어는 이미 가장 빠르게 AI화되는 영역

공개 수치와 업계 리더의 발언을 보면, 소프트웨어는 AI-generated code share가 가장 먼저 크게 올라간 분야입니다. 대기업 내부 측정치는 25~30% 수준까지 올라왔고, 스타트업 일부 cohort에서는 95% 사례가 보고됐으며, 업계 리더는 90%+ 구간을 전망하고 있습니다.

개발 현장의 AI 도구 사용 확산

GitHub 2024 survey, Stack Overflow 2025 Developer Survey 기준.

AI가 작성한 코드 비중에 대한 공개 시그널

Google 공식 측정치, Microsoft CEO 추정치, Y Combinator cohort 사례, Anthropic CEO 전망치 기준.

Alphabet Q3 2024 earnings call · TechCrunch · Nadella 20–30% · GitHub survey 2024 · Stack Overflow Developer Survey 2025 · Y Combinator post · CFR · Dario Amodei

적용 방법론: 단일 세션 → 폐루프 자동화 → 병렬 실행 → 감독형 운영

목표와 승인 기준 정의

무엇을 고칠지, 무엇을 통과로 볼지 먼저 명시합니다. 이후 에이전트는 이 기준을 중심으로 작업을 분해합니다.

OpenCode로 초안 생성

파일을 읽히고 수정안·스크립트·문서를 생성합니다. 사람은 모든 코드를 직접 치기보다 작업 의도와 제약을 줍니다.

실행·검증·재질문 루프

빌드, 테스트, 로그, 에러 메시지, diff를 다시 읽혀서 원인을 추정하고 다음 수정안을 생성하는 폐루프를 만듭니다.

배치화·병렬화

동일한 패턴의 작업을 큐로 올리고 여러 워커를 동시에 돌립니다. 사람은 개별 작업보다 전체 큐의 throughput을 보게 됩니다.

감독(모니터링) 모델

최종적으로는 에이전트가 컴파일·검증·대안 제시를 수행하고, 사람은 선택·승인·예외만 감독하는 방식으로 전환합니다.

예시 1. 한 세션에서 원인 분석과 수정 방향 정리

초기 단계에서는 OpenCode 단일 세션으로 문제 원인을 분석하고, 어떤 파일을 왜 바꿔야 하는지 설명받는 방식으로 사용했습니다. 이 단계만으로도 사람이 직접 코드를 모두 뒤지지 않고 빠르게 문제 구조를 파악할 수 있었습니다.

예시 2. diff와 오류 메시지를 다시 읽혀 다음 패치를 생성

다음 단계에서는 에러 메시지, 수정 diff, 다음에 읽을 파일 위치를 다시 모델에 넣어 폐루프를 만들었습니다. 즉, “답변”이 아니라 “패치 → 재빌드 → 재질문” 루프를 만들기 시작한 단계입니다.

예시 3. 외부 스크립트·도구까지 확장한 자동화

이후에는 단일 코드 수정에 그치지 않고, 배치 처리와 로그 생성, 진행 옵션 제어, 외부 스크립트까지 포함하는 자동화 파이프라인으로 확장했습니다. 즉 에이전트를 IDE 보조가 아니라 실제 작업 파이프라인의 일부로 붙인 것입니다.

Example 4 monitoring all agent processes

예시 4. 모든 프로세스를 한눈에 모니터링하며 에이전트 상호작용을 감독

이 화면은 여러 에이전트가 각자 코딩, 검증, 아이디어 제시를 수행하고 그 결과를 사용자가 한눈에 모니터링하는 상황을 보여줍니다. 즉 사람은 직접 한 작업을 치는 것이 아니라, 에이전트들이 상호작용하며 내놓는 산출물과 예외를 감독하는 역할로 이동합니다.

Example 5 multi-LLM parallel execution and logs

예시 5. 다수의 LLM을 병렬 호출하고 진행률·병합·로그를 관리

이 단계에서는 여러 모델과 런을 동시에 호출해 progress, 로그, 병합 결과를 관리합니다. 결국 사람은 전체 실행 팜의 상태를 보면서 실패 작업만 집어 들고, 성공한 작업은 계속 자동으로 흘려 보내는 운영 모델에 가까워집니다.

이 파이프라인을 하드웨어로 옮기면

핵심은 도메인이 아니라 운영 구조입니다. 목표 정의, 초안 생성, 실행/검증, 재질문, 재시도, 병렬 운영, 승인 게이트라는 구조는 앱 개발에서 통했던 것과 같은 방식으로 메모리·낸드 설계/검증/제품화 workflow에도 그대로 이식할 수 있습니다.

루프 단계	실제 적용 사례에서 한 일	메모리·낸드 설계/검증/제품화로 확장했을 때
목표 정의	수정 목표, 통과 기준, 파일 범위, 산출물 형식을 먼저 명시	Spec, 인터페이스 제약, timing 목표, 검증 통과 기준, sign-off 조건을 명시
초안 생성	코드 수정안, 스크립트, 문서 초안, 패치 후보 생성	RTL 초안, UVM sequence/scoreboard 골격, TCL/pytest/regression 스크립트, 체크리스트 초안 생성
실행/검증	빌드, 실행, 번역/패치, 결과 로그 수집	lint, compile, simulation, regression, waveform/log 수집, coverage/리포트 자동 생성
재질문/재시도	오류와 diff를 다시 읽혀 다음 수정안을 자동 생성	실패 testcase 분류, 에러 signature 추출, 의심 RTL/UVM 구간 재분석, 수정안 제안 후 재실행
병렬 운영	여러 작업을 동시에 올리고 큐 단위로 처리	corner별 회귀, block별 verification, firmware/driver/validation 병렬 실행, issue triage 큐 운영
감독과 승인	실패 작업, 재시도, 예외 로그, 승인 여부만 사람이 관리	설계자는 승인 게이트, 우선순위, 품질 기준, tape-out / 제품화 리스크를 관리

앱 개발에서 검증된 운영 구조
설계/검증/제품화로 동일한 루프 이식 가능
사람의 역할은 승인·우선순위·책임 관리로 이동

10 OPENCODE TIPS

OpenCode 사용 팁

OpenCode에서는 다섯 가지를 구분해 보면 덜 헷갈립니다. AGENTS.md는 기본 행동 규칙, command는 사용자가 직접 치는 슬래시 명령, skill은 에이전트가 필요할 때만 불러오는 작업 플레이북, MCP는 외부 도구·데이터 연결 표준, /init은 저장소를 스캔해 AGENTS.md를 만들거나 다듬는 내장 명령입니다.

AGENTS.md = 기본 행동 규칙

프로젝트 루트의 AGENTS.md는 그 디렉터리 이하에서 적용되고, ~/.config/opencode/AGENTS.md는 모든 세션에 공통 적용됩니다. OpenCode는 시작 시 현재 디렉터리에서 위로 올라가며 로컬 규칙을 찾고, 그다음 글로벌 규칙, 마지막으로 Claude Code 호환용 CLAUDE.md를 fallback으로 봅니다.

AGENTS.md example showing repository scope, entrypoints, commands, verification, and project-specific gotchas

예시처럼 AGENTS.md에는 저장소 범위, 실제 엔트리포인트, 자주 쓰는 명령, 검증 방법, 건드리면 안 되는 파일 같은 프로젝트 기본 운영 규칙을 모아 둡니다. 그래서 새 세션을 열어도 에이전트가 같은 작업 기준을 공유합니다.

빌드·린트·테스트 명령, 중요한 실행 순서, 저장소 구조, 프로젝트 특유의 컨벤션과 운영상의 주의점을 적어 두는 곳입니다.

command = 사용자가 직접 실행하는 매크로

/test, /review 같은 커스텀 슬래시 명령입니다. opencode.json의 command 항목으로 정의하거나, .opencode/commands/ 또는 ~/.config/opencode/commands/ 아래 markdown 파일로 만들 수 있습니다.

OpenCode command palette showing user-run slash commands such as help, init, mcps, models, review, sessions, and skills

TUI에서 /help, /review, /skills처럼 사용자가 직접 선택해 실행하는 계층입니다. 즉 command는 에이전트가 알아서 불러오는 지식 모듈이 아니라, 사람이 반복 작업을 매크로처럼 호출하는 슬래시 명령입니다.

내용은 프롬프트 템플릿이고, $ARGUMENTS, $1, $2 같은 인자 치환, !명령어의 셸 출력 주입, @파일경로의 파일 자동 포함도 지원합니다. 특정 agent·model 지정과 subtask 강제도 가능합니다.

skill = 에이전트가 필요할 때만 여는 작업 플레이북

스킬은 SKILL.md 기반의 재사용 가능한 지침입니다. OpenCode는 먼저 스킬 목록과 설명만 보고, 에이전트가 필요하다고 판단할 때 native skill tool로 본문을 로드합니다. 즉 기본 프롬프트에 항상 다 들어가는 것이 아니라 온디맨드로 불러오는 지식 모듈입니다.

OpenCode skills folder example showing multiple SKILL.md playbooks for specialized tasks

예시처럼 skill은 Firebase, Genkit, Firestore, 배포 같은 작업별 폴더로 나뉘고 각 폴더의 SKILL.md가 전문 플레이북 역할을 합니다. AGENTS.md가 항상 깔리는 기본 규칙이라면, skill은 필요한 순간에만 열어 보는 작업별 매뉴얼입니다.

경로는 .opencode/skills/<name>/SKILL.md 또는 ~/.config/opencode/skills/<name>/SKILL.md를 쓰고, YAML frontmatter의 name과 description이 필수입니다.

MCP = 외부 도구·데이터 연결 표준

MCP는 OpenCode 고유 포맷이 아니라 Model Context Protocol이라는 외부 표준입니다. 공식 문서는 이를 AI용 USB-C 포트에 비유합니다. OpenCode에서는 opencode.json의 mcp 항목에 서버를 등록해 로컬·리모트 MCP를 붙입니다.

핵심은 저장소 안 규칙을 정리하는 것이 아니라 GitHub·Jira·문서 검색기 같은 바깥 시스템과 연결해 실제 도구와 데이터를 가져오게 하는 것입니다. MCP는 컨텍스트 사용량을 크게 늘릴 수 있으므로 많이 붙일수록 무거워질 수 있습니다.

정확히 말하면 MCP 서버가 LLM과 직접 대화하는 것은 아닙니다. OpenCode, Claude Desktop, Cursor 같은 AI 앱이 MCP Host이자 MCP Client가 되고, 외부 기능을 제공하는 프로그램이 MCP Server가 됩니다. LLM은 Host가 알려준 tool schema를 보고 “어떤 도구를 쓸지” 결정하고, 실제 통신과 실행은 Host와 MCP Server가 JSON-RPC로 처리합니다.

1. 사용자 요청 2. OpenCode 같은 AI Host가 LLM에 tool 목록과 schema 제공 3. LLM이 필요한 tool 호출을 결정 4. Host 내부 MCP Client가 MCP Server에 JSON-RPC 요청 전송 5. MCP Server가 실제 파일/API/DB/명령을 실행 6. 결과를 JSON-RPC 응답으로 반환 7. Host가 결과를 LLM context에 넣고, LLM이 최종 답변 생성

구성	역할	예시
Resource	읽기용 데이터	파일 내용, DB schema, 문서, 설정값
Tool	실행 가능한 함수	검색, 빌드 실행, 테스트 실행, API 호출
Prompt	재사용 프롬프트 템플릿	코드 리뷰 템플릿, SVA 리뷰 템플릿

JSON-RPC로 보면: Host는 먼저 initialize로 protocol version과 capability를 맞추고, tools/list로 tool 목록을 가져오며, 실제 실행은 tools/call 요청으로 합니다.

{
  "jsonrpc": "2.0",
  "id": 11,
  "method": "tools/call",
  "params": {
    "name": "search_signal",
    "arguments": {
      "signal_name": "axi_awvalid"
    }
  }
}

로컬 stdio 방식: OpenCode가 MCP 서버를 subprocess로 실행하고, stdin/stdout으로 JSON-RPC 메시지를 주고받습니다. 그래서 MCP 서버에서 debug용 print()를 stdout에 막 쓰면 통신이 깨질 수 있고, 로그는 stderr로 보내는 것이 안전합니다.

OpenCode
  ├─ subprocess: python rtl_mcp_server.py
  ├─ stdin  → JSON-RPC request
  └─ stdout ← JSON-RPC response

OpenCode 연결 예: local MCP는 opencode.jsonc의 mcp 섹션에서 실행 명령과 환경변수를 지정합니다.

{
  "$schema": "https://opencode.ai/config.json",
  "mcp": {
    "rtl-helper": {
      "type": "local",
      "command": ["python", "/home/user/mcp_servers/rtl_mcp_server.py"],
      "enabled": true,
      "environment": {
        "PROJECT_ROOT": "/home/user/my_rtl_project"
      }
    }
  }
}

RTL/DV에 붙이면: search_signal, read_rtl_file, find_module, parse_sim_log, extract_assertion_failures, generate_sva_candidate 같은 tool을 만들 수 있습니다. 그러면 자연어 요청 하나가 내부적으로 파일 검색 → RTL 읽기 → 로그 분석 → SVA 후보 생성 같은 tool 호출 체인으로 바뀝니다.

보안 포인트: MCP tool은 실제 파일 읽기, command 실행, API 호출, DB 접근을 할 수 있으므로 위험할 수 있습니다. 임의 shell command를 그대로 받는 tool보다 unit_test, lint, sim_smoke처럼 허용된 작업만 enum으로 제공하는 방식이 안전합니다.

한 줄 요약: MCP는 “AI가 외부 기능을 호출할 수 있도록 함수 목록, 입력 스키마, 실행 결과를 JSON-RPC로 표준화한 client-server 프로토콜”입니다.

참고: MCP server docs · MCP Tools spec · MCP Transports · Python SDK · OpenCode MCP servers

Hardware 검증 관점에서의 MCP 툴 활용에 대한 더보기

MCP를 사용한 Stitch 연결 예제: 화면 흐름

아래 흐름은 “하네스 엔지니어링을 하드웨어 RTL 설계/검증 모델로 시각화해 달라”는 요청을 Stitch에 만들고, OpenCode가 MCP 서버를 통해 그 화면과 산출물을 읽고 개선하는 예시입니다. 발표에서는 1번부터 9번까지 순서대로 보면 MCP가 단순 설정 파일이 아니라 외부 도구를 에이전트 작업 루프에 붙이는 연결 표준이라는 점이 드러납니다.

기준 UVM 테스트벤치 이미지 준비

Reference UVM testbench architecture used as the input image

기존 UVM Testbench 구조를 기준 이미지로 준비합니다. 이후 Stitch와 에이전트는 이 이미지를 출발점으로 하네스 엔지니어링 구조를 확장합니다.

Stitch에 목표 입력

Stitch prompt asking for a harness engineering hardware verification model

첨부한 기준 이미지를 하드웨어 개발·검증용 하네스 엔지니어링 모델로 확장해 달라고 Stitch에 요청합니다.

Stitch 화면과 MCP 연결 준비

Stitch canvas with generated UVM harness architecture and MCP setup panel

Stitch가 만든 UVM testbench 참조와 아키텍처 다이어그램을 확인하고, 오른쪽 패널에서 OpenCode MCP 연결을 준비합니다.

OpenCode에 MCP 서버 등록

OpenCode opencode.json MCP server configuration for Stitch

opencode.json의 mcp 항목에 Stitch 서버를 등록합니다. 로컬 작업기인 OpenCode가 외부 디자인 도구를 호출할 수 있는 통로가 생깁니다.

TUI에서 연결 상태 확인

OpenCode TUI의 MCP 상태 창에서 stitch connected와 Enabled 상태를 확인합니다. 이때부터 에이전트가 Stitch 도구를 쓸 수 있습니다.

에이전트가 Stitch 화면을 읽음

OpenCode agent calling Stitch MCP tools and inspecting generated UVM harness architecture

에이전트가 stitch_get_screen, stitch_list_screens 같은 MCP 도구로 화면과 산출물을 읽고, HTML 다이어그램으로 옮길 구조를 추출합니다.

초기 HTML 산출물 생성

Stitch 화면에서 읽은 구조를 먼저 HTML/SVG 다이어그램으로 옮긴 버전입니다.

초기 HTML 크게 열기

HTML 산출물을 다시 개선 요청

Prompt asking the agent to refine the first HTML diagram to match the target architecture image

초기 HTML 결과와 Stitch 화면을 비교하면서, 발표에 쓸 최종 RTL harness loop 이미지에 더 가깝게 다시 생성하도록 요청합니다.

최종 HTML 산출물 확인

자율 하네스 엔지니어링 루프를 RTL 설계/검증 관점으로 정리한 최종 버전입니다.

최종 HTML 크게 열기

/init = 별도 계층이 아니라 내장 슬래시 명령

/init은 TUI의 built-in command이며, 역할은 저장소를 스캔해 AGENTS.md를 새로 만들거나 기존 파일을 개선하는 것입니다. 코드만으로 알 수 없는 부분은 몇 가지 질문을 던지고, 이후 세션에 필요한 build/lint/test 명령, 아키텍처, 관례, 주의사항을 요약해 넣습니다.

흐름으로 보면 /init이 먼저 기본 규칙을 깔고, 평소 세션에서는 AGENTS.md가 기본 행동을 잡아주며, 사용자는 /command로 반복 작업을 직접 실행하고, 에이전트는 필요할 때 skill을 불러 작업 방식을 보강하고, 외부 접근이 필요할 때 MCP를 통해 바깥 도구와 데이터를 씁니다.

항목	누가 호출하나	언제 로드되나	어디에 두나	핵심 용도
AGENTS.md	OpenCode 시작 시 자동 반영	세션 기본 규칙으로 상시 적용	프로젝트 루트 또는 `~/.config/opencode/`	프로젝트별 행동 규칙, 명령 순서, 컨벤션, 운영 주의점
command	사용자	`/test`처럼 직접 실행할 때	`opencode.json`, `.opencode/commands/`, `~/.config/opencode/commands/`	반복 작업용 슬래시 명령·매크로
skill	에이전트	필요하다고 판단할 때 on-demand 로드	`.opencode/skills/`, `~/.config/opencode/skills/`	전문 작업용 플레이북·재사용 지침
MCP	에이전트 / 호스트	외부 도구나 데이터가 필요할 때	`opencode.json`의 `mcp`	GitHub·Jira·검색기 등 외부 시스템 연결
/init	사용자	초기 설정 또는 규칙 정리 시	TUI 내장 명령	저장소 분석 후 AGENTS.md 생성·개선

참고 링크

OpenCode Docs · Rules / AGENTS.md OpenCode Docs · Commands OpenCode Docs · Agent Skills OpenCode Docs · MCP servers OpenCode Docs · TUI / init MCP Docs · Intro

11 ASIDE

여담 1. Claude Code 유출로 사람들이 알게 된 사실과 가능성

이 파트는 보안 사고의 시시비비보다, 유출 이후 커뮤니티가 무엇을 빠르게 읽어냈는가에 집중합니다. 핵심은 weights가 아니라 agent product layer가 공개됐고, 그 결과 구조 분석 · 기능 해석 · 재구현 · 로드맵 추정이 거의 실시간으로 일어났다는 점입니다.

유출로 드러난 사실

노출된 것은 주로 Claude Code의 TypeScript 제품 코드였고, 초점은 모델 자체보다 CLI · orchestration · tool wiring · feature flags · 운영 로직에 있었습니다.
즉 경쟁력의 상당 부분이 이제 weights만이 아니라 agent harness와 product layer에 있다는 사실이 더 선명해졌습니다.
커뮤니티는 대규모 코드베이스를 빠르게 읽어내며 memory 구조, 세션 운영 방식, 장시간 실행형 workflow, 내부 기능 스위치 같은 레이어를 해석하기 시작했습니다.

왜 이 사건이 역설적으로 중요했는가

50만 줄대 제품 레이어가 공개되자, 커뮤니티와 AI가 요약 · 리포맷 · 재구성 · 부분 재구현을 매우 빠르게 진행했습니다.
이것은 현대 LLM이 단순 답변기를 넘어, 거대한 코드베이스를 분석하고 다른 형태로 옮기는 데 매우 강력하다는 점을 역설적으로 보여줍니다.
다시 말해 앞으로는 모델 가중치가 아니더라도, agent runtime과 harness 설계만 공개돼도 제품 철학과 향후 방향성이 상당 부분 읽히는 시대가 됐습니다.

사람들이 읽어낸 가능성

상시 실행형 background agent에 가까운 운영 방식이 더 중요해질 수 있다는 점입니다. 세션은 답변 한 번으로 끝나는 것이 아니라, 오래 살아 있으면서 상태를 이어받는 쪽으로 갑니다.
멀티 에이전트 협업도 더 강화될 가능성이 큽니다. 단일 세션보다 여러 에이전트가 역할을 나누고, 서로 메시지를 주고받으며, 작업을 병렬로 진행하는 방향이 더 뚜렷해졌습니다.
툴 실행 → 상태 모니터링 → 결과 수집 → 후속 작업 재개의 폐루프도 더 정교해질 가능성이 큽니다. 즉 에이전트는 호출형이 아니라 운영형 시스템으로 이동합니다.

현재 공식 문서와 연결해서 보면

공식 문서에는 이미 Agent Teams, Remote Control, Channels, scheduled tasks, PR status monitoring 같은 흐름이 드러나 있습니다.
Channels는 Telegram · Discord · iMessage · webhooks · monitoring events를 세션에 밀어 넣는 구조를 설명하고, Agent Teams는 에이전트 간 직접 메시징과 공유 task list를 설명합니다.
따라서 앞으로는 메신저로 세션을 제어하고, 멀티 에이전트 간 커뮤니케이션을 강화하며, 외부 이벤트와 모니터링 결과를 받아 다음 작업을 이어가는 운영형 에이전트가 더 강화되는 방향으로 읽는 것이 자연스럽습니다.

한 줄 요약: Claude Code 유출은 단순 유출 사건을 넘어, 사람과 LLM이 agent product layer를 거의 실시간으로 해석·재구성하고 미래 기능까지 추론하는 시대가 왔음을 보여준 사례였습니다.

참고 링크

Business Insider · workflow revelation / Python recreation Claude Code Docs · Overview Claude Code Docs · Agent Teams Claude Code Docs · Channels Claude Code Docs · Remote Control

12 ASIDE

여담 2. Harness Engineering 요약과 출처

Harness engineering은 에이전틱 코딩을 잘 하도록 “파이프라인 하나를 짜는 일”보다 더 넓습니다. 더 정확히는 모델이 실제로 일을 끝내도록 state · prompts · tools · permissions · memory · verification · observability · retry loop · artifact handoff를 설계하는 시스템 설계·운영 practice입니다.

핵심 개념

    Model = intelligence
    Harness = state + tools + constraints + feedback loops
    파이프라인 설계는 일부, 운영 설계가 본체
  

항목	쉽게 말하면
State / Memory	긴 작업이 끊겨도 이어서 할 수 있게 남기는 파일, 계획, 메모, 세션 간 artifact
Tools	쉘, 테스트 러너, 브라우저, git, 코드 실행 환경, 외부 MCP 연결
Constraints / Permissions	해도 되는 것과 안 되는 것, 아키텍처 경계, 보안·품질 규칙, 승인 정책
Verification	빌드, 테스트, 로그, 영상 캡처, 비교 실행으로 스스로 확인하는 루프
Observability	사람이 진행 상황과 실패 원인을 한눈에 볼 수 있는 로그, 대시보드, 결과 파일

OpenAI가 보여준 것

OpenAI는 Codex로 0줄 수동 코드 제약 아래 내부 베타 제품을 만들었고, 약 100만 줄 코드, 약 1,500개 PR, 약 1/10 시간 수준의 생산성 향상을 소개했습니다.
핵심은 모델이 아니라 환경이었습니다. 짧은 AGENTS.md를 목차처럼 두고, 상세 지식은 저장소 문서 체계 안에 두며, custom lint와 구조 규칙으로 agent가 빠르게 움직여도 아키텍처가 무너지지 않게 만들었습니다.
결국 사람의 역할은 코드를 직접 쓰는 것보다 환경·피드백 루프·제어 시스템을 설계하는 쪽으로 이동했습니다.

Anthropic이 보여준 것

Anthropic은 장시간 작업의 핵심 문제를 여러 context window를 넘나들 때 진행이 끊기는 것으로 설명했습니다.
해결 방식은 initializer agent가 환경을 세팅하고, coding agent가 각 세션마다 다음 세션을 위한 명확한 artifact를 남기도록 하는 구조였습니다.
또 다른 글에서는 generator–evaluator 같은 멀티 에이전트 구조가 frontier agentic coding 성능을 더 끌어올릴 수 있다고 설명했습니다.

정의를 더 정확히 말하면

“에이전틱 코딩을 잘 하도록 파이프라인을 설계하는 방법론”이라는 표현도 크게 틀리지는 않지만, 더 정확히는 모델이 실제로 일을 끝내게 만드는 상태·도구·검증·관찰성·제약·아티팩트 흐름 전체를 설계하는 시스템 설계·운영 방식이라고 보는 편이 맞습니다.

왜 지금 중요해졌는가

agent가 한 번에 끝나는 답변형에서 장시간 실행형으로 넘어갔기 때문입니다.
문제는 추론 자체보다 상태 유지 · 재시도 · 도구 사용 · 실패 복구 · 사람 승인에서 더 자주 생깁니다.
따라서 앞으로의 경쟁력은 prompt 문장 하나보다 harness 설계 능력에서 갈릴 가능성이 큽니다.

참고 링크

OpenAI · Harness engineering: leveraging Codex in an agent-first world OpenAI · Unlocking the Codex harness Anthropic · Effective harnesses for long-running agents Anthropic · Harness design for long-running application development LangChain · The Anatomy of an Agent Harness

13 ASIDE

여담 3. 4월 26일 업데이트: 모델 성능 경쟁보다 비용·메모리·운영 리스크가 더 중요해진다

이번 업데이트의 결론은 단순히 “GPT-5.5가 더 좋아졌다”가 아닙니다. 프론티어 모델 성능은 계속 오르고, GLM-5.1 같은 오픈 모델도 빠르게 추격하지만, 동시에 API 비용·구독 한도·DRAM/NAND 공급·로컬 장비 수요가 모두 압박 요인으로 바뀌고 있습니다.

1) GPT-5.5: 에이전트형 업무의 새 기준

OpenAI 공식 발표와 AI타임스 보도 기준으로 GPT-5.5는 2026년 4월 23일 ChatGPT와 Codex 유료 사용자에게 배포됐고, API는 안전·보안 요건을 거쳐 곧 제공될 예정입니다.

핵심 benchmark: Terminal-Bench 2.0 82.7%, SWE-Bench Pro 58.6%, Expert-SWE 73.1%, GDPval 84.9%, OSWorld-Verified 78.7%.

2) GLM-5.1: 오픈 모델이 실전 코딩을 위협

GLM-5.1은 Z.AI 문서상 2026년 4월 7일 릴리스로 표시되며, 관련 자료는 3월 27일 초기 접근 이후 4월 benchmark 업데이트를 함께 설명합니다. 첨부 벤치마크 기준 SWE-Bench Pro 58.4로 GPT-5.4와 Claude Opus 4.6을 근소하게 앞섭니다.

다만 HLE no-tools, GPQA, 일부 terminal/browser 지표에서는 여전히 Gemini/GPT/Claude 상위 모델이 앞서는 영역이 있습니다.

3) 로컬 LLM 수요: 메모리 시장까지 연결

고메모리 Mac mini와 Mac Studio 품절/장기 배송 보도는 로컬 에이전트 실행 수요가 실제 하드웨어 수급에 반영되는 신호입니다. AI 데이터센터 수요는 DRAM/NAND 가격과 납기에도 압력을 줍니다.

하드웨어 관점에서는 local/cloud 선택보다 routing, 캐시, 장시간 실행, 로그/검증, 내부 승인 체계를 함께 설계해야 합니다.

GPT-5.5 비용 리뷰: 성능은 올랐지만 단가도 2배

OpenAI 공식 API 가격표 기준 GPT-5.5는 GPT-5.4보다 입력·캐시 입력·출력 단가가 모두 정확히 2배입니다. 모델이 더 토큰 효율적일 수는 있지만, 장시간 agentic workflow에서는 호출 횟수와 tool loop가 늘어 총비용이 빠르게 커질 수 있습니다.

모델	입력 / 100만 토큰	캐시 입력 / 100만 토큰	출력 / 100만 토큰	해석
GPT-5.4	US$2.50	US$0.25	US$15.00	2026년 3월 기준 프론티어 업무 모델의 기준선.
GPT-5.5	US$5.00	US$0.50	US$30.00	GPT-5.4 대비 2배. 에이전트 코딩·전문 업무 성능 향상과 함께 가격도 상승.
GPT-5.5 Pro 예정	US$30.00	-	US$180.00	가장 어려운 연구·전문 업무용. 일반 자동화 파이프라인의 기본값으로 쓰기에는 비용 관리가 핵심.

무제한 요금제는 점점 압박받는다

OpenAI의 ChatGPT 책임자는 빠르게 발전하는 기술에서 가격 구조가 그대로 유지될 수 없다는 취지로 설명했고, 보도들은 “unlimited” 플랜이 사용량 기반·단계형 한도로 이동할 가능성을 다뤘습니다.
Anthropic 공식 도움말도 Claude 사용량은 모든 표면에서 같은 사용 한도에 집계되며, Pro/Max/Team에도 사용량 한도가 있다고 설명합니다.
TechCrunch는 Claude Code heavy user들이 200달러 Max 플랜에서도 갑작스러운 제한을 경험했다고 보도했습니다. 이는 fixed subscription이 고강도 agentic coding 사용을 영구히 감당하기 어렵다는 신호입니다.

4월 26일 업데이트 참고 링크

OpenAI · Introducing GPT-5.5 AI타임스 · GPT-5.5 benchmark review YouTube · GPT-5.5 리뷰 영상 Z.AI Docs · GLM-5.1 release DogDrip · GLM-5.1 정리 Serenities AI · GLM-5.1 benchmarks Vietnam.vn · Mac mini 품절 ZNews · Mac mini / local AI demand OpenAI · API pricing Moneycontrol · unlimited pricing pressure Anthropic · Claude usage limits TechCrunch · Claude Code limits YouTube · AI subsidy economy discussion

14 ASIDE

여담 4. 4월 27일 업데이트: GitHub Trending 상위 10개 레포가 보여주는 agentic coding 흐름

2026년 4월 27일 기준 GitHub Trending Today 페이지에서 보이는 상위 10개 실제 레포를 간단히 정리했습니다. 눈에 띄는 점은 skills, code intelligence, agent memory, Claude/Codex workflow, multi-agent framework처럼 에이전트 실행 환경을 보강하는 레포들이 상단에 많이 올라왔다는 점입니다.

GitHub Trending Today TOP 10 간단 요약

순위	레포	무엇을 하는가	agentic coding 관점
1	mattpocock / skills	Claude/Codex류 에이전트가 재사용할 수 있는 실전형 skill 모음입니다.	프롬프트를 매번 새로 쓰는 대신, 작업 절차를 skill artifact로 축적하는 흐름을 보여줍니다.
2	abhigyanpatwari / GitNexus	브라우저 안에서 GitHub repo나 ZIP을 지식 그래프로 만들고 Graph RAG agent로 탐색하는 코드 인텔리전스 도구입니다.	코드베이스를 agent가 읽기 좋은 graph/context로 바꾸는 harness layer 사례입니다.
3	ComposioHQ / awesome-codex-skills	Codex CLI와 API에서 워크플로를 자동화하는 실전형 Codex skill 모음입니다.	repo-local skill과 반복 가능한 agent 작업 절차가 하나의 지식 자산으로 쌓이는 흐름을 보여줍니다.
4	Alishahryar1 / free-claude-code	터미널, VS Code 확장, Discord 경로에서 Claude Code와 비슷한 사용 경험을 제공하려는 도구입니다.	coding agent UI가 IDE 하나에 묶이지 않고 터미널·채팅·확장으로 퍼지는 흐름입니다.
5	gastownhall / beads	코딩 에이전트에 장기 기억과 작업 상태를 보강하려는 도구입니다.	장시간 작업에서 context window 바깥의 memory/state 관리가 핵심 문제가 되고 있습니다.
6	penpot / penpot	디자인과 코드 협업을 위한 오픈소스 디자인 도구입니다.	designer agent와 engineer agent가 같은 산출물을 두고 검토하는 협업 파이프라인과 잘 맞습니다.
7	davila7 / claude-code-templates	Claude Code 환경을 설정하고 모니터링하기 위한 CLI 템플릿 도구입니다.	agent coding이 단발 프롬프트가 아니라 템플릿, 설정, 모니터링으로 운영되는 방향을 보여줍니다.
8	microsoft / VibeVoice	오픈소스 음성 AI 모델/도구를 제공하는 프로젝트입니다.	coding agent의 입력·피드백 채널이 텍스트를 넘어 음성 인터페이스로 확장될 수 있음을 보여줍니다.
9	Z4nzu / hackingtool	여러 보안 테스트 유틸리티를 한곳에 모은 all-in-one 보안 도구 모음입니다.	에이전트가 보안 점검을 할 때도 도구 권한·범위·합법적 테스트 경계가 중요하다는 점을 상기시킵니다.
10	TauricResearch / TradingAgents	여러 LLM agent가 금융 시장 분석과 의사결정을 나누어 수행하는 trading framework입니다.	planner, analyst, reviewer처럼 역할별 agent가 상호 검토하는 multi-agent 설계 패턴과 직접 맞닿아 있습니다.

4월 27일 GitHub Trending 참고 링크

업데이트 변경 로그

현재 표시 중인 버전의 변경 내용을 불러오는 중입니다.

이전 버전 대비 변경점

반영된 뉴스 / 근거 링크

의견 게시판

AI, agentic coding, harness engineering, 하드웨어 엔지니어 관점의 의견을 남겨주세요. 수정/삭제는 등록 비밀번호로 가능합니다.

새 의견 남기기

버전별 의견

현재 버전에 대한 의견을 불러오는 중입니다.

GPT-3에서 GPT-5.5까지: “텍스트 생성기”에서 “실행 가능한 에이전트”로

불과 6년 만에, LLM은 이렇게 바뀌었습니다

주요 모델과 전환점

OpenAI 공개 지표 기준: 주요 모델 비교 그래프

1) 음성 상호작용 지연 시간

2) Simulated bar exam percentile

3) Coding benchmark: SWE-bench Verified / Pro

4) Knowledge work: GDPval

5) Computer use: OSWorld-Verified

6) Terminal coding: Terminal-Bench 2.0

GDPval, OSWorld, SWE-bench를 쉬운 말로 번역하면

GDPval = 직장 업무 산출물 시험

OSWorld-Verified = 컴퓨터를 실제로 다루는 시험

SWE-bench = 실제 GitHub 이슈 해결 시험

2026년 4월 26일 업데이트: GPT-5.5와 GLM-5.1이 의미하는 것

GPT-5.5: 챗봇보다 에이전트 업무에 초점

GLM-5.1: 오픈 모델의 코딩 추격

7) 글로벌 수학 reasoning: AIME 2025

8) 글로벌 종합 추론: Humanity's Last Exam

9) 과학 지식 benchmark: GPQA 공개 수치

10) HyperCLOVA X vs Qwen | 한국어 reasoning

11) HyperCLOVA X vs Qwen | coding & math

12) HyperCLOVA X vs Qwen | 학습 비용 공개치

사람 기준으로 번역한 성능: 전문직·박사·숙련 사용자·프론티어 연구자

① 전문직 시험 상위권

② 박사급 과학 Q&A

③ 숙련 사용자급 컴퓨터 조작

④ 교수·연구자 작성 프론티어 문제셋

GPQA: 박사급 과학 Q&A

OSWorld: 숙련 사용자급 컴퓨터 작업

HLE: 교수·연구자 작성 프론티어 문제셋

핵심 자료 링크

LLM은 어떻게 동작하는가? — 입력을 토큰화하고 문맥을 계산해 다음 토큰을 생성한다

학습 단계의 기본 메커니즘 · 용어 설명 링크

Transformer가 문맥을 계산하는 방식

LLM의 최소 동작 그림: 학습과 추론

1) Tokenization

2) Embedding

3) Transformer Blocks

4) Output Head

5) Autoregressive Loop

이미지로 보는 LLM 내부 동작

1) Token Embeddings

2) Positional Encoding

3) Masked Self-Attention

4) Output Logits → Next Token

학습 단계

추론 단계

CNN: 구조적 편향의 첫 번째 강한 사례

RNN / LSTM: 순서를 기억하는 모델

Transformer / LLM: 문맥 전체를 한 번에 보는 모델

현대 성능 점프의 실제 이정표

McCulloch & Pitts

Rosenblatt Perceptron

Backpropagation

Transformer

Scaling Laws

Chinchilla + InstructGPT

왜 성능이 이렇게 좋아졌는가?

핵심 자료 링크

Local LLM vs Cloud LLM: 2024→2026 트렌드 변화와 권장 구성

2024 → 2025 → 2026: Local vs Cloud 트렌드 변화

2024 | Cloud LLM이 대세

2025 | 로컬 실험 관심이 급증

2025 | 실전은 다시 Hybrid/Cloud

2026 | 변화 포인트

2026년 4월 관찰: Mac mini 품절은 로컬 LLM 수요의 실물 신호

로컬 에이전트 장비 수요

DRAM/NAND 공급 압박

하드웨어 전략 변화

Cloud LLM이 잘하는 영역

Local LLM이 잘하는 영역

추천 기본값: Hybrid

권장 아키텍처

1) 사용자 입력

2) Local Layer

3) Router

4) Cloud Frontier Model

5) Approval / Audit

어떤 업무를 어디에 둘 것인가?