나는 AI에게 아무것도 설명하지 않는다
어느 수요일의 오후
오전에 세무사와 통화했다. 11시에 투자자 미팅을 했다. 점심에 지인과 밥을 먹으면서 사업 아이디어를 논의했다. 오후에 고객사 세일즈 미팅을 했다.
돌아와서 텔레그램을 열었더니, 네 건이 이미 정리되어 있었다.
세무 이슈 관련 법령과 판례 리서치. 투자자 미팅 요약과 후속 액션 리스트. 점심 대화에서 나온 아이디어의 시장 분석과 기술적 챌린지 정리. 세일즈 미팅에서 논의한 조건을 반영한 견적서 초안.
나는 네 건 중 어떤 것도 AI에게 설명한 적이 없다.
JARVIS — 내가 6개월 전부터 만들어온 AI 비서 시스템 — 가 이 대화들을 이미 듣고, 이해하고, 정리한 것이다.
이 시스템을 만들면서 풀어야 했던 문제는 두 가지였다. 그리고 진짜 어려운 건 내가 처음에 생각한 문제가 아니었다.
문제 1: 기억 — 매일 아침 첫 출근하는 비서
ChatGPT를 처음 써봤을 때 능력에는 감탄했다. 계약서 분석, 재무 모델링, 이메일 초안 — 이미 인간보다 빠르다.
그런데 실제로 일을 맡기려고 하면 벽에 부딪힌다.
“이 회사랑은 지금 NDA 단계고, 담당자는 김 이사인데 지난주 미팅에서 일정이 밀렸고, 우리 쪽 법무팀은 검토 중이고…”
내 머릿속에 있는 맥락을 매번 처음부터 전달해야 한다. 대화가 리셋되면 또 처음부터. 어제 설명한 거 오늘 또 설명하고, 한 시간 전에 알려준 거 다시 알려주고.
비유하자면, 노벨상 수상자에 온갖 자격증을 보유한 사람이 매일 아침 기억을 잃는 것이다. 능력은 압도적인데 오늘도 첫 출근이다.
이 사람에게 일을 시키려면 두 가지 중 하나다:
- 매번 모든 맥락을 설명한다 (= 금방 지침)
- 기억을 잃어도 맥락을 복원할 수 있는 구조를 만든다
나는 2번을 택했다.
기억을 두 층으로 나눈다
AI에게 “내 모든 맥락을 로드해”라고 하면 좋겠지만, 한 번에 처리할 수 있는 정보량에 물리적 한계가 있다. 6개월치 대화와 100개의 문서를 한꺼번에 넣을 수 없다.
그래서 기억을 두 층으로 분리했다.
단기 기억 — 오늘과 어제의 업무 기록. 진행 중인 딜, 오늘 한 일, 주요 인맥 메모. 매 세션마다 자동으로 로드된다. 비유하자면 책상 위에 펼쳐놓은 오늘의 업무 노트.
장기 기억 — 회사 정보, 재무제표, 계약서, 미팅 노트, 리서치 결과 등 모든 지식. 매번 전부 로드하지 않고, 필요할 때 로컬 검색 엔진(QMD)으로 찾아서 꺼낸다. 비유하자면 서재에 꽂힌 자료집.
전부 마크다운 파일이다. AI가 가장 잘 읽는 포맷이고, 검색에도 최적화되어 있고, 사람이 읽기에도 좋다. PDF나 엑셀은 전부 Markitdown으로 변환해서 저장한다.
새 세션이 시작되면 단기 기억을 로드해서 현재 상황을 파악하고, 추가 맥락이 필요하면 장기 기억에서 검색한다.
완벽하진 않지만, 매번 처음부터 설명하는 것과는 차원이 다르다.
여기까지가 기억 문제의 해결이다. 이 부분은 이미 잘 알려진 프랙티스이기도 하다. RAG, memory system, 벡터 DB — 방법은 다양하고, 관련 글도 많다.
그런데 6개월 써보니, 기억은 진짜 문제가 아니었다.
문제 2: 싱크 비용 — 아무도 안 이야기하는 진짜 병목
기억 구조를 갖춰도 한 가지가 해결이 안 됐다. AI에게 맥락을 전달하는 비용.
미팅이 끝나면 AI에게 설명해야 한다. “방금 A회사 대표랑 통화했는데, 할인율을 5% 더 요청했고, 대신 계약 기간을 2년으로 늘리기로 했어.” 이걸 매 통화, 매 미팅, 매 대화 후에 반복한다.
이 비용이 얼마나 큰지 직접 겪어봐야 안다.
회의 끝나고 AI한테 30분 브리핑하면, 그건 비서가 아니라 보고 대상이 하나 늘어난 것이다. 직접 하는 게 빠르다는 생각이 드는 순간, AI 비서는 실패한 거다.
나는 이 비용을 0으로 만들기로 했다.
원리는 단순하다. 내가 누군가와 대화하면, AI도 그 대화를 안다.
텍스트 채널
JARVIS는 10분마다 내 이메일, 텔레그램, 카카오톡, 문자를 확인한다. 새 메일이 오면 중요도를 판단해서 알림을 주고, 내가 보낸 메일도 읽어서 맥락을 동기화한다. 나와 외부 사이에 오간 모든 텍스트를 JARVIS가 자동으로 파악한다.
음성 채널
통화나 미팅이 시작되면 Plaud 녹음기 버튼을 누른다. Plaud가 녹음 → 자동 전사 → 이메일로 전송하면, JARVIS가 그 전사록을 발견한다.
여기서 중요한 건, 그냥 저장하는 게 아니라는 것이다. 기존에 쌓인 맥락을 기반으로 어떤 미팅이었는지 파악하고, 참여자를 식별하고, 전사록 오류를 수정하고, 요약을 직접 재작성한다. Plaud 자동요약은 맥락을 모르니 오류가 많다. JARVIS는 맥락을 아니까 훨씬 정확하다.
결과
이 두 채널이 연결되면, 내가 따로 설명할 게 없어진다.
“오전에 통화한 거 기반으로 견적서 업데이트해줘.”
이 한 줄이면 된다. 통화 내용도 알고, 이전 견적서도 알고, 히스토리도 안다. “일을 시키기 위한 일”이 사라진다.
절대 타협하지 않은 원칙: read-only
모든 외부 채널에 대해 JARVIS는 읽기만 가능하다. 내 이름으로 이메일을 보내거나, 메시지를 삭제하는 건 구조적으로 불가능하게 만들었다.
AI에게 권한을 주는 건 편의성이 아니라 신뢰의 문제다. 내가 잠든 사이에도 돌아가는 시스템이라면, 그 시스템이 할 수 없는 일의 범위를 먼저 정해야 한다.
기억 + 싱크 = 맥락. 이제 여러 업무가 동시에 돌아간다
기억이 있고 + 싱크가 되면, 어떤 일이 벌어지는가.
다시 수요일 오후로 돌아가보자.
아침에 세무사한테 전화가 왔다. 새로운 세무 이슈. 통화가 끝나자마자 JARVIS가 관련 법령과 판례를 리서치해서 정리해뒀다. 내가 시킨 게 아니다. 통화 내용에서 이슈를 파악하고, 선제적으로 움직인 것이다.
11시에 투자자 미팅. 미팅이 끝나니 요약과 후속 액션이 이미 정리되어 있었다. 상대방이 한 말, 우리가 답한 내용, 다음에 확인해야 할 사항까지.
점심에 지인과 밥을 먹으면서 새로운 사업 아이디어가 나왔다. 돌아오니 JARVIS가 이미 대화 내용을 캐치해서 아이디어를 구조화하고 있었다. 시장 규모, 경쟁사, 기술적 챌린지까지 정리해서 “이런 부분은 검증이 필요합니다”라고 질문을 던졌다.
오후에 고객사 세일즈 미팅. 할인 조건을 협의했다. 미팅이 끝나니 논의된 조건이 이미 정리되어 있었다.
저녁 약속으로 향하는 택시 안에서 고객사 실무자에게서 전화가 왔다. 후속 자료를 요청했다. JARVIS가 구글 드라이브에서 견적서 템플릿을 다운로드해 수정하고, 제안서 HTML 파일을 수정한 뒤 PDF로 출력한 다음 이메일 초안까지 작성해 텔레그램으로 보고했다.
나는 모바일로 확인한 뒤 발송 완료.
그리고 이 네 가지 — 세무 이슈, 투자자 미팅, 사업 아이디어, 세일즈 건 — 를 동업자에게 공유해야 한다.
md 파일 하나 보내면 끝이다.
각 건의 요약, 맥락, 내 판단, 다음 스텝이 이미 정리되어 있으니까. 따로 요약할 필요 없고, 기억을 더듬을 필요 없고, 문서를 찾아헤맬 필요 없다.
이게 기억만 해결했을 때는 안 되는 일이다. 기억이 있어도 통화 내용을 내가 직접 옮겨야 하면, 결국 각 건마다 입력 비용이 발생한다. 싱크가 자동이니까 맥락이 끊기지 않고, 맥락이 끊기지 않으니까 여러 개가 동시에 돌아간다.
CEO의 하루 중 실제로 판단이 필요한 순간은 생각보다 적다. 대부분의 시간은 판단을 위한 맥락을 수집하고, 정리하고, 공유하는 데 쓰인다. 그 부분을 AI가 처리하면, 남는 건 판단 자체에 집중하는 것이다.
아직 완벽하지 않다
맥락 누락. 두 층 기억 구조가 완벽하지 않다. 장기 기억 검색에서 모든 맥락을 못 찾을 때가 있다. 그러면 “그때 그 미팅 기록 찾아봐”라고 추가 지시를 해야 한다.
STT(Speech-To-Text) 품질. 녹음 음질과 STT 엔진 성능 한계로 잘못 전사될 때가 있다. 그러면 JARVIS가 맥락을 기반으로 한차례 다시 리뷰하면서 품질을 개선한다.
할루시네이션. 가끔 기억에 없는 내용을 자신있게 만들어낸다. 그래서 최종 결과물은 반드시 내가 확인한다. JARVIS는 초안을 만드는 것이지, 최종 승인자가 아니다.
마지막으로 프라이버시. 녹음 기기, LLM으로 나의 모든 대화 내역이 전송되는 것이 불편하다. LLM 회사들은 강력한 사회적 감시와 규제 아래 있는 반면, 녹음 기기 스타트업은 아직 그 수준의 검증을 거치지 않아 우려가 더 크다.
이 한계들을 감안해도 순익은 명확하다. 게다가 이 문제들 모두 시간이 지나면서 개선되고 있고 앞으로 해결될 것이라 예상하기에, 지금의 한계 속에서도 효능을 극대화하게끔 내가 일하는 방식과 습관을 개편하는 쪽이 낫다.
구성과 비용
OpenClaw라는 오픈소스 프레임워크 위에 구축했다. 핵심 비용은 AI 모델 사용료 월 $200 (Anthropic Claude). 여기에 Plaud 녹음기가 추가된다. OpenClaw 자체는 무료이고, 맥북 하나면 돌아간다. 클라우드 서버는 필요 없다.
다만 이 시스템을 처음 구축하는 데 상당한 시간을 투자했다. 업무 방식을 구조화하고, 정보 저장 체계를 정하고, 채널 연동을 세팅하고. 한 번 만들어놓으면 유지보수는 적지만, 시작이 쉽지 않다.
모바일에서는 텔레그램으로 JARVIS와 대화하고, JARVIS가 만든 문서는 iCloud로 동기화된 Obsidian과 Google Drive에서 확인한다. 이동 중에도 지시하고, 보고받고, 결과물을 확인할 수 있다.
관심 있는 분은 OpenClaw를 직접 써보시길 추천한다.
이 글에서 다루지 못한 기술적 세부사항 — 메시지/카카오톡 read-only 구현, 토큰량 최적화, 전사록 후처리 파이프라인 등 — 은 기회가 되면 후속 글에서 다뤄보겠다.