// AI · 2026.07.03

로컬 LLM 서버 구축에 대한 고민

LENGTH · 2,560자

최근 AI 산업은 브레이크 없는 기관차처럼 폭발적으로 성장하고 있어요.

그만큼 AI는 삶에 혁신을 가져왔고, 이제 AI 없는 삶은 상상조차 하기 힘들 정도죠.

저는 ChatGPT 3.5 부터 본격적으로 AI를 이용했었어요.

환각도 많고, 기능도 단순한 수준이였으나, 마치 인간처럼 대답하고 어떤 일을 해내려고 시도한다는 것 자체가 놀라웠죠.

그리고 현재, AI는 이제 챗봇을 넘어 스스로 인터넷을 검색해 원하는 정보를 가져다주고, 제가 할 일을 대신 처리하는 수준까지 왔어요.

이러한 시점에 저에게 굉장히 매력적으로 다가온 것이 있었으니…

Hermes Agent

바로 Hermes Agent 에요. 한국어로는 헤르메스라고 써야 하는지 에르메스라고 써야 하는지는 잘 모르겠지만..

Nous Research에서 만든 자율 에이전트인데, 그 자체로는 기능이 없어요. 왜냐면 뇌 역할을 할 AI를 붙이지 않았으니까요.

Hermes Agent를 설치한 다음 AI(Claude, ChatGPT, Gemini 등..)와 연결하면 본격적인 작동을 시작하게 되어요.

그렇다면 Hermes Agent가 대체 왜 좋냐고 물으실 수도 있어요.

다른 에이전트와는 다르게, Hermes Agent는 스스로 똑똑해지는 기능이 기본적으로 탑재되어 있거든요.

사용자의 입력과 자신의 결과물에서 스스로 해결방안(스킬)을 만들고, 그걸 개선하며 점차 사용자에 맞게 발전해요.

이 친구를 이용하면 제가 하기 귀찮은 작업들을 어느정도 자동화 할 수 있겠다는 생각에서 이 프로젝트를 시작하게 되었어요.

문제점

하지만 제 프로젝트는 곧 하나의 난관에 봉착하게 되어요. 바로 상용 AI 서비스의 사용량 문제에요.

기존 AI 서비스들은 구독만 하면 한 달에 일정량까지 쓸 수 있게 해 주잖아요?

하지만 Hermes Agent 와 같은 자율 에이전트 서비스에는 구독 서비스를 쓸 수 없어요.

쓴 만큼 돈을 내야 하는 API KEY 방식을 사용해야 한다고 해요.

원래는 구독으로도 가능했는데, 자율 에이전트가 유명해지면서 사용량이 폭주하니 급하게 정책을 바꿨다는 모양이에요.

이래서 몇 가지 문제가 생겼었는데…

첫 번째는 사용량 소진 문제에요. 설계를 잘못 하면 에이전트가 순식간에 결제한 크레딧을 다 소진하고 작동을 정지해버려요.

이거 때문에 허공에 날아간 돈이 꽤 되는 것 같아요… 하지만 그렇다고 작동 테스트를 안 할 수도 없는 노릇이니 난감하여요.

두 번째는 작동 중지 문제에요. 사실 첫 번째 문제로 인해 발생하는 문제인데..

일 처리를 자동으로 하는 공장들을 만들어놓았는데, 공장이 일을 너무 열심히 하고 구독 사용량을 소진해버린 거에요.

그건 크레딧을 새로 사서 보충해주면 그만이지만, 문제는 현재 상황을 파악해야 할 메인 에이전트마저 같은 크레딧 사용량을 공유한다는 점에서 발생했어요.

현재 일은 어디까지 처리되었는지, 문제가 있는지, 다른 일 시키고 싶은데 가능한지 등을 물어보려고 해도.. 메인 AI마저 뻗어버리니..

항상 제 응답을 처리해야 하는 에이전트가 자기 역할을 하지 못한다는 일이 발생한 것이죠.

해결책

그래서 제가 생각한 해결책은 간단해요. “상용 AI 서비스를 메인에 붙이지 말자”

로컬에서 AI를 구동하게 되면 제 하드웨어에 문제가 생기는 것을 제외하면, AI가 응답하지 않을 이유가 없죠.

사용량이 무제한이니까요.

물론 성능은 상용 AI보다 떨어질 것이고, 전기세와 소음, 냉각 수단을 생각해야 한다는 문제점은 있어요.

하지만 상용 AI 와는 달리, 서비스 잘못 만들었다고 사용료 폭탄을 맞을 필요도 없고, 서비스가 멈출 일도 없어요.

그래서 제가 생각한 방안은…

현재 가지고 있는 하드웨어로 실현가능한 가장 저렴한 플랜이자, 현재 검토하는 모든 플랜 중 가장 토큰 생성 속도가 빨라요.

저는 개인적으로 3090 한장을 가지고 있거든요. 여기에 3090 한 장을 더 추가하면 48GB VRAM 을 만들 수 있어요.

이정도면 Qwen 3.6 35B A3B 모델을 Q8로 돌릴 수 있고, MoE 모델이기 때문에 토큰 생성속도도 거의 100가까이 나올거에요.

메인 AI로 사용하기 가장 적합한 플랜이라, 다른 플랜과 같이 쓰게 되지 않을까 싶기도 해요.

Mac Studio : 64~512GB

이번에 기습적으로 애플에서 가격을 왕창 올리는 바람에 가성비가 매우 안 좋아진 플랜이지만..

원래는 통합메모리 512GB 모델을 1300만원 정도에 구할 수 있었다고 해요.

만약 그 때 샀으면 가장 가성비가 좋은 플랜이 아니였을까 싶지만요..

하지만 애플 제품 특유의 중고가 방어가 잘 된다는 점을 이용하면 나름 괜찮은 선택지일지도 몰라요.

일단 10월에 M5 탑재 모델이 나오는 걸 보고 결정해야 하지 않을까 싶어요.

DGX Spark : 128GB

원래는 가성비가 그리 좋은 플랜은 아니였는데, 애플에서 가격을 인상하는 바람에 사실상 가성비가 동급이 되어버렸어요.

둘 다 128GB 모델이라고 하면 대략 700~800만원 사이로 신품을 살 수 있는 것 같아요.

애플 제품보다 메모리 대역폭이 낮아 토큰 생성 속도가 느리다는 단점은 있지만..

가장 큰 장점은 CUDA 를 지원한다는 점이에요. 이미지 생성이나 OCR 등, 특정 부분에 특화된 AI도 잘 돌릴 수 있고요.

그리고 소소한 장점인데, DGX Spark는 두 기기를 하나로 묶어서 마치 256GB 메모리를 가진 것 처럼 쓸 수 있어요.

쓸 일이 있을지는 모르겠지만, 만약 DGX Spark 기반 시스템을 구성했을 때, 더 큰 파라미터를 가진 모델을 구동하고자 한다면

나름 괜찮은 옵션이 되지 않을까 싶군요.

AMD Ryzen AI MAX : 64~192GB

가장 최후의 옵션이에요. 사실 현 시점에서 메모리 용량 대비 가격만 따지면 가장 나은 선택지긴 한데.. 장점이 없어요.

맥은 MLX 모델을 쓸 수 있고, DGX Spark 는 CUDA 를 지원하는데, AMD의 RoCM 은 최적화도 덜 되어있단 말이죠.

정말로 파라미터가 큰 모델을 돌리고 싶은데 돈이 없어야만 선택할 수 있는 옵션이지 않을까 싶어요.

정리

그래서 현 시점 고려하는 옵션은 다음과 같아요. 3090 NVLINK + 고용량 메모리 옵션.

왜냐하면 3090 쪽 옵션은 굉장히 빠른 토큰 생성속도를 가지고 있기 때문에 메인 응답 AI로 적절하고,

CUDA 를 지원하기 때문에, 정 필요하다면 여기에 올릴 수도 있거든요.

다만 제가 몇번 써 보니까 과학 실력이 영 좋지는 못해서, 파라미터가 더 높은 모델을 구동할 필요성이 있더라고요.

그래서 이를 보완하기 위해 고용량 메모리 옵션(Mac Studio, DGX Spark, AMD Ryzen AI) 하나는 필요할 것 같아요.

물론 역시나 가장 중요한건 돈이죠. 돈만 있으면 더 좋은 옵션을 찾을 수 있을지도 몰라요. RTX 6000 같은 것..