LLM | 기록실

코드 리뷰용 LLM 벤치마크: 로컬 vs Cloud

Ollama로 돌린 오픈소스 LLM 4종과 GPT-4o, Claude Sonnet 4의 코드 리뷰 성능을 직접 비교해봤습니다.

Ollama에 동시에 여러 요청이 들어오면 어떻게 되는가? OLLAMA_NUM_PARALLEL 설정별 throughput과 TTFT를 실측 데이터로 비교하고, 프로덕션 동시 처리 최적화 전략을 정리합니다.

Ollama의 첫 요청에 수백 밀리초~수 초(환경에 따라 수십 초 이상)가 걸리는 이유를 내부 파이프라인 수준에서 분석하고, 실측 데이터로 Cold Start와 Warm Start의 차이를 확인한 뒤 해결 방법까지 정리합니다.

Ollama로 로컬 LLM을 운영할 때 실제 메모리가 얼마나 필요한지, 모델 크기별·양자화별·컨텍스트별 실측 데이터로 분석하고 프로덕션 메모리 산정 가이드를 정리합니다.

LLM이 토큰을 하나씩 생성하는 원리, GPU 메모리에 모델을 올리는 이유, 메모리 대역폭이 성능을 결정하는 구조, 그리고 클라우드 LLM 서빙 인프라까지 — 로컬부터 GPT/Claude급 서비스까지 관통하는 핵심 개념을 정리합니다.