프롤로그: 로컬 LLM, 이제 선택이 아닌 필수!
2025년 11월, AI는 일상이 되었습니다. 하지만 ChatGPT 같은 외부 서비스를 쓰자니 매월 구독료와 개인 정보 유출 걱정 ❌ 이 따라옵니다.
해결책은 바로 ‘로컬 LLM’입니다. 나노 바나나 프로(NBP)의 강력한 칩셋과 **전용 NPU(AI 가속기)**를 이용해 인터넷 없이도 나만의 AI 비서를 가질 수 있습니다.
🌟 NBP의 장점: 외부 서버 대신 집 🏠 에서 AI를 돌리므로, 내 질문이나 데이터가 외부로 유출될 염려가 전혀 없습니다.
1. 시작하기 전 준비물 체크: 왜 도커(Docker)를 써야 하나요?
NBP에 LLM을 구동하는 가장 쉬우면서도 ‘프로다운’ 방법은 도커를 이용하는 것입니다.
- 도커란? 복잡한 서버 프로그램을 **하나의 상자(컨테이너)**에 담아 충돌 없이 실행시켜 주는 가상화 기술입니다.
- 장점: 운영체제(OS) 환경이 달라도 어디서든 실행 가능하며, 설치와 삭제가 매우 깔끔합니다.
🛠 필수 준비 사항
- NBP 기본 세팅 완료: 이전 가이드대로 NBP에 리눅스 OS와 도커가 설치되어 있어야 합니다.
- 충분한 RAM과 저장 공간: 최소 8GB RAM, NVMe SSD에 20GB 이상의 여유 공간이 필요합니다. (모델 파일 크기 때문)
2. 🔌 1단계: NPU 드라이버와 도커 연동 확인 (Deep Dive)
2025년형 NBP의 핵심은 NPU입니다. NPU를 LLM 구동에 사용하려면, 도커가 NPU 하드웨어에 접근할 수 있도록 권한을 설정해야 합니다.
– NPU 드라이버 확인 명령어
Bash
# NBP 시스템에서 NPU 드라이버가 인식되었는지 확인
ls /dev/ | grep nna
💡 확인 결과: 위 명령어로
nna0또는 이와 유사한 장치 파일이 출력되어야 합니다. 파일이 있다면, 도커 명령어에 NPU 접근 옵션을 추가할 준비가 된 것입니다.
3. 💾 2단계: 로컬 LLM 구동 엔진 ‘Ollama’ 설치 및 실행
Ollama는 로컬 LLM 구동을 가장 쉽게 도와주는 컨테이너입니다. 다양한 소형 LLM 모델들을 쉽게 다운로드하고 실행할 수 있습니다. NBP의 ARM 아키텍처를 공식 지원합니다.
① Ollama 컨테이너 실행 명령어
터미널(SSH)에 접속하여 다음 명령어를 입력합니다.
Bash
docker run -d \
-v /home/user/.ollama:/root/.ollama \
-p 11434:11434 \
--name ollama \
--restart always \
--device /dev/nna0:/dev/nna0 \
ollama/ollama
명령어 설명 (핵심)
-v ...: 호스트(NBP)와 컨테이너 간에 모델 파일을 공유합니다. (모델을 한 번만 다운로드하도록)-p 11434:11434: 외부에서 접속할 수 있도록 포트(11434)를 엽니다.--device /dev/nna0:/dev/nna0: 🔌 NPU를 도커 컨테이너 내부로 연결하는 핵심 옵션입니다. 이 옵션이 없으면 NPU가 아닌 느린 CPU로만 연산됩니다.
② Ollama 컨테이너 접속 확인
Bash
docker logs ollama
- 로그에 오류가 없다면, Ollama 컨테이너가 정상적으로 실행된 것입니다.
4. 🧠 3단계: 나노 바나나 프로에 최적화된 모델 다운로드
이제 Ollama 내부에서 사용할 경량화된 LLM을 선택하고 다운로드합니다. NBP의 RAM 용량(8~16GB)에 맞는 모델을 선택해야 합니다.
① 컨테이너 내부로 진입
Bash
docker exec -it ollama bash
② 소형 LLM 모델 다운로드 및 실행
NBP와 같은 저전력 장치에는 Q4 또는 Q5 (4~5비트 양자화) 모델이 적합합니다. (양자화 모델은 성능 손실을 최소화하면서 크기를 줄인 모델입니다.)
Bash
# TinyLlama 1.1B 모델을 다운로드하고 실행하는 예시
ollama pull tinyllama
# 실행 및 대화 시작
ollama run tinyllama
- 결과: 🖥 이제 SSH 터미널에서 로컬 AI와 대화를 시작할 수 있습니다. (인터넷 연결 필요 ❌)
5. 🏠 4단계: 웹 인터페이스(Web UI) 연결
터미널에서 대화하는 것은 불편합니다. ChatGPT처럼 웹 브라우저에서 대화할 수 있도록 웹 UI를 추가로 설치합니다.
– Web UI 컨테이너 설치 (Open WebUI 등)
Open WebUI 같은 웹 프런트엔드 툴을 설치하면, NBP의 IP 주소를 통해 마치 ChatGPT처럼 깔끔한 환경에서 AI를 이용할 수 있습니다.
Bash
# Web UI 컨테이너 실행 명령어 (별도 포트 3000 사용 예시)
docker run -d \
-p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
--name webui \
--restart always \
ghcr.io/open-webui/open-webui:latest
- 최종 접속: 웹 브라우저 주소창에
http://[NBP의 IP주소]:3000을 입력하면 나만의 AI 비서 화면이 나타납니다.
6. ❌ 문제 해결 및 성능 최적화
| 문제 상황 | 원인 | 해결책 |
| 모델 로딩 중 멈춤 | RAM 용량 부족 (OOM: Out Of Memory) | 더 작은 크기의 Q4 양자화 모델을 사용하거나, 스왑(Swap) 메모리를 설정합니다. |
| 속도가 너무 느림 | NPU 옵션 누락 또는 드라이버 오류 | --device /dev/nna0... 옵션을 빠뜨리지 않았는지 다시 확인합니다. |
| 컨테이너 접속 불가 | 방화벽(UFW) 또는 포트 충돌 | NBP의 리눅스 방화벽(UFW)에서 11434, 3000 포트를 열어줍니다. |
🌟 결론: 나노 바나나 프로는 로컬 AI 시대를 여는 작지만 강력한 열쇠입니다. 이 가이드를 통해 여러분만의 프라이빗 AI 환경을 구축하고, 구독료와 정보 유출 걱정 없는 새로운 AI 경험을 시작하세요!