🤖나노 바나나 프로!월 2만원 아끼세요! 나노 바나나 프로로 나만의 챗GPT 만들기 (로컬 LLM 도커 설정 완벽 가이드)

프롤로그: 로컬 LLM, 이제 선택이 아닌 필수!

2025년 11월, AI는 일상이 되었습니다. 하지만 ChatGPT 같은 외부 서비스를 쓰자니 매월 구독료와 개인 정보 유출 걱정 ❌ 이 따라옵니다.

해결책은 바로 ‘로컬 LLM’입니다. 나노 바나나 프로(NBP)의 강력한 칩셋과 **전용 NPU(AI 가속기)**를 이용해 인터넷 없이도 나만의 AI 비서를 가질 수 있습니다.

🌟 NBP의 장점: 외부 서버 대신 집 🏠 에서 AI를 돌리므로, 내 질문이나 데이터가 외부로 유출될 염려가 전혀 없습니다.

1. 시작하기 전 준비물 체크: 왜 도커(Docker)를 써야 하나요?

NBP에 LLM을 구동하는 가장 쉬우면서도 ‘프로다운’ 방법은 도커를 이용하는 것입니다.

도커란? 복잡한 서버 프로그램을 **하나의 상자(컨테이너)**에 담아 충돌 없이 실행시켜 주는 가상화 기술입니다.
장점: 운영체제(OS) 환경이 달라도 어디서든 실행 가능하며, 설치와 삭제가 매우 깔끔합니다.

🛠 필수 준비 사항

NBP 기본 세팅 완료: 이전 가이드대로 NBP에 리눅스 OS와 도커가 설치되어 있어야 합니다.
충분한 RAM과 저장 공간: 최소 8GB RAM, NVMe SSD에 20GB 이상의 여유 공간이 필요합니다. (모델 파일 크기 때문)

2. 🔌 1단계: NPU 드라이버와 도커 연동 확인 (Deep Dive)

2025년형 NBP의 핵심은 NPU입니다. NPU를 LLM 구동에 사용하려면, 도커가 NPU 하드웨어에 접근할 수 있도록 권한을 설정해야 합니다.

– NPU 드라이버 확인 명령어

Bash

# NBP 시스템에서 NPU 드라이버가 인식되었는지 확인
ls /dev/ | grep nna

💡 확인 결과: 위 명령어로 nna0 또는 이와 유사한 장치 파일이 출력되어야 합니다. 파일이 있다면, 도커 명령어에 NPU 접근 옵션을 추가할 준비가 된 것입니다.

3. 💾 2단계: 로컬 LLM 구동 엔진 ‘Ollama’ 설치 및 실행

Ollama는 로컬 LLM 구동을 가장 쉽게 도와주는 컨테이너입니다. 다양한 소형 LLM 모델들을 쉽게 다운로드하고 실행할 수 있습니다. NBP의 ARM 아키텍처를 공식 지원합니다.

① Ollama 컨테이너 실행 명령어

터미널(SSH)에 접속하여 다음 명령어를 입력합니다.

Bash

docker run -d \
  -v /home/user/.ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  --restart always \
  --device /dev/nna0:/dev/nna0 \
  ollama/ollama

명령어 설명 (핵심)

-v ...: 호스트(NBP)와 컨테이너 간에 모델 파일을 공유합니다. (모델을 한 번만 다운로드하도록)

-p 11434:11434: 외부에서 접속할 수 있도록 포트(11434)를 엽니다.

--device /dev/nna0:/dev/nna0: 🔌 NPU를 도커 컨테이너 내부로 연결하는 핵심 옵션입니다. 이 옵션이 없으면 NPU가 아닌 느린 CPU로만 연산됩니다.

② Ollama 컨테이너 접속 확인

Bash

docker logs ollama

로그에 오류가 없다면, Ollama 컨테이너가 정상적으로 실행된 것입니다.

4. 🧠 3단계: 나노 바나나 프로에 최적화된 모델 다운로드

이제 Ollama 내부에서 사용할 경량화된 LLM을 선택하고 다운로드합니다. NBP의 RAM 용량(8~16GB)에 맞는 모델을 선택해야 합니다.

① 컨테이너 내부로 진입

Bash

docker exec -it ollama bash

② 소형 LLM 모델 다운로드 및 실행

NBP와 같은 저전력 장치에는 Q4 또는 Q5 (4~5비트 양자화) 모델이 적합합니다. (양자화 모델은 성능 손실을 최소화하면서 크기를 줄인 모델입니다.)

Bash

# TinyLlama 1.1B 모델을 다운로드하고 실행하는 예시
ollama pull tinyllama
# 실행 및 대화 시작
ollama run tinyllama

결과: 🖥 이제 SSH 터미널에서 로컬 AI와 대화를 시작할 수 있습니다. (인터넷 연결 필요 ❌)

5. 🏠 4단계: 웹 인터페이스(Web UI) 연결

터미널에서 대화하는 것은 불편합니다. ChatGPT처럼 웹 브라우저에서 대화할 수 있도록 웹 UI를 추가로 설치합니다.

– Web UI 컨테이너 설치 (Open WebUI 등)

Open WebUI 같은 웹 프런트엔드 툴을 설치하면, NBP의 IP 주소를 통해 마치 ChatGPT처럼 깔끔한 환경에서 AI를 이용할 수 있습니다.

Bash

# Web UI 컨테이너 실행 명령어 (별도 포트 3000 사용 예시)
docker run -d \
  -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  --name webui \
  --restart always \
  ghcr.io/open-webui/open-webui:latest

최종 접속: 웹 브라우저 주소창에 http://[NBP의 IP주소]:3000 을 입력하면 나만의 AI 비서 화면이 나타납니다.

6. ❌ 문제 해결 및 성능 최적화

문제 상황	원인	해결책
모델 로딩 중 멈춤	RAM 용량 부족 (OOM: Out Of Memory)	더 작은 크기의 Q4 양자화 모델을 사용하거나, 스왑(Swap) 메모리를 설정합니다.
속도가 너무 느림	NPU 옵션 누락 또는 드라이버 오류	`--device /dev/nna0...` 옵션을 빠뜨리지 않았는지 다시 확인합니다.
컨테이너 접속 불가	방화벽(UFW) 또는 포트 충돌	NBP의 리눅스 방화벽(UFW)에서 11434, 3000 포트를 열어줍니다.

🌟 결론: 나노 바나나 프로는 로컬 AI 시대를 여는 작지만 강력한 열쇠입니다. 이 가이드를 통해 여러분만의 프라이빗 AI 환경을 구축하고, 구독료와 정보 유출 걱정 없는 새로운 AI 경험을 시작하세요!