시놀로지 NAS 사진·영상 로컬 AI 자동 정리 — 태깅·자막·파일명 정규화까지 스펙별 방법 (2026)

Posted: 2026-05-01

| Updated: 2026-05-01

시놀로지 NAS를 쓰는 가장 큰 이유가 사진이랑 영상 저장이잖아요. 그런데 막상 파일이 수만 장 쌓이고 나면 찾기가 더 힘들어지는 경우가 많습니다.

Synology Photos의 얼굴 인식은 잘 돼요. 그런데 "바다에서 찍은 사진"이나 "2023년 제주 여행"처럼 내용 기반으로 검색하려면 태그를 직접 달아야 하거든요. 영상도 마찬가지예요. 파일명이 IMG_4823.mov로 저장된 영상이 수백 개면, 뭐가 뭔지 열어보기 전까지 알 수가 없습니다.

여기서 로컬 AI가 실제로 쓸 수 있는 자리가 생깁니다. 사진 자동 태깅, 영상 자막 생성, 파일 자동 분류·정규화 — 이 세 가지가 NAS 로컬 AI의 가장 현실적인 활용법이에요. 빠른 응답이 필요 없고, 새벽에 돌려도 되는 작업들이라 CPU만 있는 NAS 환경과도 잘 맞습니다.

이 글에서는 시놀로지 NAS에 로컬 AI를 설치한 환경을 기준으로, 미디어와 파일 관리에서 실제로 쓸 수 있는 방법을 구체적으로 정리합니다. 설치가 아직 안 됐다면 시놀로지 Ollama 설치 가이드를 먼저 보고 오세요.

3줄 요약
• 사진 자동 태깅·파일 분류는 멀티모달 LLM(Gemma 4·LLaVA)으로, RAM 16GB 이상이면 배치 처리로 실용적이에요
• 영상 자막 자동 생성은 Whisper가 현실적인 선택 — RAM 4GB 이하로 돌아가서 저사양 NAS에서도 가능합니다
• 결국 빠른 처리보다 "새벽 배치로 쌓아두는 구조"를 먼저 잡는 게 NAS 환경에서 오래 쓸 수 있는 방식이에요

Synology Photos 기본 기능과 로컬 AI가 보완하는 지점

먼저 역할을 구분해두는 게 좋아요. 로컬 AI가 Synology Photos를 대체하는 게 아니라, 부족한 부분을 채우는 구조입니다.

기능	Synology Photos 기본	로컬 AI 보완
얼굴 인식	✅ 자체 지원	불필요
장소·날짜 분류	✅ GPS 메타데이터 기반	GPS 없는 파일 보완 가능
사진 내용 기반 검색	❌ 미지원	✅ 멀티모달 LLM으로 태그 생성
영상 자막 생성	❌ 미지원	✅ Whisper로 자동 생성
파일명 자동 정규화	❌ 미지원	✅ n8n + LLM 파이프라인
중복 파일 탐지	△ 기본 탐지만	✅ 내용 기반 유사 파일 탐지 가능

표에서 보면 Synology Photos가 이미 잘 하는 얼굴 인식·날짜 분류는 건드릴 필요가 없어요. 로컬 AI가 진짜 힘을 발휘하는 건 내용 기반 태깅, 자막 생성, 파일 정규화처럼 Photos가 아예 지원하지 않는 영역입니다. 이 세 가지에만 집중하면 구조가 단순해져요.

사진 자동 태깅 — 멀티모달 LLM으로 내용 기반 검색 만들기

수만 장의 사진에서 "고양이가 있는 사진"이나 "저녁 식사 사진"을 찾으려면 태그가 있어야 합니다. 직접 달려면 끝이 없고요. 멀티모달 LLM을 쓰면 사진을 AI에 넘기고 "이 사진에 뭐가 있는지 한 줄로 설명해줘"라는 프롬프트로 자동 태그를 뽑아낼 수 있어요.

실제로 해보면 생각보다 잘 됩니다. 음식 사진이면 "저녁 식사, 파스타, 실내 조명", 바다 사진이면 "해변, 낮, 파란 하늘" 식으로 설명이 나오고, 이걸 파일 메타데이터나 별도 CSV로 저장해두면 나중에 검색이 가능해져요.

필요 툴: Ollama + 멀티모달 모델 (Gemma 4 2B, LLaVA 7B), n8n 또는 Python 스크립트
필요 RAM: 16GB 권장 — 내 NAS 기종의 실행 가능 모델 조건 먼저 확인
처리 속도: 사진 1장당 10~30초 (CPU 연산 기준). 1,000장이면 3~8시간 — 새벽 배치 처리 필수

실제 동작 흐름
n8n 스케줄 트리거 → 새로 추가된 사진 감지 → 이미지 파일을 Ollama API로 전송 → 모델이 내용 설명 텍스트 반환 → 파일명 옆에 설명 텍스트 저장 (사이드카 파일 또는 CSV)
Synology Photos의 태그 항목에 직접 쓰려면 Synology API를 별도로 연동해야 합니다. 처음에는 별도 CSV로 관리하는 게 더 현실적이에요.

주의 — RAW 파일과 HEIC 포맷
카메라 RAW 파일(.ARW, .CR2)이나 iPhone HEIC 포맷은 Ollama에 그대로 넣으면 인식이 안 되는 경우가 많습니다. n8n에서 먼저 JPEG로 변환하는 단계를 추가해야 해요. ImageMagick을 Docker로 올려서 변환 파이프라인을 앞에 붙이는 방식이 현실적입니다.

영상 자막 자동 생성 — Whisper가 저사양에서도 돌아가는 이유

영상 자막 생성은 NAS 로컬 AI 활용 중에서 가장 진입 장벽이 낮습니다. 이게 핵심이에요.

Whisper는 OpenAI가 만든 음성 인식 모델인데, faster-whisper 버전은 RAM 2~4GB만 있어도 돌아갑니다. GPU 없이 CPU만으로도 동작하고, 한국어 인식 품질도 실용적인 수준이에요. 8GB RAM NAS에서도 충분히 쓸 수 있는 거의 유일한 AI 작업이라고 봐도 됩니다.

필요 툴: faster-whisper (Docker로 설치), n8n 연동 또는 단독 실행
필요 RAM: 최소 4GB — small 모델 기준. 8GB NAS에서도 가능
처리 속도: 10분짜리 영상 기준 CPU 연산으로 15~40분. 새벽 배치 처리가 현실적
출력 형식: SRT, VTT 자막 파일 자동 생성

실제로 가장 많이 쓰이는 패턴은 두 가지예요. 강의 영상이나 인터뷰 영상을 텍스트로 뽑아서 내용 검색을 가능하게 하거나, 가족 행사 영상에 자막을 붙여서 추억 보관용으로 쓰는 경우입니다. 빠른 속도가 필요 없는 작업이라 NAS 환경과 딱 맞아요.

파일 정리 자동화 — 이름 규칙과 중복 제거

NAS에 파일이 오래 쌓이면 반드시 생기는 문제가 두 가지입니다. 파일명이 제각각이라 찾기 어렵고, 같은 파일이 여러 폴더에 중복 저장돼 있어요.

파일명 자동 정규화

IMG_4823.jpg, KakaoTalk_20231105_183422.jpg, screenshot_0042.png처럼 제각각인 파일명을 2024-11-05_제주여행_해변.jpg 식으로 바꾸는 작업입니다. n8n으로 새 파일 업로드를 감지하고, Ollama 멀티모달 모델이 내용을 분석해서 이름 제안을 만들어요.

파일명 변경 자체는 n8n의 Move/Rename 노드로 처리합니다. 실제로 써보면 EXIF 날짜 데이터를 먼저 앞에 붙이고, 뒤에 AI가 만든 내용 설명을 붙이는 방식이 가장 안정적이에요. 날짜는 EXIF가 정확하고, 내용 설명은 AI가 담당하는 역할 분리가 핵심입니다.

필요 툴: n8n + Ollama 멀티모달 모델 + ExifTool (Docker)
필요 RAM: 16GB 이상 권장
주의: 파일명 변경 전 원본 백업 필수. n8n 파이프라인에 rollback 조건을 넣어두는 게 좋습니다

중복 파일 탐지·정리

완전히 같은 파일(해시값 동일)은 기존 툴로도 찾을 수 있어요. 그런데 "거의 같은 사진"은 다릅니다. 같은 장면을 연속으로 찍은 3장, 카카오톡으로 받아서 화질이 살짝 다른 파일, 크기만 다른 썸네일 파일 — 이런 유사 파일은 해시값이 달라서 기존 툴이 잡아내지 못해요.

멀티모달 LLM으로 사진 임베딩을 만들고 유사도를 비교하면 "내용이 비슷한 파일"을 찾을 수 있습니다. 다만 이 방식은 RAM을 많이 쓰고 처리 시간도 깁니다. 솔직히 말하면 수만 장 전체를 한 번에 처리하기보다, 특정 기간·폴더 단위로 범위를 좁혀서 주기적으로 돌리는 게 현실적이에요.

완전 중복: fdupes, jdupes (Docker) — RAM 거의 불필요, 처리 빠름
유사 중복: 멀티모달 LLM + 임베딩 비교 — RAM 16GB 이상, 처리 시간 길어서 월 1회 배치 권장

주의 — 중복 삭제는 반드시 확인 후 수동으로
AI가 "비슷하다"고 판단한 파일을 자동으로 삭제하게 두면 안 됩니다. 같은 장면이라도 표정이 다른 사진, 다른 앵글 등 의도적으로 보관하는 경우가 있어요. AI 탐지는 "후보 목록 생성"까지만 담당하고, 최종 삭제는 직접 눈으로 확인 후 수동으로 하는 구조가 맞습니다.

전체 파이프라인 — n8n으로 묶는 구조

위 세 가지 작업을 n8n 하나로 연결하면 새 파일이 올라올 때마다 자동으로 처리되는 구조가 됩니다.

권장 파이프라인 흐름
새 파일 감지 (n8n 폴더 감시) → 파일 형식 분기
├ 사진: ExifTool로 날짜 추출 → Ollama 멀티모달로 내용 태그 생성 → 파일명 정규화 + 태그 CSV 저장
├ 영상: faster-whisper로 음성 인식 → SRT 자막 파일 생성 → 영상과 같은 폴더에 저장
└ 문서: Ollama LLM으로 내용 요약 → 요약 텍스트를 파일명 옆에 사이드카로 저장
모든 처리는 새벽 2~5시 스케줄로 돌려야 NAS 성능에 영향을 주지 않습니다.

처음부터 전부 구성하려고 하면 설정이 복잡해서 중간에 막히는 경우가 많아요. Whisper 자막 생성 하나만 먼저 돌려보고, 안정되면 사진 태깅을 추가하는 순서가 실제로 오래 쓸 수 있는 방식입니다.

스펙별 현실적인 시작점

NAS RAM	가능한 작업	추천 시작점
8GB	영상 자막 생성 (Whisper small) 완전 중복 파일 탐지 (fdupes)	faster-whisper 단독 설치부터
16GB	사진 자동 태깅 (Gemma 4 2B) 영상 자막 + 파일명 정규화	Whisper 안정화 후 Ollama 멀티모달 추가
32GB 이상	전체 파이프라인 (사진·영상·문서·중복 탐지) 7B급 모델로 태깅 품질 향상	n8n으로 전체 파이프라인 연결

8GB 환경이라도 Whisper 하나만으로 충분히 실용적인 구조가 됩니다. 사진 태깅이나 파일 정규화까지 하려면 16GB 이상이 현실적인 기준선이에요. 내 NAS 기종의 RAM 한도가 어디까지인지는 시놀로지 NAS 기종별 실행 조건 비교에서 확인할 수 있습니다.

자주 묻는 질문

Q. Synology Photos의 AI 기능과 로컬 LLM을 같이 써도 충돌이 없나요?

충돌 없습니다. Synology Photos의 얼굴 인식·날짜 분류는 NAS 자체 기능으로 작동하고, 로컬 LLM은 파일에 직접 메타데이터를 쓰거나 별도 CSV를 만드는 방식이라 서로 영역이 달라요. Synology Photos의 태그 항목에 직접 쓰고 싶다면 Synology Photos API를 연동해야 하는데, 처음에는 별도 관리 파일로 시작하는 게 더 단순합니다.

Q. faster-whisper는 어떻게 설치하나요?

Container Manager에서 fedirz/faster-whisper-server 이미지를 검색해서 설치하면 됩니다. 포트는 8000번을 기본으로 씁니다. 설치 방법은 시놀로지 Container Manager 설치 가이드의 방식과 동일하게 적용하면 돼요. 모델은 컨테이너 환경 변수에서 WHISPER_MODEL=small로 지정하면 됩니다.

Q. 한국어 음성 인식 품질이 실용적인 수준인가요?

Whisper small 모델 기준으로 일상 대화나 강의처럼 비교적 명확한 발음에서는 실용적인 수준이 됩니다. 사투리가 강하거나 배경 소음이 심한 영상은 오류가 늘어요. medium 모델을 쓰면 품질이 올라가지만 RAM을 2배 가까이 더 씁니다. 8GB NAS라면 small로 시작해서 품질을 확인하는 게 현실적이에요.

Q. 사진 10만 장이면 태깅 처리에 얼마나 걸리나요?

CPU 연산 기준 사진 1장에 10~30초라면, 10만 장은 단순 계산으로 300~800시간입니다. 한 번에 다 돌리는 건 비현실적이에요. 현실적인 접근은 두 가지입니다. 신규 추가 파일만 자동 처리하는 구조를 먼저 만들고, 기존 파일은 날짜·폴더 단위로 나눠서 월 단위로 조금씩 처리하는 방식이에요. 처음부터 전체를 한 번에 처리하려고 하면 중간에 지치게 됩니다.

Q. 파일명을 AI가 바꾸다가 잘못되면 복구가 가능한가요?

n8n 파이프라인에서 파일명을 바꾸기 전에 원본 파일명을 별도 로그 파일에 기록해두면 됩니다. 이 로그만 있으면 잘못됐을 때 일괄 복원이 가능해요. Synology의 파일 버전 관리(Btrfs 스냅샷)가 설정돼 있다면 이중으로 안전합니다. 파이프라인 첫 번째 노드로 원본 파일명 로깅을 반드시 넣어두는 게 맞아요.

Q. 이 구조를 쓰면 클라우드 사진 서비스가 필요 없어지나요?

그렇지는 않습니다. Google Photos나 iCloud는 스마트폰 자동 백업, 어디서나 접근, 얼굴 인식 기반 공유 같은 기능이 잘 돼 있어요. NAS 로컬 구조는 민감한 사진을 외부에 올리지 않거나, 구독료 없이 대용량 원본을 보관하고 싶은 경우에 병행하는 선택이에요. 클라우드 AI 구독 비용이 부담스럽다면 클라우드 AI 구독 비용 조건 비교도 함께 보면 어떤 부분을 로컬로 대체할지 판단하기 쉬워요.

NAS에 사진과 영상이 쌓여 있는데 정리가 안 된 상태라면, Whisper 자막 생성 하나부터 시작해보세요. 설치가 가장 간단하고, 8GB NAS에서도 돌아가고, 결과가 바로 파일로 남아서 체감이 빠릅니다.

사진 태깅이나 파일 정규화는 그다음 단계예요. 한 번에 전부 구성하려다가 중간에 막히는 경우가 많아서, 하나 안정화하고 나서 붙이는 순서가 실제로 오래 유지되는 방식입니다. 로컬 AI로 어떤 작업을 더 할 수 있는지는 시놀로지 NAS 로컬 AI 활용법 전체 정리에서 확인해보세요.

이 글에서 나온 방법, 실제로 어떻게 설치하고 연결하는지는 아래 글에서 이어집니다.

📌 시놀로지 NAS Whisper 설치 + 영상 자막 자동 생성 실전 가이드
8GB NAS도 가능 — faster-whisper Docker 설치부터 n8n 자동화 연결까지

📌 시놀로지 NAS n8n 설치 + Ollama 연동 자동화 파이프라인 가이드
문서 요약·파일 분류·사진 태깅 자동화의 핵심 연결 구조

📌 시놀로지 NAS AnythingLLM 설치 + RAG 문서 질의응답 구성 가이드
계약서·의료 기록·개인 문서를 외부 서버 없이 AI로 검색하는 방법