Builds 2

[TTS] 한국어 오픈소스 TTS 만들기 2편 - 품질 격차 줄이기

이전 포스팅: [TTS] ElevenLabs 대신 한국어 오픈소스로 TTS 만들기 1편 지난 포스팅에서 Supertonic + Qwen3-TTS 조합을 채택하고, onset-aware chop과 sentence-aware pause로 1차 정제까지 했다. 며칠동안 사내에서 시연하면서 컨펌 받아보니 "목소리 복제도 나름 잘되고 나쁘진 않은데 잡음이나 이런게 ElevenLabs와 격차가 확실히 존재하다"는 얘기들이 마음에 걸렸다. 그래서 추가로 그 격차를 줄이려 한 작업들이다.F5-TTS, GPT-SoVITS와 다시 비교 청취Whisper 자동 transcribe로 prosody 모드를 default화onset chop 두 번째 라운드 — 짧은 vocal-fry가 아니라 300ms짜리 사전 잡음1. F5-T..

Builds 2026.05.11

[TTS] ElevenLabs 대신 한국어 오픈소스로 TTS 만들기

영상 더빙용 한국어 TTS가 필요했다. ElevenLabs를 쓰면 가장 퀄리티 있고 빠르지만, 비용과 외부 API 의존을 줄이고 싶어서 오픈소스로 직접 워크벤치를 만들어보기로 했다. 품질을 완전히 따라잡겠다는 건 아니고, 사내 더빙 용도로 "충분히 쓸 만한" 수준이 목표다. 모델을 바로 고르기 전에 쓸 만한 한국어 오픈소스 TTS 3개를 먼저 비교해 봤다. 오픈소스 TTS는 많지만, 한국어를 우선순위로 학습하고 상업 이용 라이선스까지 갖춘 모델은 의외로 적다. XTTS-v2나 F5-TTS, Kokoro, Sesame CSM 같은 모델들은 한국어를 지원하더라도 학습 비중이 낮거나 품질 검증이 부족해서 후보에서 빠졌다. 조건을 추리니 Raon-Speech, Supertonic, Qwen3-TTS 이렇게 세 ..

Builds 2026.05.04
반응형