이전 포스팅: [TTS] ElevenLabs 대신 한국어 오픈소스로 TTS 만들기 1편 지난 포스팅에서 Supertonic + Qwen3-TTS 조합을 채택하고, onset-aware chop과 sentence-aware pause로 1차 정제까지 했다. 며칠동안 사내에서 시연하면서 컨펌 받아보니 "목소리 복제도 나름 잘되고 나쁘진 않은데 잡음이나 이런게 ElevenLabs와 격차가 확실히 존재하다"는 얘기들이 마음에 걸렸다. 그래서 추가로 그 격차를 줄이려 한 작업들이다.F5-TTS, GPT-SoVITS와 다시 비교 청취Whisper 자동 transcribe로 prosody 모드를 default화onset chop 두 번째 라운드 — 짧은 vocal-fry가 아니라 300ms짜리 사전 잡음1. F5-T..