본문 바로가기

음성 AI

디스코드 봇 개발 일지(아님) 2023-07-19 - 학습한 AI 모델한테 노래 부르게 하기 ※ 작성자가 작성한 내용이 일부 틀릴 수도 있음 주의 ※ 이 글은 디스코드 봇과는 관련이 없음. 쓰려다가 계획 변경으로 남은 것 잔반 처리 글 ※ 물론 나중에 디코 봇에 써먹을 가능성이 있긴 함 학습시킨게 너무 아까워서...... RVC를 통해 학습시킨 모델로는 TTS 봇을 제작하기에는 부적합하다... 라는 결론을 일단은 저번에 내렸다. 하지만 학습시켰던 것들이 너무 아깝다! 그래서 이 기술의 본래의 주 목적을 달성해보도록 하자. 히히 노래 불러라 내 친구들아 역시 N년지기 친구들을 괴롭히는 것은 정말 재미있다. 기존에 학습시켰던 것들 가지고 0곡갑(대충 노래 하나도 안 불렀지만 쩌는 가수라는 뜻)을 만들어주자. 만약 이전의 글을 따라했었더라면, RVC를 이용한 학습에 사용했던 파일이 있을 것이다. 사실.. 더보기
디스코드 봇 개발 일지 2023-07-12 - TTS 봇 - 갑자기 깨달음 (계획 변경) ※ 작성자가 작성한 내용이 일부 틀릴 수도 있음 주의 ※ 직접 하면서 알게된 것을 모두 써서 사족이 많음 ※ 급하게 작성한 계획 변경을 기록한 내용이라 내용이 없음 이래저래 정보 검색하다가 깨달은 점이 하나 있다. RVC를 이용한 TTS 제작을 찾는데 관련된 정보가 정말 안 떴다. 보통은 기술이 나오면 은근히 그런 정보가 몇 달 내에는 나오기 마련인데, 워낙 안 나와서 좀 이상하긴 했다. 결론적으로 말하자면, RVC는 음성 → 음성 변환용 AI 모델이라 RVC로 학습된 모델을 사용해서 TTS 쓰려면 텍스트 → 음성 → 음성의 귀찮은 과정을 거쳐야만 한다. 즉, 처음에 찾았던 Glow-TTS 등과 같은 텍스트 → 음성 전용 AI 모델로 학습을 시켜야 한다. 그래서 계획을 변경하기로 했다. 일단은 RVC 관.. 더보기
디스코드 봇 개발 일지 2023-07-10 - TTS 봇 - RVC로 목소리 학습시키기 ※ 작성자가 작성한 내용이 일부 틀릴 수도 있음 주의 ※ 이 글에서 사용하는 프로그램 모두 오픈 소스를 이용했기 때문에 직접 코드를 올리지 않음 ※ 직접 하면서 알게된 것을 모두 써서 사족이 많음 RVC (Retrieval-based-Voice-Conversion) 뭐 AI 라는 것이 다 그렇지만, 결국 방식의 차이가 있을뿐, 효율성을 높이는 것이 그 목적이며, 그렇게 매번 새로운 기술이 나오기 마련이다. 그래서 23년 4월에 나온 것으로 보이는 이 RVC를 이용해서 저번 글에서 모았던 목소리 데이터를 가지고 학습을 시킬 것이다. 참고로 SCE-TTS에서 제시한 방법은 학습에 대략 2~3시간 정도로 예상되며, RVC는 실제로 약 3~40분(데이터 양에 비례) 정도가 걸렸던 것을 생각하면 RVC가 확실히 .. 더보기
디스코드 봇 개발 일지 2023-07-03 - TTS 봇 - 목소리 데이터 모으기 (1) ※ 작성자가 작성한 내용이 일부 틀릴 수도 있음 주의 ※ 이 글에서 사용하는 프로그램 모두 오픈 소스를 이용했기 때문에 직접 코드를 올리지 않음 ※ 직접 하면서 알게된 것을 모두 써서 사족이 많음 일단은 목소리를 학습을 시켜보자 일단은 학습된 모델이 있어야 소리를 낼 수 있기 때문에 그것부터 만들어보자. 사실 학습 모델(RVC 등)과 그것에 의해 학습된 모델(그거로 생성된거)이라는 명칭을 쓰는 것이 맞는지는 모르겠는데 일단은 그렇게 서술을 하겠다. 항상 공부하면서 그렇지만 정말 용어가 제일 헷갈린다. SCE-TTS 내 목소리를 이용해서 TTS를 만드는 방법을 검색해서 찾아낸 깃허브 프로젝트다. 링크는 아래에 있다. https://gist.github.com/yunho0130/a97db3296314cd70.. 더보기
디스코드 봇 개발 일지 2023-06-26 - TTS (Text to Speech) 봇 (1) - 아이디어 구상 ※ 작성자가 작성한 내용이 일부 틀릴 수도 있음 주의 ※ 작성자가 코드 쓰다가 계속 코드 수정함 주의 TTS (Text to Speech) 봇을 만들어보기로 계획을 했었다. 1학기 바쁜 나날 중, 친구하고 이야기하다가 아이디어를 구상했다. 지금 군인인 친구들이 디스코드에 폰으로 들어와서 (생활관에서 계속 이야기할 수는 없으니까) TTS 봇을 이용해서 말하는데, 가끔 여러 명의 친구가 사용할 때마다 같은 목소리가 나와서 누가 말하는지 헷갈리는 경우가 자주 발생한다. 이는 일반적으로 각 '언어' 별로 하나씩 되어있는 것에 의한 것이 대부분이다. 하지만 이 또한 각 계정마다 다른 언어를 지정해서 말할 수 있기 때문에, 우리가 다른 '목소리'를 지정해서 TTS 봇을 이용한다면 같은 한국어 모델을 써도 각 사람마.. 더보기

728x90
반응형