MP3를 텍스트로
- 1단계: MP3 파일을 선택해 업로드해.
- 2단계: 오디오를 전사해요. 진행 상황을 실시간으로 확인할 수 있어요.
- 3단계: 전사본을 TXT로 다운로드한 다음 바로 편집하거나 복사해.
왜 Converter App을 선택해야 해?
자주 묻는 질문
이 도구가 (인터뷰어 vs 게스트)처럼 서로 다른 화자를 구별할 수 있어?
응, 우리는 "Speaker Diarization."을 사용해. 오디오 업계에서 Diarization은 오디오 스트림을 화자 구간으로 나누는 기술적 용어야 — 간단히 말하면 누가 언제 말했는지 알아내는 거야.
사용 방법:
MP3를 업로드하기 전에 설정에서 "Distinguish different people" 항목을 체크해.
참고: 이 기능은 음성 패턴을 분석하기 위해 AI가 한 번 더 분석해야 해서 일반 전사보다 처리 시간이 조금 더 걸려.
이 변환기는 어떤 기술로 구동돼?
우리는 Whisper3 아키텍처로 구동돼. 이는 50만 시간이 넘는 다국어 데이터로 학습된 오픈 소스 '신경망'이야. 모든 파일을 빠른 NVIDIA GPU에서 처리해서, 네가 기대하는 속도로 이 AI의 모든 성능을 누릴 수 있게 해.
중요한 이유: 이전 도구들이 선형 확률만으로 단어를 추측하던 반면, Whisper는 문맥을 이해해서 억양, 발음 차이, 전문 용어, 배경 소음 처리에 훨씬 더 강해.
.MP3 파일로 정확도를 최대한 높이려면 어떻게 해야 해?
거의 완벽한 정확도를 위해 다음 세 가지에 집중해:
- 높은 비트레이트: MP3 파일은 비트레이트를 192kbps 이상으로 사용해. 비트레이트가 낮으면 AI를 혼동시키는 "디지털 노이즈"가 생겨.
- 배경 음악 없음: 이게 오류의 가장 큰 원인이야. AI는 들리는 모든 소리(가사나 악기 소리 포함)를 전부 전사하려고 해.
- 마이크와의 거리: 녹음이 조용한 환경에서 말하는 사람에게 마이크를 가깝게 대고 이뤄졌는지 확인해.
내 전사본에 오디오에 없던 문장이 있어. 왜 그래?
이걸 "AI 환각."이라고 불러. 가끔 파일에 긴 무음 구간이나 (거친 숨소리나 바람 같은) 음성 외 소음이 있으면, AI가 없는 패턴을 억지로 찾아 빈 부분을 메우기 위해 단어를 '환각'해버려.
해결 방법: 업로드하기 전에 오디오에서 긴 무음 구간을 잘라내. 그러면 AI가 추측하는 걸 막아 최종 결과가 훨씬 좋아져.
내 성적표가 잘못된 언어로 되어 있거나(혹은 무작위 텍스트처럼 보일 때), 왜 그런 거야?
이건 언어 추론(Language Inference)과 관련된 "Cold Start" 오류 때문일 가능성이 커.
문제:
우리 AI는 처음 30초를 스캔해 말해진 언어를 감지해. 파일이 긴 침묵, 잡음(스태틱) 또는 인트로 음악으로 시작하면 AI가 분석할 '언어 데이터'가 부족해. 그래서 임의의 언어(대개 영어, 가끔은 의미 없는 기호로 인식되기도 함)로 판단될 수 있어.
해결 방법:
무음 인트로를 잘라 오디오가 바로 말로 시작하게 한 다음 다시 업로드해.
오디오를 직접 DOCX로 전사할 수 있어?
네. 오디오를 Microsoft Word 파일(.docx)로 즉시 직접 변환하고 싶으시다면, 이를 위한 전용 도구가 있습니다.
→ 다음 단계: MP3 DOCX 변환기를 사용하세요.
MP3 → 텍스트 변환기 품질 평가
4.6 /
5 (에 따라. 1146 리뷰)