음성인식 (Speech Recognition)
"Listening AI that understands every voice."
개요
MAGO Speech Recognition Engine (Saturn S2T)은 Transformer 및 Wav2Vec 기반의 End-to-End 음성인식(ASR, Automatic Speech Recognition) 기술로, 마이크 입력 또는 오디오 파일로부터 텍스트를 실시간 변환하는 고정밀 AI 음성인식 엔진입니다.
본 기술은 대규모 한국어 음성 데이터와 다양한 발화 환경을 반영하여 훈련되었으며, 도메인 특화 Fine-tuning을 통해 특정 산업(예: 콜센터, 차량, 교육 등)에 최적화된 성능을 제공합니다.
특징 (Key Features)
Transformer 기반 End-to-End 모델
음성으로부터 직접 텍스트를 생성하는 구조로, 전통적인 음향·언어 모델 분리 방식을 대체.
높은 정확도와 빠른 추론 속도를 동시에 달성.
Wav2Vec 기반 사전학습(Pre-training)
비레이블 음성 데이터를 활용한 대규모 음향모델 사전학습으로, 적은 데이터로도 빠른 도메인 적응이 가능.
Fine-tuning 기반 도메인 최적화
소량의 도메인 데이터만으로 특정 도메인(병원, 교육, 콜센터 등) 환경에 특화된 모델 구축 가능

Transfer Learning for S2T
음성구간 검출(VAD, Voice Activity Detection)
음성구간만을 자동 검출하여 리소스 낭비를 최소화하고, 잡음 환경에서도 안정적인 인식 성능 제공.
지속적인 모델 업데이트
도메인 변화 및 언어 트렌드에 맞춘 지속적 개선으로, 서비스 품질을 장기적으로 유지.
훈련데이터
65,000여시간 이상의 레이블링 데이터
데이터 다양성
방송, 강의, 회의, 자유 대화, 명령어, 차량 내 대화 등
외래어 및 방언(경상·전라·충청·강원 등) 포함
연령대별(소아~노인) 발화
특수 조건 데이터
숫자 포함 문장, 잡음 환경, 거리 발화 등 다양한 실제 조건을 반영
성능 (Performance)
평균 음절 오류율 (CER)
4.19% (회의, 상담, 강의, 일반대화 등)
실시간 지연 (Latency)
1.0초
지원 언어
한국어, 영어 (확장 중)
모델 크기
3G, 300M
API 형태
REST / WebSocket SDK
CER (Character Error Rate)
응용 분야 (Applications)
AI 콜센터 / 상담 자동화 (AICC)
자막 생성 및 방송 자동 변환
스마트 디바이스 음성 인터페이스
차량용 인포테인먼트 음성 제어
회의록 자동 생성 및 문서화
Benchmark
AI hub 데이터셋에 공개되어 있는 음성데이터를 통해 성능을 비교한 결과입니다.
API \ 데이터셋
Avg. CER(%)
주요 영역별 회의 (KdomainconfSpeech)
회의 (KconfSpeech)
상담 (KtelSpeech)
저음질전화망
한국어강의 (KlecSpeech)
KsponSpeech eval clean
KsponSpeech eval other
OpenAI Whisper
11.39
10.49
10.16
7.51
17.27
10.89
12.06
11.34
Googleapi v2
11.50
N/A[1]
11.62
8.37
14.11
11.48
11.82
11.59
ETRI
10.19
9.95
10.56
8.36
15.46
9.89
9.99
7.15
Naver ClovaSpeech
9.52
7.88
8.53
5.89
9.09
13.71
10.66
10.86
리턴제로
6.18
6.78
7.27
3.56
4.66
7.76
6.61
6.64
리턴제로 Whisper[2]
7.79
6.43
8.85
5.44
5.52
8.68
9.74
9.86
MAGO
-
4.45
4.37
2.78
-
3.74
Last updated