음성인식 (Speech Recognition)

"Listening AI that understands every voice."

개요

MAGO Speech Recognition Engine (Saturn S2T)은 Transformer 및 Wav2Vec 기반의 End-to-End 음성인식(ASR, Automatic Speech Recognition) 기술로, 마이크 입력 또는 오디오 파일로부터 텍스트를 실시간 변환하는 고정밀 AI 음성인식 엔진입니다.

본 기술은 대규모 한국어 음성 데이터와 다양한 발화 환경을 반영하여 훈련되었으며, 도메인 특화 Fine-tuning을 통해 특정 산업(예: 콜센터, 차량, 교육 등)에 최적화된 성능을 제공합니다.

특징 (Key Features)

Transformer 기반 End-to-End 모델

  • 음성으로부터 직접 텍스트를 생성하는 구조로, 전통적인 음향·언어 모델 분리 방식을 대체.

  • 높은 정확도와 빠른 추론 속도를 동시에 달성.

Wav2Vec 기반 사전학습(Pre-training)

  • 비레이블 음성 데이터를 활용한 대규모 음향모델 사전학습으로, 적은 데이터로도 빠른 도메인 적응이 가능.

Fine-tuning 기반 도메인 최적화

  • 소량의 도메인 데이터만으로 특정 도메인(병원, 교육, 콜센터 등) 환경에 특화된 모델 구축 가능

Transfer Learning for S2T

음성구간 검출(VAD, Voice Activity Detection)

  • 음성구간만을 자동 검출하여 리소스 낭비를 최소화하고, 잡음 환경에서도 안정적인 인식 성능 제공.

지속적인 모델 업데이트

  • 도메인 변화 및 언어 트렌드에 맞춘 지속적 개선으로, 서비스 품질을 장기적으로 유지.

훈련데이터

65,000여시간 이상의 레이블링 데이터

데이터 다양성

  • 방송, 강의, 회의, 자유 대화, 명령어, 차량 내 대화 등

  • 외래어 및 방언(경상·전라·충청·강원 등) 포함

  • 연령대별(소아~노인) 발화

특수 조건 데이터

  • 숫자 포함 문장, 잡음 환경, 거리 발화 등 다양한 실제 조건을 반영

성능 (Performance)

평균 음절 오류율 (CER)

4.19% (회의, 상담, 강의, 일반대화 등)

실시간 지연 (Latency)

1.0초

지원 언어

한국어, 영어 (확장 중)

모델 크기

3G, 300M

API 형태

REST / WebSocket SDK

  • CER (Character Error Rate)

응용 분야 (Applications)

  • AI 콜센터 / 상담 자동화 (AICC)

  • 자막 생성 및 방송 자동 변환

  • 스마트 디바이스 음성 인터페이스

  • 차량용 인포테인먼트 음성 제어

  • 회의록 자동 생성 및 문서화

Benchmark

AI hub 데이터셋에 공개되어 있는 음성데이터를 통해 성능을 비교한 결과입니다.

API \ 데이터셋

Avg. CER(%)

주요 영역별 회의 (KdomainconfSpeech)

회의 (KconfSpeech)

상담 (KtelSpeech)

저음질전화망

한국어강의 (KlecSpeech)

KsponSpeech eval clean

KsponSpeech eval other

OpenAI Whisper

11.39

10.49

10.16

7.51

17.27

10.89

12.06

11.34

Googleapi v2

11.50

N/A[1]

11.62

8.37

14.11

11.48

11.82

11.59

ETRI

10.19

9.95

10.56

8.36

15.46

9.89

9.99

7.15

Naver ClovaSpeech

9.52

7.88

8.53

5.89

9.09

13.71

10.66

10.86

리턴제로

6.18

6.78

7.27

3.56

4.66

7.76

6.61

6.64

리턴제로 Whisper[2]

7.79

6.43

8.85

5.44

5.52

8.68

9.74

9.86

MAGO

-

4.45

4.37

2.78

-

3.74

Last updated