유사 도구 대비 STT와 TTS를 넘어 턴 감지와 중단 처리를 포함한 실시간 음성 에이전트 인프라에 초점을 둡니다.
개요
한눈에 보기
- Nova-3 STT와 Flux 실시간 대화 인식 제공
- 50개 이상 언어와 낮은 지연시간 중심 설계
- 공식 Series C와 1,300개 조직 지표 확인
- 완제품 전사 앱보다 API 통합 부담이 큼
- 고급 음성 에이전트 과금은 사용량 모델링 필요
- 이런 분께 적합: 실시간 음성 에이전트와 대규모 전사 API가 필요한 개발팀
자세히 보기
Deepgram은 실시간 음성 인식과 음성 에이전트를 제품에 붙이려는 개발팀을 위한 음성 AI API 플랫폼입니다. Nova-3는 고정확도 전사를, Flux는 실시간 대화 인식과 턴 감지를, Aura는 음성 합성을 담당합니다. 파일 전사보다 실시간 대화형 음성 경험을 제품에 넣는 작업에 특히 강합니다.
강점은 낮은 지연시간과 확장성입니다. 공식 가격표는 무료 200달러 크레딧 후 사용량 과금으로 시작하며, Nova-3는 분당 0.0048달러부터, Flux는 분당 0.0065달러부터 공개되어 있습니다. Deepgram은 Nova-3가 50개 이상 언어를 지원한다고 안내하고, 2026년 공식 발표에서 1억 3천만 달러 Series C, 13억 달러 가치, 1,300개 이상 조직 사용을 밝혔습니다. 클라우드 API와 자체 배포 옵션도 함께 언급됩니다.
한계는 운영 복잡도입니다. 제품 안에 넣는 API이므로 녹음 수집, 스트리밍 연결, 오류 처리, 비용 모니터링을 직접 설계해야 합니다. 음성 에이전트 API와 고급 기능은 연결 시간이나 부가 기능 기준으로 과금되어, 콜센터나 대규모 서비스에서는 사전 시뮬레이션이 필요합니다. 일반 사용자가 회의록을 바로 정리하려는 목적에는 Otter.ai가 더 단순합니다.
결론적으로 Deepgram은 낮은 지연시간과 대규모 트래픽을 요구하는 음성 제품 개발팀에 적합합니다. 파일 전사와 요약 API 중심이면 AssemblyAI가 더 이해하기 쉬울 수 있습니다. 설치 없는 개인·팀 회의록과 검색형 노트가 필요하면 Otter.ai를 함께 비교하는 편이 좋습니다.
요금제
| 플랜 | 월 요금 | 한도 |
|---|---|---|
| Pay As You Go | 200 크레딧 | 무료 $200 크레딧 후 Nova-3 분당 $0.0048부터 |
| Growth | - | 연간 선불 크레딧, 공개 모델 엔드포인트와 더 높은 동시성 |
| Custom | - | 맞춤 모델, 엔터프라이즈 지원, 자체 배포 요구에 맞춘 계약 |
스펙
- 지원 언어 수
- 50개
- 실시간
- 지원
- API 제공
- 제공
- 오픈소스
- 아니오
- 셀프호스팅
- 가능
- 한국어 지원
- 입출력만
- 상업적 사용
- 가능
인지도
절대 기준으로 본 화제성·지명도
절대 기준 점수
83
신뢰도 높음4/4개 신호
각 축은 널리 알려진 수준을 10점으로 둔 절대 구간 점수입니다. 수집: 2026-06-16.
검증된 공개 지표: $1.3B valuation and 1,300+ organizations reported by Deepgram (2026-01-13 기준) 출처
관련 도구
인지도 순
- ElevenLabs
표현력이 뛰어난 다국어 음성 품질과 풍부한 API/생태계로 업계 표준으로 자리잡았습니다.
- Otter.ai
실시간 전사와 회의 요약을 완제품 앱으로 제공하면서 연결 앱 검색과 업무 후속 조치까지 확장합니다.
- HeyGen
아바타 발표 영상과 다국어 더빙 품질에서 우위
- Fireflies.ai
100개 이상 언어 전사, AskFred, CRM·업무 앱 연동, API까지 갖춰 회의 기록을 자동화 워크플로로 확장하기 좋습니다.
- AssemblyAI
단순 전사를 넘어 자연어 프롬프팅, 키워드 보강, 의료 모드, 음성 에이전트 API까지 한 플랫폼에 묶습니다.
Deepgram 비교하기
마지막 업데이트: 2026-06-16
전체 도구