단문 인식

Prev Next

Classic/VPC 환경에서 이용 가능합니다.

MP3, AAC, AC3, OGG, FLAC, WAV 형식의 60초 이내 오디오 파일을 텍스트로 변환합니다.

요청

요청 형식을 설명합니다. 요청 형식은 다음과 같습니다.

메서드 URI
POST /recog/v1/stt

요청 헤더

CLOVA Speech API에서 공통으로 사용하는 헤더에 대한 정보는 CLOVA Speech 공통 헤더를 참조해 주십시오.

요청 쿼리 파라미터

파라미터에 대한 설명은 다음과 같습니다.

필드 타입 필수 여부 설명
lang String Required 텍스트로 변환할 언어
  • Kor | Eng | Jpn | Chn
    • Kor: 한국어
    • Eng: 영어
    • Jpn: 일본어
    • Chn: 중국어
assessment Boolean Optional 발음 평가 결과 반환 여부
  • lang이. Kor , Eng인 경우에만 지원
  • true | false (기본값)
    • true: 결과 반환
    • false: 결과 미반환
utterance String Optional 발음 평가 대상 텍스트
  • 정확한 발음 평가를 위한 대상 텍스트 추가 권장
boostings String Optional 음성 인식률을 높이기 위한 키워드 목록
  • 탭(\t)으로 구분된 문자열
  • 총 길이: 512자 이하
  • 한국어만 지원
  • 각 키워드는 3자 이상 (3자 미만은 부스팅 미적용)
  • utterance와 동시 사용 가능
graph Boolean Optional 음성 파형 그래프 반환 여부
  • true | false (기본값)
    • true: 그래프 반환
    • false: 그래프 미반환

요청 예시

요청 예시는 다음과 같습니다.

curl --location --request POST 'https://clovaspeech-gw.ncloud.com/recog/v1/stt
?lang=Kor
&assessment=true
&utterance=네이버%20클라우드를%20사용해보세요.
&boostings=네이버%09클라우드%09클로바
&graph=true' \
--header 'Content-Type: application/octet-stream' \
--header 'X-CLOVASPEECH-API-KEY: {앱 등록 시 발급받은 Secret Key}' \
--data '@{data}'

응답

응답 형식을 설명합니다.

응답 바디

응답 바디에 대한 설명은 다음과 같습니다.

필드 타입 필수 여부 설명
text String - 인식한 음원의 결과 값
quota Integer - 음원 길이(15초)
assessment_score Integer - 문장 전체의 발음 점수
  • 1~100
assessment_details String - 매 단어마다의 평가 점수
ref_graph Array<Integer> - 기준 발음에 대한 음성 파형 그래프 수치 값
  • 양의 정수
  • 초당 50 샘플
usr_graph Array<Integer> - 입력된 발음에 대한 음성 파형 그래프 수치 값
  • 양의 정수
  • 초당 50 샘플

응답 상태 코드

CLOVA Speech API에서 공통으로 사용하는 응답 상태 코드에 대한 정보는 CLOVA Speech 공통 응답 상태 코드를 참조해 주십시오.

응답 예시

응답 예시는 다음과 같습니다.

{
    "text": "the stale smell of old beer lingers it takes heat to bring out the odor a cold dip restores health and zest assault pickle taste fine with ham tackles are passed or are my favorite a zestful food is the hot cross bun",
    "quota": 30,
    "assessment_score": 11,
    "assessment_details": "old|{o(oʊ):100, l(l):94, d(d):98} beer|{b(b):99, ee(ɪ):96, r(r):99} lingers|{l(l):99, i(ɪ):99, ng(ŋ):97, e(g):100, r(ər):99, s(z):97} ",
    "ref_graph": [
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 10, 21, 35, 50, 64, 77, 88, 96, 104, 112, 119, 126, 132, 138, 143, 147, 152, 156, 160, 163, 166, 168, 169, 168, 168, 167, 166, 165, 163, 162, 161, 159, 157, 155, 152, 149, 145, 142, 138, 132, 125, 117, 107, 97, 87, 78, 69, 59, 48, 37, 25, 15, 7, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0
    ],
    "usr_graph": [
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 10, 21, 35, 50, 64, 77, 87, 94, 102, 109, 115, 121, 127, 132, 137, 142, 147, 152, 156, 161, 164, 166, 167, 167, 166, 165, 164, 163, 162, 160, 159, 157, 155, 153, 150, 147, 144, 140, 136, 131, 124, 116, 108, 98, 89, 79, 71, 61, 50, 38, 27, 16, 7, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0
    ]
}