단문 인식

Classic/VPC 환경에서 이용 가능합니다.

MP3, AAC, AC3, OGG, FLAC, WAV 형식의 60초 이내 오디오 파일을 텍스트로 변환합니다.

요청

요청 형식을 설명합니다. 요청 형식은 다음과 같습니다.

메서드	URI
POST	/recog/v1/stt

요청 헤더

CLOVA Speech API에서 공통으로 사용하는 헤더에 대한 정보는 CLOVA Speech 요청 헤더를 참조해 주십시오.

요청 쿼리 파라미터

요청 쿼리 파라미터에 대한 설명은 다음과 같습니다.

필드	타입	필수 여부	설명
`lang`	String	Required	텍스트로 변환할 언어 `Kor` \| `Eng` \| `Jpn` \| `Chn` `Kor`: 한국어 `Eng`: 영어 `Jpn`: 일본어 `Chn`: 중국어
`assessment`	Boolean	Optional	발음 평가 결과 반환 여부 `lang`이. `Kor` , `Eng`인 경우에만 지원 `true` \| `false` (기본값) `true`: 결과 반환 `false`: 결과 미반환
`utterance`	String	Optional	발음 평가 대상 텍스트 정확한 발음 평가를 위한 대상 텍스트 추가 권장
`boostings`	String	Optional	음성 인식률을 높이기 위한 키워드 목록 탭(\t)으로 구분된 문자열 총 길이: 512자 이하 한국어만 지원 각 키워드는 3자 이상 (3자 미만은 부스팅 미적용) utterance와 동시 사용 가능
`graph`	Boolean	Optional	음성 파형 그래프 반환 여부 `true` \| `false` (기본값) `true`: 그래프 반환 `false`: 그래프 미반환

요청 예시

요청 예시는 다음과 같습니다.

curl --location --request POST 'https://clovaspeech-gw.ncloud.com/recog/v1/stt?lang=Kor&assessment=true&utterance=네이버%20클라우드를%20사용해보세요.&boostings=네이버%09클라우드%09클로바&graph=true' \
--header 'Content-Type: application/octet-stream' \
--header 'X-CLOVASPEECH-API-KEY: {앱 등록 시 발급받은 Secret Key}' \
--data '@{data}'

응답

응답 형식을 설명합니다.

응답 바디

응답 바디에 대한 설명은 다음과 같습니다.

필드	타입	필수 여부	설명
`text`	String	-	인식한 음원의 결과 값
`quota`	Integer	-	음원 길이(15초)
`assessment_score`	Integer	-	문장 전체의 발음 점수 1~100
`assessment_details`	String	-	매 단어마다의 평가 점수
`ref_graph`	Array<Integer>	-	기준 발음에 대한 음성 파형 그래프 수치 값 양의 정수 초당 50 샘플
`usr_graph`	Array<Integer>	-	입력된 발음에 대한 음성 파형 그래프 수치 값 양의 정수 초당 50 샘플

응답 상태 코드

CLOVA Speech API에서 공통으로 사용하는 응답 상태 코드에 대한 정보는 CLOVA Speech 응답 상태 코드를 참조해 주십시오.

응답 예시

응답 예시는 다음과 같습니다.

{
    "text": "the stale smell of old beer lingers it takes heat to bring out the odor a cold dip restores health and zest assault pickle taste fine with ham tackles are passed or are my favorite a zestful food is the hot cross bun",
    "quota": 30,
    "assessment_score": 11,
    "assessment_details": "old|{o(oʊ):100, l(l):94, d(d):98} beer|{b(b):99, ee(ɪ):96, r(r):99} lingers|{l(l):99, i(ɪ):99, ng(ŋ):97, e(g):100, r(ər):99, s(z):97} ",
    "ref_graph": [
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 10, 21, 35, 50, 64, 77, 88, 96, 104, 112, 119, 126, 132, 138, 143, 147, 152, 156, 160, 163, 166, 168, 169, 168, 168, 167, 166, 165, 163, 162, 161, 159, 157, 155, 152, 149, 145, 142, 138, 132, 125, 117, 107, 97, 87, 78, 69, 59, 48, 37, 25, 15, 7, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0
    ],
    "usr_graph": [
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 10, 21, 35, 50, 64, 77, 87, 94, 102, 109, 115, 121, 127, 132, 137, 142, 147, 152, 156, 161, 164, 166, 167, 167, 166, 165, 164, 163, 162, 160, 159, 157, 155, 153, 150, 147, 144, 140, 136, 131, 124, 116, 108, 98, 89, 79, 71, 61, 50, 38, 27, 16, 7, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0
    ]
}

Documentation Index