STT (Speech-to-Text)

Prev Next

Classic/VPC 환경에서 이용 가능합니다.

음성 인식에 사용할 언어와 MP3, AAC, AC3, OGG, FLAC, WAV 형식의 음성 데이터를 입력받아, 그 인식 결과를 텍스트로 변환합니다.

요청

요청 형식을 설명합니다. 요청 형식은 다음과 같습니다.

메서드 URI
POST /stt

요청 헤더

CLOVA Speech Recognition (CSR) API에서 공통으로 사용하는 헤더에 대한 정보는 CLOVA Speech Recognition (CSR) 공통 헤더를 참조해 주십시오.

요청 쿼리 파라미터

요청 쿼리 파라미터에 대한 설명은 다음과 같습니다.

필드 타입 필수 여부 설명
lang String Required 변환될 텍스트의 언어
  • Kor | Eng | Jpn | Chn
    • Kor: 한국어
    • Eng: 영어
    • Jpn: 일본어
    • Chn: 중국어(간체)

요청 바디

요청 바디에 대한 설명은 다음과 같습니다.

필드 타입 필수 여부 설명
변환할 음성 데이터 Binary Required MP3, AAC, AC3, OGG, FLAC 또는 WAV 형식의 바이너리 음성 데이터
  • 재생 시간 최대 60초

요청 예시

요청 예시는 다음과 같습니다.

curl --location --request POST 'https://naveropenapi.apigw.ntruss.com/recog/v1/stt
?lang=Kor' \
--header 'X-NCP-APIGW-API-KEY-ID: {앱 등록 시 발급받은 Client ID}' \
--header 'X-NCP-APIGW-API-KEY: {앱 등록 시 발급받은 Client Secret}' \
--header 'Content-Type: application/octet-stream' \
--data '@{file}'

응답

응답 형식을 설명합니다.

응답 바디

응답 바디에 대한 설명은 다음과 같습니다.

필드 타입 필수 여부 설명
text String - 음성 파일에서 변환된 텍스트

응답 상태 코드

CLOVA Speech Recognition (CSR) API에서 공통으로 사용하는 응답 상태 코드에 대한 정보는 CLOVA Speech Recognition (CSR) 공통 응답 상태 코드를 참조해 주십시오.

응답 예시

응답 예시는 다음과 같습니다.

{
    "text": "안녕하세요"
}