- 인쇄
- PDF
로컬 파일 인식
- 인쇄
- PDF
Classic/VPC 환경에서 이용 가능합니다.
로컬에 저장되어 있는 오디오/비디오 파일을 인식하고 텍스트로 변환합니다.
요청
요청 형식을 설명합니다. 요청 형식은 다음과 같습니다.
메서드 | URI |
---|---|
POST | /recognizer/upload |
요청 헤더
CLOVA Speech API에서 공통으로 사용하는 헤더에 대한 정보는 CLOVA Speech 공통 헤더를 참조해 주십시오.
요청 바디
요청 바디에 대한 설명은 다음과 같습니다.
필드 | 타입 | 필수 여부 | 설명 |
---|---|---|---|
media | File | Required | 로컬 오디오/비디오 파일
|
params | Object | Required | 파라미터 세부 정보 |
params.language | String | Required | 텍스트 인식 언어
|
params.completion | String | Optional | 인식 요청 후 응답 방식
|
params.callback | String | Conditional | Callback URL
|
params.wordAlignment | Boolean | Optional | 인식 결과의 음성과 텍스트 정렬 출력 여부
|
params.fullText | Boolean | Optional | 전체 인식 결과 텍스트 출력 여부
|
params.resultToObs | Boolean | Conditional | Object Storage 내 결과 저장 여부
|
params.noiseFiltering | Boolean | Optional | 노이즈 필터링 여부
|
params.boostings | Array | Optional | 키워드 부스팅 세부 정보
|
params.useDomainBoostings | Boolean | Optional | 도메인 부스팅 사용 여부
|
params.forbiddens | String | Optional | 민감 키워드
|
params.diarization | Object | Optional | 화자 인식 세부 정보 |
params.diarization.enable | Boolean | Optional | 화자 인식 여부
|
sed | Object | Optional | 이벤트 탐지 결과 세부 정보 |
sed.enable | Boolean | Optional | 이벤트 탐지 여부
|
format | String | Optional | 응답 결과 반환 형식
|
params.boostings
params.boostings
에 대한 설명은 다음과 같습니다.
필드 | 타입 | 필수 여부 | 설명 |
---|---|---|---|
words | String | Optional | 키워드 부스팅할 단어 목록 |
completion
(요청 후 응답 방식)을 async
로 요청 시, 입력한 Callback URL 주소 유무 또는 resultToObs(ObjectStorage) 여부에 따라 인식 결과를 다음과 같이 반환합니다.
Callback URL | resultToObs(ObjectStorage) | 결과 |
---|---|---|
URL 주소 있음 | True | Callback URL과 Object Storage 모두 결과 반환 |
URL 주소 있음 | False | Callback URL에만 결과 반환 |
URL 주소 없음 | True | Object Storage에만 결과 반환 |
URL 주소 없음 | False | 오류 반환 |
요청 예시
요청 예시는 다음과 같습니다.
응답
응답 형식을 설명합니다.
응답 바디
응답 바디에 대한 설명은 다음과 같습니다.
필드 | 타입 | 필수 여부 | 설명 |
---|---|---|---|
result | String | - | 응답 코드 |
message | String | - | 응답 메시지 |
token | String | - | 결과 토큰 |
version | String | - | 엔진 버전 |
params | Object | - | 파라미터 세부 정보 |
params.service | String | - | 서비스 코드 |
params.domain | String | - | 도메인 유형
|
params.lang | String | - | 인식 언어
|
params.completion | String | - | 인식 요청 후 응답 방식
|
params.callback | String | - | Callback URL |
params.diarization | Object | - | 화자 인식(분리) 세부 정보 |
params.diarization.enable | Boolean | - | 화자 인식(분리) 여부
|
params.diarization.speakerCountMin | Integer | - | 최소 화자 수 |
params.diarization.speakerCountMax | Integer | - | 최대 화자 수 |
params.sed | Object | - | 이벤트 탐지 결과 |
params.sed.enable | Boolean | - | 이벤트 탐지 여부
|
params.boostings | Array | - | 키워드 부스팅 세부 정보
|
params.forbiddens | String | - | 민감 키워드
|
params.wordAlignment | Boolean | Optional | 인식 결과의 음성과 텍스트 정렬 출력 여부
|
params.fullText | Boolean | - | 전체 인식 결과 텍스트 출력 여부
|
params.noiseFiltering | Boolean | - | 노이즈 필터링 여부
|
params.resultToObs | Boolean | - | Object Storage 내 결과 저장 여부
|
params.priority | Integer | - | 우선 순위
|
params.userdata | Object | - | 사용자 데이터 세부 정보 |
params.userdata._ncp_DomainCode | String | - | 도메인 코드
|
params.userdata._ncp_DomainId | Integer | - | 도메인 아이디 |
params.userdata._ncp_TaskId | Integer | - | 태스크 아이디
|
params.userdata._ncp_TraceId | String | - | 트레이스 아이디
|
progress | Integer | - | 인식 진행률 |
segments | Array | - | segments 세부 정보 |
text | String | - | 전체 텍스트 |
confidence | Double | - | 전체 정확도 |
speakers | Array | - | 전체 화자 세부 정보 |
events | Array | - | 이벤트 세부 정보 |
eventTypes | Array | - | 인식된 모든 이벤트 세부 정보 |
params.boostings
params.boostings
에 대한 설명은 다음과 같습니다.
필드 | 타입 | 필수 여부 | 설명 |
---|---|---|---|
words | String | - | 키워드 부스팅 단어 목록 |
segments
#segments
에 대한 설명은 다음과 같습니다.
필드 | 타입 | 필수 여부 | 설명 |
---|---|---|---|
start | Long | - | 분석 시작 시각(ms) |
end | Long | - | 분석 종료 시각(ms) |
text | String | - | 분석 텍스트 |
confidence | Double | - | 분석 정확도
|
diarization | Object | - | 인식된 화자 세부 정보 |
diarization.label | String | - | 인식된 화자의 번호 |
speaker | Object | - | 변경된 화자 세부 정보 |
speaker.label | String | - | 변경된 화자의 번호 |
speaker.name | String | - | 변경된 화자의 이름 |
speaker.edited | Boolean | - | 화자 변경 여부
|
words | Array<Long, Long, String> | - | 인식된 단어 목록 |
words.[0] | Long | - | 세그먼트 시작 시각(ms) |
words.[1] | Long | - | 세그먼트 종료 시각(ms) |
words.[2] | String | - | 세그먼트 텍스트 |
textEdited | String | - | 수정 내용 |
speakers
speakers
에 대한 설명은 다음과 같습니다.
필드 | 타입 | 필수 여부 | 설명 |
---|---|---|---|
label | String | - | 전체 화자 번호 |
name | String | - | 전체 화자의 이름 |
edited | Boolean | - | 화자 변경 여부
|
events
events
에 대한 설명은 다음과 같습니다.
필드 | 타입 | 필수 여부 | 설명 |
---|---|---|---|
type | String | - | 이벤트 타입 |
label | String | - | 이벤트 이름 |
labelEdited | String | - | 이벤트 변경 이름 |
start | Long | - | 이벤트 시작 시각 |
end | Long | - | 이벤트 종료 시각 |
eventTypes
eventTypes
에 대한 설명은 다음과 같습니다.
필드 | 타입 | 필수 여부 | 설명 |
---|---|---|---|
label | String | - | 인식된 이벤트 |
응답 상태 코드
CLOVA Speech API에서 공통으로 사용하는 응답 상태 코드에 대한 정보는 CLOVA Speech 공통 응답 상태 코드를 참조해 주십시오.
응답 예시
응답 예시는 다음과 같습니다.
async
로 요청하여 json으로 반환
async
로 요청하여 json 형식으로 반환하는 응답 예시는 다음과 같습니다.
sync
로 요청하여 json으로 반환
sync
로 요청하여 json 형식으로 반환하는 응답 예시는 다음과 같습니다.
sync
로 요청하여 srt로 반환
sync
로 요청하여 srt 형식으로 반환하는 응답 예시는 다음과 같습니다.
sync
로 요청하여 smi로 반환
sync
로 요청하여 smi 형식으로 반환하는 응답 예시는 다음과 같습니다.