STT (Speech-to-Text)

Classic/VPC環境で利用できます。

音声認識に使用する言語と MP3、AAC、AC3、OGG、FLAC、WAV形式の音声データの入力を受け、その認識結果をテキストに変換します。

リクエスト

リクエスト形式を説明します。リクエスト形式は次の通りです。

メソッド	URI
POST	/stt

リクエストヘッダ

CLOVA Speech Recognition (CSR) APIで共通して使用されるヘッダの詳細は、CLOVA Speech Recognition (CSR)の共通ヘッダをご参照ください。

リクエストクエリパラメータ

リクエストクエリパラメータの説明は次の通りです。

フィールド	タイプ	必須の有無	説明
`lang`	String	Required	変換後テキストの言語 `Kor` \| `Eng` \| `Jpn` \| `Chn` `Kor`: 韓国語 `Eng`: 英語 `Jpn`: 日本語 `Chn`: 中国語(簡体字)

リクエストボディ

リクエストボディの説明は次の通りです。

フィールド	タイプ	必須の有無	説明
変換対象の音声データ	Binary	Required	MP3、AAC、AC3、OGG、FLACまたは WAV形式のバイナリ音声データ再生時間は最大60秒

リクエスト例

リクエストのサンプルコードは次の通りです。

curl --location --request POST 'https://naveropenapi.apigw.ntruss.com/recog/v1/stt
?lang=Kor' \
--header 'x-ncp-apigw-api-key-id: {アプリの登録時に発行された Client ID}' \
--header 'x-ncp-apigw-api-key: {アプリの登録時に発行された Client Secret}' \
--header 'Content-Type: application/octet-stream' \
--data '@{file}'

レスポンス

レスポンス形式を説明します。

レスポンスボディ

レスポンスボディの説明は次の通りです。

フィールド	タイプ	必須の有無	説明
`text`	String	-	音声ファイルから変換されたテキスト

レスポンスステータスコード

CLOVA Speech Recognition(CSR) APIで共通して使用されるレスポンスステータスコードの詳細は、CLOVA Speech Recognition (CSR)の共通レスポンスステータスコードをご参照ください。

レスポンス例

レスポンスのサンプルコードは次の通りです。

{
    "text": "こんにちは"
}