STT (Speech-to-Text)

Prev Next

Classic/VPC環境で利用できます。

音声認識に使用する言語と MP3、AAC、AC3、OGG、FLAC、WAV形式の音声データの入力を受け、その認識結果をテキストに変換します。

リクエスト

リクエスト形式を説明します。リクエスト形式は次の通りです。

メソッド URI
POST /stt

リクエストヘッダ

CLOVA Speech Recognition (CSR) APIで共通して使用されるヘッダの詳細は、CLOVA Speech Recognition (CSR)の共通ヘッダをご参照ください。

リクエストクエリパラメータ

リクエストクエリパラメータの説明は次の通りです。

フィールド タイプ 必須の有無 説明
lang String Required 変換後テキストの言語
  • Kor | Eng | Jpn | Chn
    • Kor: 韓国語
    • Eng: 英語
    • Jpn: 日本語
    • Chn: 中国語(簡体字)

リクエストボディ

リクエストボディの説明は次の通りです。

フィールド タイプ 必須の有無 説明
変換対象の音声データ Binary Required MP3、AAC、AC3、OGG、FLACまたは WAV形式のバイナリ音声データ
  • 再生時間は最大60秒

リクエスト例

リクエストのサンプルコードは次の通りです。

curl --location --request POST 'https://naveropenapi.apigw.ntruss.com/recog/v1/stt
?lang=Kor' \
--header 'X-NCP-APIGW-API-KEY-ID: {アプリの登録時に発行された Client ID}' \
--header 'X-NCP-APIGW-API-KEY: {アプリの登録時に発行された Client Secret}' \
--header 'Content-Type: application/octet-stream' \
--data '@{file}'

レスポンス

レスポンス形式を説明します。

レスポンスボディ

レスポンスボディの説明は次の通りです。

フィールド タイプ 必須の有無 説明
text String - 音声ファイルから変換されたテキスト

レスポンスステータスコード

CLOVA Speech Recognition(CSR) APIで共通して使用されるレスポンスステータスコードの詳細は、CLOVA Speech Recognition (CSR)の共通レスポンスステータスコードをご参照ください。

レスポンス例

レスポンスのサンプルコードは次の通りです。

{
    "text": "こんにちは"
}