このデータセットについて
人手と自動を組み合わせた高品質なパイプラインで生成し、徹底した品質検証を実施した合成データセットです。弊社の音声対話生成パイプラインをベースとしており、会話の感情分析、話者分離・話者識別、会話生成モデルの学習に適しています。本データセットは日常的なAIとの対話シーンを想定していますが、コールセンターや接客シーンなどを想定したデータセットの合成にも対応可能です。
言語: 日本語 / 業界: 一般 / タグ: 商用利用可 · モデル学習可 · 合成データ · キャラ属性タグ付き · 感情ラベル付き · 品質チェック済み
メタデータ
| 対話エピソード数 | 60,000+ |
|---|---|
| 総再生時間 | 1,000+ 時間 |
| 拡張規模 | 数万〜数十万時間規模までご相談可能 |
| 音声形式 | WAV / 24kHz / 16bit / モノラル |
| アノテーション形式 | JSONL(発話単位タイムスタンプ・話者ラベル・テキスト・感情ラベル) |
| 話者構成 | 1 エピソードあたり 2 名(相談者 / 応答キャラ) |
| 言語 | 日本語 |
| データ生成元 | 弊社 音声対話生成パイプライン(合成) |