このデータセットについて
同一テキストを200話者 × 10感情 × 3段階の強度で発話した、感情制御TTSの学習に最適化された合成音声データセット。話者属性(年代・性別)のバランスと感情統制を両立。スタジオ収録と同等の品質を、合成データ技術により1/5〜1/10のコストで実現。
言語: 日本語 / 業界: 一般 / タグ: 商用利用可 · モデル学習可 · 合成データ · 200話者 · 10感情×3強度 · WAV 48kHz/24bit
内訳
| ドメイン | 件数 | 平均トークン長 | 比率 |
|---|---|---|---|
| 普通 | 1,800 | 0 | 10.0% |
| 落ち着き | 1,800 | 0 | 10.0% |
| 喜び | 1,800 | 0 | 10.0% |
| 悲しみ | 1,800 | 0 | 10.0% |
| 怒り | 1,800 | 0 | 10.0% |
| 恐れ | 1,800 | 0 | 10.0% |
| 嫌悪 | 1,800 | 0 | 10.0% |
| 驚き | 1,800 | 0 | 10.0% |
| 焦り | 1,800 | 0 | 10.0% |
| 興奮 | 1,800 | 0 | 10.0% |
サンプル
{
"file": "HA-EMO-001/spk042/joy/lv2/042_joy_2_0013.wav",
"speaker_id": "spk042",
"speaker_gender": "female",
"speaker_age_group": "30s",
"text": "おはようございます。今日もよろしくお願いします。",
"emotion": "joy",
"intensity": 2,
"sample_rate": 48000,
"bit_depth": 24,
"duration_sec": 2.87
}データの出自と同意
商用利用可・モデル学習可・生成出力の商用利用可。生データ再配布・派生データ配布は不可。