Kizuna Dataset Catalogue | エンタープライズ向けAI学習データセット

感情対話データセット

人手と自動を組み合わせた高品質なパイプラインで生成し、徹底した品質検証を実施した合成データセットです。弊社の音声対話生成パイプラインをベースとしており、会話の感情分析、話者分離・話者識別、会話生成モデルの学習に適しています。本データセットは日常的なAIとの対話シーンを想定していますが、コールセンターや接客シーンなどを想定したデータセットの合成にも対応可能です。

KDC-2026-0421

バージョン

v1.0

エピソード

60,000

更新日

2026-04-22

フォーマット

WAV 24kHz/16bit + JSONL

このデータセットについて

言語: 日本語 / 業界: 一般 / タグ: 商用利用可 · モデル学習可 · 合成データ · キャラ属性タグ付き · 感情ラベル付き · 品質チェック済み

メタデータ

対話エピソード数	60,000+
総再生時間	1,000+ 時間
拡張規模	数万〜数十万時間規模までご相談可能
音声形式	WAV / 24kHz / 16bit / モノラル
アノテーション形式	JSONL（発話単位タイムスタンプ・話者ラベル・テキスト・感情ラベル）
話者構成	1 エピソードあたり 2 名（相談者 / 応答キャラ）
言語	日本語
データ生成元	弊社音声対話生成パイプライン（合成）