絆データセットカタログは、ライセンス・出自・品質が検証された法人向けAI学習データセットを、必要な粒度で調達できるマーケットプレイスです。
同一テキストを200話者 × 10感情 × 3段階の強度で発話した、感情制御TTSの学習に最適化された合成音声データセット。話者属性(年代・性別)のバランスと感情統制を両立。スタジオ収録と同等の品質を、合成データ技術により1/5〜1/10のコストで実現。
商用利用可否・再配布・再学習・派生物の扱いまで弁護士監修で明文化。
データ収集元、同意プロセス、アノテーション体制を Datasheet で開示。
法人登記・実績・セキュリティ体制を確認した事業者のみが出品可能。
東京リージョンからの暗号化配信。データレジデンシー要件に対応。
同一テキストを200話者 × 10感情 × 3段階の強度で発話した、感情制御TTSの学習に最適化された合成音声データセット。話者属性(年代・性別)のバランスと感情統制を両立。スタジオ収録と同等の品質を、合成データ技術により1/5〜1/10のコストで実現。
200話者がニュートラルな発話でテキストを読み上げた汎用音声データセット。年代・性別のバランスを考慮した話者構成で、多話者TTS・声質変換(VC)・ASR学習データ増強など幅広い用途に対応。合成データ技術で低コストを実現。
120万件の高品質な指示-応答ペア。法務・医療・製造など専門領域を重点的に収録した、日本語特化のインストラクションチューニング用データセット。人手レビューと毒性フィルタを適用済みで、商用モデルの学習に即利用可能。
EDINET 由来の有報データ。セクション分割+XBRL タグ付与で、財務モデル学習や抽出タスクに最適。
e-Gov 由来の現行法令と最高裁判例を構造化。チャンク分割済みで RAG 用途に最適。条文リンク、施行日メタデータ完備。
放射線科医によるバウンディングボックスと所見テキストを付与。倫理審査承認済。14 疾患カテゴリをカバー。
自社ユースケースに合わせたカスタムデータセットの構築、既存データセットの拡張、セキュアな受け渡し、専属サポートまで。SIer / 研究機関との豊富な実績。