法人向けAI学習データセットマーケットプレイス
絆データセットカタログ
Kizuna Dataset Catalogue
JAPANESE·INSTRUCTION TUNING 認証済データセット

日本語 高品質インストラクションチューニング v3

120万件の高品質な指示-応答ペア。法務・医療・製造など専門領域を重点的に収録した、日本語特化のインストラクションチューニング用データセット。人手レビューと毒性フィルタを適用済みで、商用モデルの学習に即利用可能。

ID
KDC-2026-0421
バージョン
v3.2.0
サイズ
3.2 GB
件数
1,214,892
更新日
2026-04-10
フォーマット
JSONL

このデータセットについて

120万件の高品質な指示-応答ペア。法務・医療・製造など専門領域を重点的に収録した、日本語特化のインストラクションチューニング用データセット。人手レビューと毒性フィルタを適用済みで、商用モデルの学習に即利用可能。

言語: 日本語 / 業界: 一般 / タグ: 商用利用可 · モデル学習可 · 再配布不可 · JSONL · 人手レビュー済

内訳

ドメイン件数平均トークン長比率
法務248,31241220.4%
医療196,05438916.1%
製造182,73135415.0%
金融164,20139813.5%
カスタマーサポート142,87626711.8%
一般知識・推論280,71830123.2%

サンプル

{
  "id": "kdc-jit-v3-00142873",
  "domain": "legal",
  "instruction": "下記の業務委託契約書における損害賠償の上限条項について、委託者側に有利な修正案を3つ提示してください。",
  "input": "第12条(損害賠償)\n受託者は、本契約に関連して委託者に生じた損害について、...",
  "output": "以下、委託者側に有利となる3つの修正案を提示します。\n\n1. **上限額の引き上げ**: ...\n2. **除外事由の追加**: ...\n3. **適用範囲の限定**: ...",
  "meta": {
    "reviewed_by": ["legal-expert-042", "japanese-editor-018"],
    "tokens_output": 487,
    "created_at": "2026-03-14"
  }
}

データの出自と同意

商用利用可・モデル学習可・派生物配布可。生データの再配布は不可。

関連データセット