このデータセットについて
120万件の高品質な指示-応答ペア。法務・医療・製造など専門領域を重点的に収録した、日本語特化のインストラクションチューニング用データセット。人手レビューと毒性フィルタを適用済みで、商用モデルの学習に即利用可能。
言語: 日本語 / 業界: 一般 / タグ: 商用利用可 · モデル学習可 · 再配布不可 · JSONL · 人手レビュー済
内訳
| ドメイン | 件数 | 平均トークン長 | 比率 |
|---|---|---|---|
| 法務 | 248,312 | 412 | 20.4% |
| 医療 | 196,054 | 389 | 16.1% |
| 製造 | 182,731 | 354 | 15.0% |
| 金融 | 164,201 | 398 | 13.5% |
| カスタマーサポート | 142,876 | 267 | 11.8% |
| 一般知識・推論 | 280,718 | 301 | 23.2% |
サンプル
{
"id": "kdc-jit-v3-00142873",
"domain": "legal",
"instruction": "下記の業務委託契約書における損害賠償の上限条項について、委託者側に有利な修正案を3つ提示してください。",
"input": "第12条(損害賠償)\n受託者は、本契約に関連して委託者に生じた損害について、...",
"output": "以下、委託者側に有利となる3つの修正案を提示します。\n\n1. **上限額の引き上げ**: ...\n2. **除外事由の追加**: ...\n3. **適用範囲の限定**: ...",
"meta": {
"reviewed_by": ["legal-expert-042", "japanese-editor-018"],
"tokens_output": 487,
"created_at": "2026-03-14"
}
}データの出自と同意
商用利用可・モデル学習可・派生物配布可。生データの再配布は不可。