| 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135 |
- #!/usr/bin/env python3
- """
- 使用 Gemini CLI 按固定系统提示词,将指定目录下的 .md 提示词批量转换为 JSONL。
- 特点:
- - 内置系统提示词,与《Gemini 无头模式 JSONL 规范化指引》一致
- - 禁用工具调用 (--allowed-tools ''), 输出纯文本,每个文件生成一行 JSON
- - 默认输入目录为仓库根下的 `2/`,输出为 `2/prompts.jsonl`
- 用法示例:
- python3 gemini_jsonl_batch.py
- python3 gemini_jsonl_batch.py --input 2 --output 2/prompts.jsonl --model gemini-2.5-flash
- """
- from __future__ import annotations
- import argparse
- import subprocess
- import sys
- from pathlib import Path
- # ==================== 固定系统提示词 ====================
- SYS_PROMPT = """{"category_id": 1, "category": "JSONL规范化", "row": 2, "col": 1, "title": "# JSONL 提示词转换器 - 系统提示词", "content": "# JSONL 提示词转换器 - 系统提示词\n\n你是一个专业 的提示词格式转换器。将用户提供的提示词内容转换为标准 JSONL 格式。\n\n## 输出格式\n\n```json\n{\\"title\\\": \\"<标题>\\", \\"content\\\": \\"<完整内容>\\"}\n```\n\n### 字段说明\n\n| 字段 | 类型 | 说明 |\n|------|------|------|\n| `title` | string | 提示词标题,取内容的第一行或前 50 字符 |\n| `content` | string | 完整的提示词内容 |\n\n## 转换规则\n\n1. **标题提取**:\n - 若内容以 `#` 开头,取第一个标题作为 title\n - 否则取前 50 字符(去除换行)\n2. **内容转义**:\n - 换行符 转为 `\\\\n`\n - 双引号转为 `\\\\\"`\n - 反斜杠转为 `\\\\\\\\`\n\n## 输出要求\n\n- 每行一个完整的 JSON 对象\n- 不要添加任何解释、注释或额外文字\n- 不要用 ```json 代码块包裹\n- 直接输出纯 JSONL 内容\n\n## 示例\n\n### 输入\n```\n# Role:智能文档助手\n\n## Background\n用户需要一个能够处理文档的 AI 助手。\n\n## Skills\n- 文档解析\n- 格式转换\n```\n\n### 输出\n```\n{\\"title\\\": \\"# Role:智能文档助手\\", \\"content\\\": \\"# Role:智能文档助手\\\\n\\\\n## Background\\\\n用户需要一个能够处 理文档的 AI 助手。\\\\n\\\\n## Skills\\\\n- 文档解析\\\\n- 格式转换\\"}\n```\n\n---\n\n现在,请将用户提供的内容转换为标准 JSONL 格式。"}"""
- def parse_args() -> argparse.Namespace:
- parser = argparse.ArgumentParser(
- description="使用 Gemini CLI 批量将 .md 提示词转换为 JSONL(固定系统提示词)。",
- )
- parser.add_argument(
- "-i",
- "--input",
- type=Path,
- default=Path("2"),
- help="输入目录,遍历其中的 .md 文件(默认:仓库根目录下的 2/)",
- )
- parser.add_argument(
- "-o",
- "--output",
- type=Path,
- default=None,
- help="输出 JSONL 文件路径,默认写入 <input>/prompts.jsonl",
- )
- parser.add_argument(
- "-m",
- "--model",
- default="gemini-2.5-flash",
- help="Gemini 模型名称(默认:gemini-2.5-flash)",
- )
- parser.add_argument(
- "--gemini-cmd",
- default="gemini",
- help="Gemini CLI 可执行文件名或路径(默认:gemini)",
- )
- parser.add_argument(
- "-v",
- "--verbose",
- action="store_true",
- help="输出处理中的详细信息",
- )
- return parser.parse_args()
- def run_gemini(content: str, model: str, cmd: str) -> str:
- """调用 Gemini CLI,将单个文本转换为一行 JSON。"""
- proc = subprocess.run(
- [
- cmd,
- "-m",
- model,
- "--output-format",
- "text",
- "--allowed-tools",
- "",
- SYS_PROMPT,
- ],
- input=content.encode("utf-8"),
- stdout=subprocess.PIPE,
- stderr=subprocess.PIPE,
- check=False,
- )
- stdout = proc.stdout.decode("utf-8", errors="replace").strip()
- stderr = proc.stderr.decode("utf-8", errors="replace").strip()
- if proc.returncode != 0:
- raise RuntimeError(f"Gemini 调用失败 (code={proc.returncode}): {stderr or '无错误输出'}")
- if stderr:
- # 某些 CLI 可能在 stderr 打印警告,保留但不中断
- print(f"⚠️ Gemini 警告: {stderr}", file=sys.stderr)
- if not stdout:
- raise RuntimeError("Gemini 未返回内容")
- # 去除多余行,只保留非空行并合并
- lines = [ln for ln in stdout.splitlines() if ln.strip()]
- return " ".join(lines).strip()
- def main() -> None:
- args = parse_args()
- input_dir = args.input.resolve()
- if not input_dir.exists() or not input_dir.is_dir():
- print(f"❌ 输入目录不存在: {input_dir}")
- sys.exit(1)
- output_path = args.output or (input_dir / "prompts.jsonl")
- output_path = output_path.resolve()
- output_path.parent.mkdir(parents=True, exist_ok=True)
- md_files = sorted(f for f in input_dir.iterdir() if f.suffix == ".md")
- if not md_files:
- print(f"⚠️ 未找到任何 .md 文件: {input_dir}")
- sys.exit(0)
- results = []
- for md in md_files:
- content = md.read_text(encoding="utf-8")
- if args.verbose:
- print(f"→ 处理 {md.name}")
- try:
- json_line = run_gemini(content, args.model, args.gemini_cmd)
- results.append(json_line)
- except Exception as exc: # noqa: BLE001
- print(f"❌ 处理失败 {md.name}: {exc}", file=sys.stderr)
- with output_path.open("w", encoding="utf-8") as f:
- for line in results:
- f.write(line + "\n")
- print(f"✅ 完成:{len(results)} 条 → {output_path}")
- if __name__ == "__main__":
- main()
|