ka-cn
/
vibe-coding-cn


			
							123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135
							#!/usr/bin/env python3
"""
使用 Gemini CLI 按固定系统提示词，将指定目录下的 .md 提示词批量转换为 JSONL。

特点：
- 内置系统提示词，与《Gemini 无头模式 JSONL 规范化指引》一致
- 禁用工具调用 (--allowed-tools ''), 输出纯文本，每个文件生成一行 JSON
- 默认输入目录为仓库根下的 `2/`，输出为 `2/prompts.jsonl`

用法示例：
  python3 gemini_jsonl_batch.py
  python3 gemini_jsonl_batch.py --input 2 --output 2/prompts.jsonl --model gemini-2.5-flash
"""
from __future__ import annotations

import argparse
import subprocess
import sys
from pathlib import Path

# ==================== 固定系统提示词 ====================
SYS_PROMPT = """{"category_id": 1, "category": "JSONL规范化", "row": 2, "col": 1, "title": "# JSONL 提示词转换器 - 系统提示词", "content": "# JSONL 提示词转换器 - 系统提示词\n\n你是一个专业 的提示词格式转换器。将用户提供的提示词内容转换为标准 JSONL 格式。\n\n## 输出格式\n\n```json\n{\\"title\\\": \\"<标题>\\", \\"content\\\": \\"<完整内容>\\"}\n```\n\n### 字段说明\n\n| 字段 | 类型 | 说明 |\n|------|------|------|\n| `title` | string | 提示词标题，取内容的第一行或前 50 字符 |\n| `content` | string | 完整的提示词内容 |\n\n## 转换规则\n\n1. **标题提取**：\n   - 若内容以 `#` 开头，取第一个标题作为 title\n   - 否则取前 50 字符（去除换行）\n2. **内容转义**：\n   - 换行符 转为 `\\\\n`\n   - 双引号转为 `\\\\\"`\n   - 反斜杠转为 `\\\\\\\\`\n\n## 输出要求\n\n- 每行一个完整的 JSON 对象\n- 不要添加任何解释、注释或额外文字\n- 不要用 ```json 代码块包裹\n- 直接输出纯 JSONL 内容\n\n## 示例\n\n### 输入\n```\n# Role：智能文档助手\n\n## Background\n用户需要一个能够处理文档的 AI 助手。\n\n## Skills\n-  文档解析\n- 格式转换\n```\n\n### 输出\n```\n{\\"title\\\": \\"# Role：智能文档助手\\", \\"content\\\": \\"# Role：智能文档助手\\\\n\\\\n## Background\\\\n用户需要一个能够处 理文档的 AI 助手。\\\\n\\\\n## Skills\\\\n- 文档解析\\\\n- 格式转换\\"}\n```\n\n---\n\n现在，请将用户提供的内容转换为标准 JSONL 格式。"}"""


def parse_args() -> argparse.Namespace:
    parser = argparse.ArgumentParser(
        description="使用 Gemini CLI 批量将 .md 提示词转换为 JSONL（固定系统提示词）。",
    )
    parser.add_argument(
        "-i",
        "--input",
        type=Path,
        default=Path("2"),
        help="输入目录，遍历其中的 .md 文件（默认：仓库根目录下的 2/）",
    )
    parser.add_argument(
        "-o",
        "--output",
        type=Path,
        default=None,
        help="输出 JSONL 文件路径，默认写入 <input>/prompts.jsonl",
    )
    parser.add_argument(
        "-m",
        "--model",
        default="gemini-2.5-flash",
        help="Gemini 模型名称（默认：gemini-2.5-flash）",
    )
    parser.add_argument(
        "--gemini-cmd",
        default="gemini",
        help="Gemini CLI 可执行文件名或路径（默认：gemini）",
    )
    parser.add_argument(
        "-v",
        "--verbose",
        action="store_true",
        help="输出处理中的详细信息",
    )
    return parser.parse_args()


def run_gemini(content: str, model: str, cmd: str) -> str:
    """调用 Gemini CLI，将单个文本转换为一行 JSON。"""
    proc = subprocess.run(
        [
            cmd,
            "-m",
            model,
            "--output-format",
            "text",
            "--allowed-tools",
            "",
            SYS_PROMPT,
        ],
        input=content.encode("utf-8"),
        stdout=subprocess.PIPE,
        stderr=subprocess.PIPE,
        check=False,
    )

    stdout = proc.stdout.decode("utf-8", errors="replace").strip()
    stderr = proc.stderr.decode("utf-8", errors="replace").strip()

    if proc.returncode != 0:
        raise RuntimeError(f"Gemini 调用失败 (code={proc.returncode}): {stderr or '无错误输出'}")

    if stderr:
        # 某些 CLI 可能在 stderr 打印警告，保留但不中断
        print(f"⚠️ Gemini 警告: {stderr}", file=sys.stderr)

    if not stdout:
        raise RuntimeError("Gemini 未返回内容")

    # 去除多余行，只保留非空行并合并
    lines = [ln for ln in stdout.splitlines() if ln.strip()]
    return " ".join(lines).strip()


def main() -> None:
    args = parse_args()
    input_dir = args.input.resolve()
    if not input_dir.exists() or not input_dir.is_dir():
        print(f"❌ 输入目录不存在: {input_dir}")
        sys.exit(1)

    output_path = args.output or (input_dir / "prompts.jsonl")
    output_path = output_path.resolve()
    output_path.parent.mkdir(parents=True, exist_ok=True)

    md_files = sorted(f for f in input_dir.iterdir() if f.suffix == ".md")
    if not md_files:
        print(f"⚠️ 未找到任何 .md 文件: {input_dir}")
        sys.exit(0)

    results = []
    for md in md_files:
        content = md.read_text(encoding="utf-8")
        if args.verbose:
            print(f"→ 处理 {md.name}")
        try:
            json_line = run_gemini(content, args.model, args.gemini_cmd)
            results.append(json_line)
        except Exception as exc:  # noqa: BLE001
            print(f"❌ 处理失败 {md.name}: {exc}", file=sys.stderr)

    with output_path.open("w", encoding="utf-8") as f:
        for line in results:
            f.write(line + "\n")

    print(f"✅ 完成：{len(results)} 条 → {output_path}")


if __name__ == "__main__":
    main()