LLM 모델 서빙 시 권장 옵션

  • 권장 VRAM: 640 GB (양자화로 인해 Hopper 이상 GPU 필요)

  • 권장 args: 하단 참조

{
  "--gpu-memory-utilization": 0.9,
  "--enable-expert-parallel": "X-BOOLEAN-TRUE",
  "--max-model-len": 430000,
  "--quantization": "compressed-tensors",
  "--enable-auto-tool-choice": "X-BOOLEAN-TRUE",
  "--tool-call-parser": "pythonic",
  "--chat-template": "examples/tool_chat_template_llama4_pythonic.jinja"
}

  • 권장 VRAM: 640 GB

  • 권장 args: 하단 참조

{
  "--gpu-memory-utilization": 0.95,
  "--enable-expert-parallel": "X-BOOLEAN-TRUE",
  "--max-model-len": 32768,
  "--enable-auto-tool-choice": "X-BOOLEAN-TRUE",
  "--tool-call-parser": "hermes",
  "--enable-reasoning": "X-BOOLEAN-TRUE",
  "--reasoning-parser": "qwen3"
}
  • Qwen3 reasoning parserv0.9.0 이상 지원

  • Reasoning을 원하지 않을 경우 "--no-enable-reasoning": "X-BOOLEAN-TRUE" 사용 (v0.10.0에서 deprecated 예정)

  • 권장 VRAM: 640 GB

  • 권장 args: 하단 참조

{
  "--gpu-memory-utilization": 0.9,
  "--max-model-len": 100000,
  "--enable-auto-tool-choice": "X-BOOLEAN-TRUE",
  "--tool-call-parser": "pythonic",
  "--chat-template": "/mnt/model/tool_chat_template_gemma3_pythonic.jinja"
}

RoPE

{
    "--rope-scaling": "{\"rope_type\": \"yarn\", \"factor\": 4.0, \"original_max_position_embeddings\": 32768}"
}

Last updated

Was this helpful?