LLM 모델 서빙 시 권장 옵션
권장 VRAM: 640 GB (양자화로 인해 Hopper 이상 GPU 필요)
권장
args: 하단 참조
{
"--gpu-memory-utilization": 0.9,
"--enable-expert-parallel": "X-BOOLEAN-TRUE",
"--max-model-len": 430000,
"--quantization": "compressed-tensors",
"--enable-auto-tool-choice": "X-BOOLEAN-TRUE",
"--tool-call-parser": "pythonic",
"--chat-template": "examples/tool_chat_template_llama4_pythonic.jinja"
}v0.9.0이하에서 tool 옵션 사용 시 unicode 이슈 발생 가능
권장 VRAM: 640 GB
권장
args: 하단 참조
Qwen3 reasoning parser는
v0.9.0이상 지원Reasoning을 원하지 않을 경우
"--no-enable-reasoning": "X-BOOLEAN-TRUE"사용 (v0.10.0에서 deprecated 예정)
권장 VRAM: 640 GB
권장
args: 하단 참조
Function calling template을 별도로 추가해야
tool-call-parser사용 가능Gemma3는 tool calling을 위한 special token이 존재하지 않아, 성능이 저조할 수 있음
RoPE
RoPE scaling은 아래와 같이 설정 가능
Was this helpful?