LLM 모델 서빙 시 권장 옵션
권장 VRAM: 640 GB (양자화로 인해 Hopper 이상 GPU 필요)
권장
args: 하단 참조
gpu-memory-utilization: 0.9
enable-expert-parallel: true
quantization: "compressed-tensors"
enable-auto-tool-choice: true
tool-call-parser: "pythonic"
chat-template: "examples/tool_chat_template_llama4_pythonic.jinja"
v0.9.0이하에서 tool 옵션 사용 시 unicode 이슈 발생 가능
권장 VRAM: 640 GB
권장
args: 하단 참조
gpu-memory-utilization: 0.95
max-model-len: 32768
tool-call-parser: "hermes"
reasoning-parser: "qwen3"
enable-expert-parallel: true
enable-auto-tool-choice: true
enable-reasoning: trueQwen3 reasoning parser는
v0.9.0이상 지원Reasoning을 원하지 않을 경우
"--no-enable-reasoning": "X-BOOLEAN-TRUE"사용 (v0.10.0에서 deprecated 예정)
권장 VRAM: 640 GB
권장
args: 하단 참조
Function calling template을 별도로 추가해야
tool-call-parser사용 가능Gemma3는 tool calling을 위한 special token이 존재하지 않아, 성능이 저조할 수 있음
RoPE
RoPE scaling은 아래와 같이 설정 가능
Last updated
Was this helpful?