멀티모달 모델 서빙

멀티 모달 모델 서빙하기

edit llm serving info
  • LLM 서빙 생성을 클릭합니다.

    • 참고) 1.5 이전 버전은 멀티 모달 모델과 LLM 모델 서빙 UI가 분리되지 않았습니다.

  • LLM 생성을 위한 필수 정보를 입력합니다.

select llm serving list
  • LLM 서빙 목록에서 생성한 항목을 더블클릭합니다.

  • LLM 서빙 상세 메뉴에서 리비전 추가 버튼을 클릭합니다.

  • LLM 서빙 리비전 생성에 필요한 정보를 입력합니다.

    • 도커이미지 : 서빙에 사용할 환경인 도커이미지를 선택합니다.

    • 인스턴스타입 : 서빙에 필요한 CPU, 메모리 사이즈인 인스턴스 타입을 선택합니다.

    • 모델, 모델 리비전 : 서빙에 사용할 모델과 모델 리비전을 선택합니다.

    • GPU 할당량 : 서빙에 사용할 할당량을 선택하고, 할당량에서 사용가능한 잔여 GPU 중 서빙에 사용할 GPU 수를 선택합니다.

    • args : 서빙 시 사용할 파라미터 정보를 입력합니다.

      • –max-num-seqs는 “한 번에(동시에) 처리할 수 있는 입력 시퀀스의 최대 개수” 로 멀티 모달 모델의 경우 GPU 메모리를 LLM 보다 크게 사용하는 경우가 많아, 제한을 추가적으로 합니다.

      • –enforce-eager는 최신 Vision Instruct 모델의 호환성 이슈가 있을 수 있어 X-BOOLEAN-TRUE로 하여 안정성을 확보합니다.

select revision
  • 리비전 목록 탭에서 추가한 리비전을 더블 클릭합니다.

llm serving revision detail
  • LLM 리비전 상세 페이지에서 배포 버튼을 클릭합니다.

llm serving deploy
  • LLM 서빙 리비전 배포가 승이되면 상태가 Online으로 바뀌고 모델 사용이 가능합니다.

멀티모달 서빙 확인하기

  • 서빙 리비전이 배포 된 후 테스트 버튼을 클릭하여 모델의 동작을 확인할 수 있습니다.

  • 이미지 첨부를 통한 질의는 API로 테스트할 수 있습니다.

  • UI를 사용한 테스트는 1.5 버전에서 사용하실 수 있습니다.

Last updated

Was this helpful?