# 멀티모달 모델 서빙

* 멀티 모달 모델 서빙하기

<figure><img src="/files/oTJeZqxbFiaTlT7k3xmg" alt=""><figcaption></figcaption></figure>

* LLM 서빙 생성을 클릭합니다.
* VLM을 선택합니다.
* LLM 생성을 위한 필수 정보를 입력합니다.
* LLM 서빙 목록에서 생성한 항목을 더블클릭합니다.

<figure><img src="/files/lBAiPZTukOtJYsXnnHCE" alt=""><figcaption></figcaption></figure>

* LLM 서빙 상세 메뉴에서 리비전 추가 버튼을 클릭합니다.

<figure><img src="/files/FZTh94DrAfn7TFyYMVIP" alt=""><figcaption></figcaption></figure>

* LLM 서빙 리비전 생성에 필요한 정보를 입력합니다.
  * 도커이미지 : 서빙에 사용할 환경인 도커이미지를 선택합니다.**(이미지마다 서빙할 수 있는 모델이 다릅니다.dotocr은 vllm 11버전 이상의 이미지부터 지원합니다.)**
  * 인스턴스타입 : 서빙에 필요한 CPU, 메모리 사이즈인 인스턴스 타입을 선택합니다.
  * 모델, 모델 리비전 : 서빙에 사용할 모델과 모델 리비전을 선택합니다.
  * GPU 할당량 : 서빙에 사용할 할당량을 선택하고, 할당량에서 사용가능한 잔여 GPU 중 서빙에 사용할 GPU 수를 선택합니다.
  * **args : 서빙 시 사용할 파라미터 정보를 입력합니다.**
    * **`–max-num-seqs는` “한 번에(동시에) 처리할 수 있는 입력 시퀀스의 최대 개수” 로 멀티 모달 모델의 경우 GPU 메모리를 LLM 보다 크게 사용하는 경우가 많아, 제한을 추가적으로 합니다.**
    * **`–enforce-eager는 최신 Vision Instruct 모델의 호환성 이슈가 있을 수 있어`** `true`**`로 하여 안정성을 확보합니다.`**

<figure><img src="/files/1QhWrCFZAbbR3YTSzIWw" alt=""><figcaption></figcaption></figure>

* 리비전 목록 탭에서 추가한 리비전을 더블 클릭합니다.

<figure><img src="/files/BjDM1dpQ4Qk6Lttqa0VY" alt=""><figcaption></figcaption></figure>

* LLM 리비전 상세 페이지에서 배포 버튼을 클릭합니다.
* LLM 서빙 리비전 배포가 승이되면 상태가 Online으로 바뀌고 모델 사용이 가능합니다.

### 멀티모달 서빙 확인하기

<figure><img src="/files/AnoeYSVe5JEdznLzDJBq" alt=""><figcaption></figcaption></figure>

* 트래픽을 분배하기 위해 **수정**버튼을 누릅니다.

<figure><img src="/files/5rerzUFpDhDN8B1DrOZx" alt=""><figcaption></figcaption></figure>

* 트래픽을 100으로 설정하고 **저장** 버튼을 누릅니다.

<figure><img src="/files/27cAw4UioFhrO5GVvab4" alt=""><figcaption></figcaption></figure>

* 대표 리비전으로 설정된것을 확인할 수 있습니다.

<figure><img src="/files/UYB6CjN1vrDeiMfh3yE6" alt=""><figcaption></figcaption></figure>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://genos-docs.gitbook.io/default/v1.8.5/advanced-tutorials/guides/serving/multi-modal-serving.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
