# 모델 서빙 ### 모델 서빙 목록

* 서빙 페이지에는 **모델 서빙**과 **코드 서빙** 두 가지 탭이 있습니다. * **모델 서빙** 탭에서는 총 6가지(LLM / VLM / 임베딩 / 리랭크 / I2I / T2I) 서빙 목록을 확인할 수 있습니다. * 목록에서 ID, 서빙 유형, 제목, 상세 설명, 대표 리비전 아이디, 리비전 수, 배포 수, 제작자 정보를 확인할 수 있습니다. ### 모델 서빙 생성하기

* **서빙 생성 버튼**을 클릭합니다.

* 모델 서빙 생성을 위한 필수 정보를 입력합니다. * **서빙 유형**: LLM / VLM / 임베딩 / 리랭크 / I2I / T2I 중 선택합니다. * **제목**: 서빙의 이름을 입력합니다. * **상세 설명**: 서빙의 목적이나 특징을 설명합니다. * **관리 그룹**: 서빙을 관리할 그룹을 선택합니다. ### 모델 서빙 리비전 추가하기

* 모델 서빙 목록에서 생성한 항목을 더블 클릭하여 상세 페이지로 이동합니다. * 모델 서빙에서는 **서빙 리비전 추가**와 **LoRA 어댑터 리비전 추가** 2가지가 있습니다. * LoRA 어댑터 리비전 추가는 서빙 리비전이 추가되어야 가능합니다. * 모델 서빙 상세 메뉴에서 **서빙 리비전 추가 버튼**을 클릭합니다.

* 모델 서빙 리비전 생성에 필요한 정보를 입력합니다. * **도커 이미지**: 서빙에 사용할 환경인 도커 이미지를 선택합니다. * **인스턴스 타입**: 서빙에 필요한 CPU, 메모리 사이즈인 인스턴스 타입을 선택합니다. * **모델, 모델 리비전**: 서빙에 사용할 모델과 모델 리비전을 선택합니다. * **GPU 할당량**: 서빙에 사용할 할당량을 선택하고, 할당량에서 사용 가능한 잔여 GPU 중 서빙에 사용할 GPU 수를 선택합니다. * **args**: 서빙 시 사용할 파라미터 정보를 입력합니다. * 주의사항 > 1. T4 GPU를 사용할 경우 dtype을 지원하지 않으므로 dtype:half를 설정해야 합니다. > > 2. LoRA 어댑터를 사용하기 위해서는 해당 args에서 'max\_lora\_rank'와 'enable\_auto\_tool\_choice', 'tool\_call\_parser', 'enable\_lora' 설정을 입력해주세요. > > * LoRA를 사용하지 않는다면 설정하지 않으셔도 됩니다.

* 리비전 목록 탭에서 추가한 리비전을 더블 클릭합니다.

* 모델 서빙 리비전 상세 페이지에서 **배포 버튼**을 클릭합니다. * 배포 버튼이 배포 취소 버튼으로 바뀌고, 승인 상태 창이 배포신청으로 바뀌면 배포 신청이 완료된 것입니다. * 승인 권한을 가지고 있는 사용자가 배포 승인을 해주어야 배포가 완료됩니다. * 모델 서빙 리비전 배포가 승인되면 상태가 Online으로 바뀌고 모델 사용이 가능합니다. * 서빙 리비전이 배포된 후 테스트 버튼을 클릭하여 모델의 동작을 확인할 수 있습니다. ### LoRA 어댑터 리비전 추가하기

* 모델 서빙 상세 페이지에서 **LoRA 어댑터 리비전 추가 버튼**을 클릭합니다.

* 앞서 배포한 서빙 리비전이 **기반 서빙 리비전**이 됩니다. * **LoRA 어댑터** 부분에서 사용할 LoRA 파인튜닝한 어댑터를 선택합니다. * 설정 완료 후 리비전 목록에서 어댑터가 적용된 것을 확인할 수 있습니다. ### 대표 리비전 등록하기 * 대표 리비전은 리비전들을 대표하는 리비전으로 서빙 엔드포인트를 노출합니다. * 대표 리비전으로 등록해야 워크플로우 Flowise ChatMNC 노드에서 서빙된 모델을 사용하거나, 인증키를 활용한 API 호출을 사용할 수 있습니다.

* 기본 정보 탭에서 **수정 버튼**을 클릭합니다. * **대표 리비전 아이디**와 **트래픽 분배**를 설정합니다. * 설정 완료 후 **저장 버튼**을 클릭합니다.

* 대표 리비전 아이디가 등록되었습니다. * 이제 API 호출 및 워크플로우에서 서빙된 모델을 사용할 수 있습니다.

* 모델 서빙 목록에서 대표 리비전이 설정된 것을 확인할 수 있습니다. --- # Agent Instructions: Querying This Documentation If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question. Perform an HTTP GET request on the current page URL with the `ask` query parameter: ``` GET https://genos-docs.gitbook.io/default/v1.7.5/basic-tutorials/guides/llm/model-serving.md?ask= ``` The question should be specific, self-contained, and written in natural language. The response will contain a direct answer to the question and relevant excerpts and sources from the documentation. Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.