LLM 모델 서빙
LLM 모델 서빙하기

LLM 서빙 생성 버튼을 클릭합니다.

LLM 생성을 위한 필수 정보를 입력합니다.

LLM 서빙 목록에서 생성한 항목을 더블 클릭합니다.

LLM 서빙 상세 메뉴에서 리비전 추가 버튼을 클릭합니다.

LLM 서빙 리비전 생성에 필요한 정보를 입력합니다.
도커이미지 : 서빙에 사용할 환경인 도커이미지를 선택합니다.
인스턴스타입 : 서빙에 필요한 CPU, 메모리 사이즈인 인스턴스 타입을 선택합니다.
모델, 모델 리비전 : 서빙에 사용할 모델과 모델 리비전을 선택합니다.
GPU 할당량 : 서빙에 사용할 할당량을 선택하고, 할당량에서 사용가능한 잔여 GPU 중 서빙에 사용할 GPU 수를 선택합니다.
args : 서빙 시 사용할 파라미터 정보를 입력합니다.

리비전 목록 탭에서 추가한 리비전을 더블 클릭합니다.

LLM 리비전 상세 페이지에서 배포 버튼을 클릭합니다.

배포 버튼이 배포 취소 버튼으로 바뀌고, 승인 상태 창이 배포신청으로 바뀌면 배포 신청이 완료 된것입니다.
승인권한을 가지고 있는 사용자가 배포승인을 해주어야 배포가 완료 됩니다.

LLM 서빙 리비전 배포가 승인되면 상태가 Online으로 바뀌고 모델 사용이 가능합니다.
서빙 리비전이 배포 된 후 테스트 버튼을 클릭하여 모델의 동작을 확인할 수 있습니다.
대표 리비전 등록
대표 리비전은 리비전들을 대표하는 리비전으로 서빙 엔드 포인트를 노출합니다.
대표 리비전으로 등록해야 워크플로우 flowise chatmnc 노드에서 서빙된 모델을 사용하거나, 인증키를 활용한 API 호출을 사용할 수 있습니다.

기본 정보 탭에서 수정 버튼을 누릅니다.

대표리비전 아이디 드롭다운 메뉴를 눌러서, 배포한 리비전을 선택하고 저장버튼을 누릅니다.

대표 리비전 아이디가 등록 되었습니다.
이제 API 호출 및 워크플로우에서 서빙된 모델을 사용할 수 있습니다.
Last updated
Was this helpful?