circle-chevron-rightLLM 모델 서빙

LLM 모델 서빙하기

  • LLM 서빙 생성 버튼을 클릭합니다.

  • LLM 생성을 위한 필수 정보를 입력합니다.

  • LLM 서빙 목록에서 생성한 항목을 더블 클릭합니다.

  • LLM 서빙에서는 서빙 리비전 추가와 LoRA 어댑터 리비전 추가 2가지가 있습니다.

    • LoRA 어댑터 리비전 추가는 서빙 리비전이 추가 되어야지 가능합니다.

  • 우선 LLM 서빙 상세 메뉴에서 서빙 리비전 추가 버튼을 클릭합니다.

figure>

  • LLM 서빙 리비전 생성에 필요한 정보를 입력합니다.

    • 도커이미지 : 서빙에 사용할 환경인 도커이미지를 선택합니다.

    • 인스턴스타입 : 서빙에 필요한 CPU, 메모리 사이즈인 인스턴스 타입을 선택합니다.

    • 모델, 모델 리비전 : 서빙에 사용할 모델과 모델 리비전을 선택합니다.

    • GPU 할당량 : 서빙에 사용할 할당량을 선택하고, 할당량에서 사용가능한 잔여 GPU 중 서빙에 사용할 GPU 수를 선택합니다.

    • args : 서빙 시 사용할 파라미터 정보를 입력합니다.

  • 주의사항

    1. T4 GPU를 사용할 경우 dtype을 지원하지 않으므로 dtype:half를 설정해야합니다.

    2. LoRA 어댑터를 사용하기 위해서는 해당 args에서 'max_lora_rank'와 'enable_auto_tool_choice' , 'tool_call_parser', 'enable_lora'설정을 입력해주세요.

    • LoRA를 사용하지 않는다면 설정하지 않으셔도 됩니다.

  • 리비전 목록 탭에서 추가한 리비전을 더블 클릭합니다.

  • LLM 리비전 상세 페이지에서 배포 버튼을 클릭합니다.

  • 배포 버튼이 배포 취소 버튼으로 바뀌고, 승인 상태 창이 배포신청으로 바뀌면 배포 신청이 완료 된것입니다.

  • 승인권한을 가지고 있는 사용자가 배포승인을 해주어야 배포가 완료 됩니다.

  • LLM 서빙 리비전 배포가 승인되면 상태가 Online으로 바뀌고 모델 사용이 가능합니다.

  • 서빙 리비전이 배포 된 후 테스트 버튼을 클릭하여 모델의 동작을 확인할 수 있습니다.

LoRA 어댑터 리비전 등록

  • 해당 버튼을 클릭합니다

  • (LLM 모델 서빙하기) 에서 배포한 리비전이 기반 서빙 리비전입니다.

  • LoRA 어댑터 부분은 사용할 LoRA 파인튜닝한 어댑터를 선택합니다.

리비전 목록에서 어댑터가 적용된것을 확인할 수 있습니다.

대표 리비전 등록

  • 대표 리비전은 리비전들을 대표하는 리비전으로 서빙 엔드 포인트를 노출합니다.

  • 대표 리비전으로 등록해야 워크플로우 flowise chatmnc 노드에서 서빙된 모델을 사용하거나, 인증키를 활용한 API 호출을 사용할 수 있습니다.

  • 기본 정보 탭에서 수정 버튼을 누릅니다.

  • 대표리비전 아이디 트래픽 분배를 설정합니다. 설정 후 저장버튼을 누릅니다.

  • 대표 리비전 아이디가 등록 되었습니다.

  • 이제 API 호출 및 워크플로우에서 서빙된 모델을 사용할 수 있습니다.

Last updated

Was this helpful?