메인 콘텐츠로 건너뛰기

로컬 모델

많은 개발자가 Llama-3, Mixtral, Gemma, Phi 같은 오픈 소스 모델을 비롯해 다양한 모델을 로컬에서 다운로드해 실행합니다. 이러한 모델을 로컬에서 실행하는 방법은 꽤 다양하며, OpenAI SDK 호환을 지원하는 한 Weave는 그중 일부를 기본으로 지원합니다.

로컬 모델 함수를 @weave.op()으로 감싸기

weave.init('<your-project-name>')로 Weave를 초기화한 다음, LLM 호출을 weave.op()으로 감싸기만 하면 어떤 LLM이든 Weave와 쉽게 직접 통합할 수 있습니다. 자세한 내용은 Tracing 가이드를 참조하세요.

로컬 모델을 사용하도록 OpenAI SDK 코드 업데이트하기

OpenAI SDK 호환을 지원하는 모든 서비스 프레임워크에서는 몇 가지 사소한 변경이 필요합니다. 먼저, 그리고 가장 중요한 변경은 openai.OpenAI()를 초기화할 때 base_url을 바꾸는 것입니다.
client = openai.OpenAI(
    base_url="http://localhost:1234",
)
로컬 모델의 경우 api_key는 어떤 문자열이어도 되지만, 반드시 재정의해야 합니다. 그렇지 않으면 OpenAI가 환경 변수에서 이 값을 사용하려고 하다가 오류를 표시합니다.

OpenAI SDK를 지원하는 로컬 모델 실행 앱

다음은 컴퓨터에서 Hugging Face의 모델을 다운로드하고 실행할 수 있으며, OpenAI SDK 호환을 지원하는 앱 목록입니다.
  1. Nomic GPT4All - Settings의 Local Server를 통해 지원 (FAQ)
  2. LMStudio - Local Server를 통한 OpenAI SDK 지원 문서
  3. Ollama - OpenAI SDK용 OpenAI 호환
  4. llama-cpp-python Python 패키지를 통한 llama.cpp
  5. llamafile - http://localhost:8080/v1는 llamafile 실행 시 자동으로 OpenAI SDK를 지원합니다