OSS Agents JP
オープンソース AI エージェント 日本語ガイド
← 一覧へ
OpenLLM
OTHER

OpenLLM

OpenLLM

任意のオープンソースLLM(Llama、DeepSeekなど)をOpenAI互換APIで簡単に実行・デプロイできるツール。Docker/Kubernetesによるクラウド環境への企業グレードのデプロイメントに対応しています。

#LLM推論#モデルデプロイ#OpenAI互換API
EDITOR'S TAKE

編集部メモ

OpenAI互換で、自社LLMサーバーを1コマンドで起動

既存のOpenAI連携コードをそのまま生かしながら、Llama・DeepSeekなどの自由なオープンソースLLMをデプロイできるツールです。Docker/Kubernetesでのエンタープライズグレード環境への対応が特徴で、複数モデルのサポートと組み込みチャットUIで検証から本番運用がスムーズです。ただし、GPU要件が高く(Llamaで最低24G~)、セットアップには技術知識が必要なため、本格的な運用コストの検討が必須です。

USE CASES

こんな場面で使う

  • 既存のOpenAI API統合コードを変更せずに自社ホストLLMへ乗り換える
  • Kubernetes クラスタ上で複数の大規模言語モデルを本番運用する
  • ファインチューニングしたカスタムモデルをAPI サーバーとして公開する
DIFFERENTIATOR

類似ツールとの違い

vLLM や Ollama と異なり、BentoML ベースでKubernetes・クラウドネイティブなデプロイメント圏に最適化されています。OpenAI互換API という統一インターフェースが強みで、Llamaなど多様なモデル選択肢が豊富です。
CAVEAT

注意点・向かない用途

⚠️ GPU メモリ要件が高く(小規模モデルでも12G以上必要)、自社リソースでの運用コスト検討が必須です。セットアップにはPython・Docker・Kubernetesの実装知識が求められます。
BEST FOR

向いている読者

バックエンド開発者MLOpsエンジニア企業AI導入担当者

— OSS Agents JP 編集部による独自評価(OpenLLM に関する観察)

REPO STATS

リポジトリ統計

⭐ Stars
-
🍴 Forks
-
⚠️ Open Issues
-
🌿 Language
-
📄 License
-
🕒 最終更新
-
📅 公開日
-
🌿 Branch
-
REFERENCE

公式ドキュメント(README)

本ハブの独自評価は上記「編集部メモ」が一次情報です。以下は GitHub README の参考転載(折りたたみ)。

📖 GitHub README の日本語訳を読む(AI 自動翻訳 / 参考情報)

— AI による自動翻訳 (2026.05.23 更新)。正確な情報は GitHub の原文 をご確認ください。

🦾 OpenLLM: LLMのセルフホスティングが簡単に

License: Apache-2.0 Releases CI X Community

OpenLLMを使用すると、開発者は任意のオープンソースLLM(Llama 3.3、Qwen2.5、Phi3などその他)またはカスタムモデルOpenAI互換APIとして単一のコマンドで実行できます。組み込みチャットUI、最先端の推論バックエンド、およびDocker、Kubernetes、BentoCloudを使用したエンタープライズグレードのクラウドデプロイメント用の簡素化されたワークフローが備わっています。

OpenLLMの設計哲学を理解する

はじめる

次のコマンドを実行してOpenLLMをインストールし、対話的に探索してください。

pip install openllm  # or pip3 install openllm
openllm hello

hello

サポートされているモデル

OpenLLMは、幅広い最先端のオープンソースLLMをサポートしています。また、OpenLLMでカスタムモデルを実行するモデルリポジトリを追加することもできます。

モデル パラメータ 必要なGPU サーバーを起動
deepseek r1-671b 80Gx16 openllm serve deepseek:r1-671b
gemma2 2b 12G openllm serve gemma2:2b
gemma3 3b 12G openllm serve gemma3:3b
jamba1.5 mini-ff0a 80Gx2 openllm serve jamba1.5:mini-ff0a
llama3.1 8b 24G openllm serve llama3.1:8b
llama3.2 1b 24G openllm serve llama3.2:1b
llama3.3 70b 80Gx2 openllm serve llama3.3:70b
llama4 17b16e 80Gx8 openllm serve llama4:17b16e
mistral 8b-2410 24G openllm serve mistral:8b-2410
mistral-large 123b-2407 80Gx4 openllm serve mistral-large:123b-2407
phi4 14b 80G openllm serve phi4:14b
pixtral 12b-2409 80G openllm serve pixtral:12b-2409
qwen2.5 7b 24G openllm serve qwen2.5:7b
qwen2.5-coder 3b 24G openllm serve qwen2.5-coder:3b
qwq 32b 80G openllm serve qwq:32b

完全なモデルリストについては、OpenLLMモデルリポジトリを参照してください。

LLM サーバーを起動する

LLM サーバーをローカルで起動するには、openllm serve コマンドを使用してモデルバージョンを指定してください。

注記

OpenLLM はモデルウェイトを保存しません。ゲートされたモデルには Hugging Face トークン(HF_TOKEN)が必要です。

  1. Hugging Face トークンをここで作成してください。
  2. meta-llama/Llama-3.2-1B-Instruct などのゲートされたモデルへのアクセスをリクエストしてください。
  3. 以下を実行して、トークンを環境変数として設定してください:
    export HF_TOKEN=<your token>
openllm serve llama3.2:1b

サーバーは http://localhost:3000 でアクセス可能で、相互作用用の OpenAI 互換 API を提供します。OpenAI 互換 API をサポートする異なるフレームワークとツールでエンドポイントを呼び出すことができます。通常、以下を指定する必要があります:

  • API ホストアドレス:デフォルトでは、LLM は http://localhost:3000 でホストされています。
  • モデル名:名前は使用するツールによって異なる場合があります。
  • API キー:クライアント認証に使用される API キー。これはオプションです。

以下に例を示します:

OpenAI Python クライアント
from openai import OpenAI

client = OpenAI(base_url='http://localhost:3000/v1', api_key='na')

# Use the following func to get the available models
# model_list = client.models.list()
# print(model_list)

chat_completion = client.chat.completions.create(
    model="meta-llama/Llama-3.2-1B-Instruct",
    messages=[
        {
            "role": "user",
            "content": "Explain superconductors like I'm five years old"
        }
    ],
    stream=True,
)
for chunk in chat_completion:
    print(chunk.choices[0].delta.content or "", end="")
LlamaIndex
from llama_index.llms.openai import OpenAI

llm = OpenAI(api_bese="http://localhost:3000/v1", model="meta-llama/Llama-3.2-1B-Instruct", api_key="dummy")
...

チャット UI

OpenLLM は、起動された LLM サーバーの /chat エンドポイントで http://localhost:3000/chat にチャット UI を提供します。

openllm_ui

CLI でモデルとチャットする

CLI でチャット会話を開始するには、openllm run コマンドを使用してモデルバージョンを指定してください。

openllm run llama3:8b

モデルリポジトリ

OpenLLM のモデルリポジトリは、実行できる利用可能な LLM のカタログを表します。OpenLLM は、Llama 3、Mistral、Qwen2 などの最新のオープンソース LLM を含むデフォルトモデルリポジトリを提供しており、この GitHub リポジトリでホストされています。デフォルトと追加されたリポジトリから利用可能なすべてのモデルを確認するには、次を使用します:

openllm model list

ローカルモデルリストをすべての接続されたリポジトリの最新更新と同期させるには、次を実行します:

openllm repo update

モデルの情報を確認するには、次を実行します:

openllm model get llama3.2:1b

デフォルトモデルリポジトリにモデルを追加する

デフォルトモデルリポジトリに他のユーザーが使用できる新しいモデルを追加することで貢献できます。これには LLM の Bento を作成して送信することが含まれます。詳細については、この例のプルリクエストを確認してください。

カスタムリポジトリをセットアップする

OpenLLM にカスタムモデルを含む独自のリポジトリを追加できます。そのためには、カスタム LLM を保存するための bentos ディレクトリを使用して、デフォルトの OpenLLM モデルリポジトリの形式に従ってください。BentoML で Bentos をビルドしてモデルリポジトリに送信する必要があります。

まず、Bentos をビルドするための BentoML が提供するガイドラインに従ってbentos ディレクトリにカスタムモデルを準備します。例についてはデフォルトモデルリポジトリを確認し、詳細については開発者ガイドを読んでください。

次に、カスタムモデルリポジトリを OpenLLM に登録します:

openllm repo add <repo-name> <repo-url>

:現在、OpenLLM はパブリックリポジトリの追加のみをサポートしています。

BentoCloud にデプロイする

OpenLLM は、統一されたモデルサービングフレームワークである BentoML と、エンタープライズ AI チーム向けの AI 推論プラットフォームである BentoCloud を介した LLM クラウドデプロイメントをサポートしています。BentoCloud は、オートスケーリング、モデルオーケストレーション、可観測性など多くの機能を備えた、LLM 推論に最適化された完全に管理されたインフラストラクチャを提供し、任意の AI モデルをクラウドで実行できます。

BentoCloud に無料でサインアップしてログインしてください。次に、openllm deploy を実行してモデルを BentoCloud にデプロイします:

openllm deploy llama3.2:1b --env HF_TOKEN

ゲートされたモデルをデプロイする場合は、環境変数に HF_TOKEN を設定してください。

デプロイメントが完了したら、BentoCloud コンソールでモデル推論を実行できます:

bentocloud_ui

コミュニティ

OpenLLM は BentoML チームによってアクティブに保守されています。LLM をより利用しやすく簡単に使えるようにするための私たちの追求に気軽に連絡して参加してください 👉 Slack コミュニティに参加してください!

貢献

オープンソースプロジェクトとして、新機能、バグ修正、ドキュメントなど、あらゆる種類の貢献を歓迎します。貢献する方法のいくつかを以下に示します:

謝辞

このプロジェクトは以下のオープンソースプロジェクトを使用しています:

これらのプロジェクトの開発者および貢献者の努力と献身に感謝します。

RELATED

同じカテゴリの他のツール