📢 詳細な Berkeley Function Calling Leaderboard チェンジログをご覧ください(最終更新:
)。Berkeley Function Calling Leaderboard の最新のデータセット・モデル更新についてはこちらをご覧ください!
-
🤖 [07/17/2025] BFCL V4 Agentic を発表!関数呼び出しがエージェント型システムの基礎を成すため、BFCL V4 Agentic ベンチマークは実世界のエージェント型設定でのツール呼び出しに焦点を当てており、マルチホップ推論とエラーリカバリ、エージェントメモリ管理、フォーマット感度評価を備えています。[Web-search ブログ] [Memory ブログ] [Format Sensitivity ブログ] [PR] [ツイート]
-
🎯 [10/04/2024] Gorilla X LMSYS Chatbot Arena による Agent Arena を導入!検索、ファイナンス、RAG など、さまざまなタスクで異なるエージェントを比較します。新しいランキングシステムとコミュニティ駆動のプロンプトハブを通じて、特定のタスクにどのモデルとツールが最も適しているかを探索してください。[ブログ] [Arena] [リーダーボード] [データセット] [ツイート]
-
📣 [09/21/2024] BFCL V3 を発表 - マルチターンおよびマルチステップの関数呼び出し機能を評価します!新しい状態ベースの評価システムは、複雑なワークフロー、順序付き関数、サービス状態の処理をモデルでテストします。[ブログ] [リーダーボード] [コード] [ツイート]
-
🚀 [08/20/2024] BFCL V2 をリリース • ライブ!Berkeley Function-Calling Leaderboard はエンタープライズ寄稿データと実世界のシナリオを備えるようになりました。[ブログ] [ライブリーダーボード] [V2 カテゴリーリーダーボード] [ツイート]
-
⚡️ [04/12/2024] GoEx - コード、API 呼び出し、その他の LLM 生成アクションのランタイムのリリースを発表します。実行後に LLM アクションを評価するための「事後検証」、意図しないアクションとリスクを管理するための「取り消し」および「損害の制限」抽象化を備えています。これは完全に自律的な LLM エージェントへの道を切り開き、アプリとサービス間の相互作用を人間の関与なしで向上させます。[ブログ] [コード] [論文] [ツイート]
-
⏰ [04/01/2024] Berkeley 関数呼び出しリーダーボードにコストとレイテンシーメトリクスを導入しました!
-
🚀 [03/15/2024] RAFT: Adapting Language Model to Domain Specific RAG がライブです![MSFT-Meta ブログ] [Berkeley ブログ]
-
🏆 [02/26/2024] Berkeley Function Calling Leaderboard がライブです!
-
🎯 [02/25/2024] OpenFunctions v2 がオープンソース LLM の新しい最先端を樹立しました!
-
🔥 [11/16/2023] Gorilla OpenFunctions のリリースを発表します
-
💻 [06/29/2023] gorilla-cli をリリース。CLI 用の LLM!
-
🟢 [06/06/2023] 商用利用可能な Apache 2.0 ライセンス Gorilla モデルをリリースしました
-
🚀 [05/30/2023] Gorilla とチャットするための CLI インターフェースを提供しました!
-
🚀 [05/28/2023] Torch Hub および TensorFlow Hub モデルをリリースしました!
-
🚀 [05/27/2023] 最初の Gorilla モデルをリリースしました!
または 🤗!
-
🔥 [05/27/2023] コミュニティ API 寄稿のための APIZoo 貢献ガイドをリリースしました!
-
🔥 [05/25/2023] APIBench データセットと Gorilla の評価コードをリリースしました!
Gorilla は LLM が API を呼び出してツールを使用することを可能にします。自然言語クエリが与えられると、Gorilla は意味的および構文的に正しい API を生成します。
Gorilla を使用して、1,600 以上(および増加中)の API 呼び出しを正確に呼び出す方法を初めて実証し、ハルシネーションを削減しています。このリポジトリには、Gorilla ファインチューニングモデルを実行するための推論コード、論文の結果を再現するための評価コード、およびAPIBench(最大規模の API コレクションで、キュレートされて訓練しやすい)が含まれています。
初回リリース以来、約 500,000 のリクエストを処理し、世界中の開発者による驚くべき採用を目撃しています。プロジェクトは、ツール、評価、リーダーボード、エンドツーエンドのファインチューニングレシピ、インフラストラクチャコンポーネント、および Gorilla API Store を含むように拡張されています。
| プロジェクト | タイプ | 説明(クリックして展開) |
|---|---|---|
| Gorilla Paper | 🤖 Model 📝 Fine-tuning 📚 Dataset 📊 Evaluation 🔧 Infra |
大規模言語モデルと膨大な API の接続• API 呼び出しのための新しいファインチューニングアプローチ• 1,600 以上の API での評価(APIBench) • テスト時適応のための検索拡張訓練 |
| Gorilla OpenFunctions-V2 | 🤖 Model | 関数呼び出しのドロップイン代替。複数の複雑なデータ型と並列実行をサポート• OpenAI 互換エンドポイントでの複数および並列関数実行• Python、Java、JavaScript、REST API の拡張データ型によるネイティブサポート • ハルシネーション削減のための関数関連性検出 • RESTful API 形式化機能の強化 • オープンソースモデル間での最先端の性能 |
| Berkeley Function Calling Leaderboard (BFCL) | 📊 Evaluation 🏆 Leaderboard 🔧 Function Calling Infra 📚 Dataset |
関数呼び出し機能の包括的評価• V1: シングルターン関数呼び出しを評価するためのエキスパートキュレーションデータセット• V2: 実世界シナリオのためのエンタープライズ寄稿データ • V3: マルチターン&マルチステップ関数呼び出し評価 • すべてのモデルのコストとレイテンシメトリクス • テスト用のインタラクティブ API エクスプローラ • コミュニティドリブンなベンチマーキングプラットフォーム |
| Agent Arena | 📊 Evaluation 🏆 Leaderboard |
モデル、ツール、フレームワーク全体で LLM エージェントを比較• ELO レーティングシステムでのエージェント一対一比較• フレームワーク互換性テスト(LangChain、AutoGPT) • コミュニティドリブン評価プラットフォーム • 実世界タスク性能メトリクス |
| Gorilla Execution Engine (GoEx) | 🔧 Infra | 安全保証付き LLM 生成アクション実行のためのランタイム• 実行後の LLM アクション検証のための事後検証• リスク軽減のための取消機能と損害制限 • 複数サービスの OAuth2 および API キー認証 • RESTful API、データベース、ファイルシステム操作のサポート • Docker ベースのサンドボックス実行環境 |
| Retrieval-Augmented Fine-tuning (RAFT) | 📝 Fine-tuning 🤖 Model |
ロバストなドメイン固有検索のための LLM ファインチューニング• ドメイン固有 RAG のための新しいファインチューニングレシピ• 直接ドキュメント引用による思考の鎖アンサー • オラクルおよびディストラクタドキュメントでの訓練 • PubMed、HotpotQA、および Gorilla ベンチマークでの性能改善 • ドメイン QA のためのより小さいモデルの効率的な適応 |
| Gorilla CLI | 🤖 Model 🔧 Local CLI Infra |
コマンドラインインターフェースのための LLM• 約 1500 の API をサポートするユーザーフレンドリー CLI ツール(Kubernetes、AWS、GCP など)• マルチ LLM フュージョンによる自然言語コマンド生成 • プライバシーに焦点を当てた明示的な実行承認 • コマンド履歴とインタラクティブ選択インターフェース |
| Gorilla API Zoo | 📚 Dataset | 最新の API ドキュメントのコミュニティ管理リポジトリ• 複数ドメイン全体の一元化された検索可能な API インデックス• 引数、バージョン、サンプルを含む構造化ドキュメント形式 • API 変更に対応するためのコミュニティドリブン更新 • モデル訓練とファインチューニングのための豊富なデータソース • 検索拡張訓練と推論を可能にします • 最新ドキュメントを通じてハルシネーションを削減 |
ブラウザで Gorilla を試してください:
- 🚀 Gorilla Colab デモ:基本 Gorilla モデルを試す
- 🌐 Gorilla Gradio デモ:インタラクティブなウェブインターフェース
- 🔥 OpenFunctions Colab デモ:最新の OpenFunctions モデルを試す
- 🎯 OpenFunctions ウェブサイト デモ:関数呼び出しを試験する
- 📊 Berkeley 関数呼び出しリーダーボード:関数呼び出し機能を比較
- Gorilla CLI - 最速で始める方法
pip install gorilla-cli
gorilla generate 100 random characters into a file called test.txt- Gorilla をローカルで実行
git clone https://github.com/ShishirPatil/gorilla.git
cd gorilla/inference- OpenFunctions を使用
import openai
openai.api_key = "EMPTY"
openai.api_base = "http://luigi.millennium.berkeley.edu:8000/v1"
# Define your functions
functions = [{
"name": "get_current_weather",
"description": "Get weather in a location",
"parameters": {
"type": "object",
"properties": {
"location": {"type": "string"},
"unit": {"type": "string", "enum": ["celsius", "fahrenheit"]}
},
"required": ["location"]
}
}]
# Make API call
completion = openai.ChatCompletion.create(
model="gorilla-openfunctions-v2",
messages=[{"role": "user", "content": "What's the weather in San Francisco?"}],
functions=functions
)-
📊 評価とベンチマーク
- Berkeley 関数呼び出しリーダーボード:関数呼び出し機能を比較
- Agent Arena:エージェントワークフローを評価
- Gorilla ペーパー評価スクリプト:独自の評価を実行
-
🛠️ 開発ツール
- Gorilla を商用利用したいのですが、Apache 2.0 ライセンス版は提供されますか?
はい!現在、商用利用可能で義務のないモデルが提供されています。
- Gorilla を Langchain などの他のツールと組み合わせて使用できますか?
もちろんです!これは当社のツールの素晴らしい側面です。Gorilla はエンドツーエンドモデルで、追加のコーディングを必要とせず、正確な API 呼び出し(ツール)を実行するように特別に設計されています。より広いエコシステムの一部として機能するように設計され、agentic フレームワークや他のツール内に柔軟に統合できます。
Langchain は多用途な開発者向けツールです。その「agents」は任意の LLM(Gorilla を含む)に効率的に置き換えられ、様々なニーズに対応できる非常に適応性の高いソリューションです。
これらのツールの魅力は、相互に協力し、それぞれの強みと機能を補い合い、さらに強力で包括的なソリューションを作成するときに本当に輝きます。ここがあなたの貢献が違いを生む場所です。これらのツールをさらに改善・強化するための提案を積極的にお待ちしています。
Gorilla の使い方:ステップバイステップ解説のブログをご確認いただき、Gorilla をプロジェクトに統合するさまざまな方法をご覧ください。
今後、以下のリリースを予定しています:
- マルチモーダル関数呼び出しリーダーボード
- Agentic 関数呼び出しリーダーボード
- ユーザーが投稿した新しいライブ関数呼び出し評価
- 汚染を評価するための BFCL メトリクス
- より多くの言語とマルチターン機能をサポートする Openfunctions-v3 モデル
- モデル、ツール、フレームワーク全体で LLM エージェントを比較する Agent Arena [10/04/2024]
- マルチターンおよびマルチステップ関数呼び出し評価 [09/21/2024]
- ユーザーが投稿したライブ関数呼び出しリーダーボード [08/20/2024]
- コストとレイテンシを含む BFCL システムメトリクス [04/01/2024]
- Gorilla Execution Engine (GoEx) - LLM で生成されたアクションを安全保証付きで実行するランタイム [04/12/2024]
- ツール呼び出し/関数呼び出しモデルを評価するための Berkeley Function Calling リーダーボード (BFCL) [02/26/2024]
- より多くの言語 (Java, JS, Python) と関連性検出を備えた Openfunctions-v2 [02/26/2024]
- すべての API に簡単にアクセスするための API Zoo Index [02/16/2024]
- Openfunctions-v1、Apache 2.0、並列および複数関数呼び出し対応 [11/16/2023]
- Openfunctions-v0、Apache 2.0 関数呼び出しモデル [11/16/2023]
- 商用利用可能な Apache 2.0 ライセンス版 Gorilla モデルのリリース [06/05/2023]
- APIBench のすべての API の重みをリリース [05/28/2023]
- Gorilla LLM をローカルで実行 [05/28/2023]
- HF モデル API の重みをリリース [05/27/2023]
- HF モデル API 用にホストされた Gorilla LLM チャット [05/27/2023]
- APIZoo をコミュニティからの貢献に開放
- データセットと評価コード
Gorilla は Apache 2.0 ライセンスであり、学術的および商用利用の両方に適しています。
- 💬 Discord コミュニティに参加
- 🐦 X でフォロー
@article{patil2023gorilla,
title={Gorilla: Large Language Model Connected with Massive APIs},
author={Shishir G. Patil and Tianjun Zhang and Xin Wang and Joseph E. Gonzalez},
year={2023},
journal={arXiv preprint arXiv:2305.15334},
}
