LocalGPT は、完全にプライベートなオンプレミス型ドキュメントインテリジェンスプラットフォームです。最先端の AI を活用して、ファイルから質問に答えたり、内容を要約したり、洞察を発見したりできます。データは一切ご自身のマシンから外に出ません。
従来の RAG(Retrieval-Augmented Generation)ツール以上の機能を備えた LocalGPT は、semantic similarity、keyword matching、および Late Chunking をブレンドしたハイブリッド検索エンジンを特徴としており、長文コンテキストの精度を実現します。スマートルーターは各クエリに対して RAG と直接的な LLM 応答を自動的に選択し、コンテキスト拡張と sentence-level Context Pruning により、最も関連性の高いコンテンツのみを表示します。独立した検証パスにより、精度に追加のレイヤーが加わります。
アーキテクチャはモジュール化され軽量です。必要なコンポーネントのみを有効にできます。純粋な Python コアと最小限の依存関係により、LocalGPT はあらゆるインフラストラクチャ上での展開、実行、保守が簡単です。このシステムはフレームワークとライブラリへの最小限の依存関係を備えており、展開と保守が容易です。RAG システムは pure Python であり、追加の依存関係を必要としません。
このビデオを見て LocalGPT を始めましょう。
| ホーム | インデックス作成 | チャット |
|---|---|---|
![]() |
![]() |
![]() |
- 最高のプライバシー: お使いのコンピュータにデータが保存され、100% のセキュリティが確保されます。
- 多様なモデルサポート: Ollama を通じてさまざまなオープンソースモデルをシームレスに統合できます。
- 多様な埋め込み: さまざまなオープンソース埋め込みから選択できます。
- LLM の再利用: ダウンロード後、繰り返しダウンロードすることなく LLM を再利用できます。
- チャット履歴: 以前の会話(セッション内)を記憶します。
- API: LocalGPT は RAG アプリケーションを構築するために使用できる API を備えています。
- GPU、CPU、HPU & MPS サポート: 複数のプラットフォームをサポートしており、
CUDA、CPU、HPU (Intel® Gaudi®)またはMPSなどを使用してデータとチャットできます!
- マルチフォーマットサポート: PDF、DOCX、TXT、Markdown など(現在、PDF のみサポートされています)
- 文脈的充実: Contextual Retrieval に着想を得た、AI 生成コンテキストによるドキュメント理解の強化
- バッチ処理: 複数のドキュメントを同時に処理できます
- 自然言語クエリ: 平文で質問できます
- ソース属性: すべての回答にドキュメント参照が含まれます
- スマートルーティング: RAG と直接 LLM 応答を自動的に選択します
- クエリ分解: 複雑なクエリを部分質問に分解して、より良い回答を提供します
- セマンティック キャッシング: TTL ベースのキャッシングと類似度マッチングで、より高速な応答を実現します
- セッション認識履歴: インタラクション全体で会話コンテキストを維持します
- 回答検証: 精度を確保するための独立した検証パスです
- 複数の AI モデル: 推論用に Ollama、埋め込みとリランキング用に HuggingFace
- RESTful API: 統合のための完全な API アクセス
- リアルタイムプログレス: ドキュメント処理中のライブ更新
- 柔軟な設定: モデル、チャンクサイズ、検索パラメータをカスタマイズできます
- 拡張可能なアーキテクチャ: カスタムコンポーネント用のプラグインシステム
- 直感的な Web UI: クリーンでレスポンシブなデザイン
- セッション管理: トピック別に会話を整理できます
- インデックス管理: ドキュメント コレクションの簡単管理
- リアルタイムチャット: 即座のフィードバックのためのストリーミング応答
注: インストールは現在 macOS でのみテストされています。
- Python 3.8 以上(Python 3.11.5 でテスト済み)
- Node.js 16 以上および npm(Node.js 23.10.0、npm 10.9.2 でテスト済み)
- Docker(オプション、コンテナ化デプロイ用)
- 8GB 以上の RAM(16GB 以上推奨)
- Ollama(両方のデプロイアプローチに必須)
このブランチが main ブランチに移動される前に、インストールのためにこのブランチをクローンしてください:
git clone -b localgpt-v2 https://github.com/PromtEngineer/localGPT.git
cd localGPT# Clone the repository
git clone https://github.com/PromtEngineer/localGPT.git
cd localGPT
# Install Ollama locally (required even for Docker)
curl -fsSL https://ollama.ai/install.sh | sh
ollama pull qwen3:0.6b
ollama pull qwen3:8b
# Start Ollama
ollama serve
# Start with Docker (in a new terminal)
./start-docker.sh
# Access the application
open http://localhost:3000Docker 管理コマンド:
# Check container status
docker compose ps
# View logs
docker compose logs -f
# Stop containers
./start-docker.sh stop# Clone the repository
git clone https://github.com/PromtEngineer/localGPT.git
cd localGPT
# Install Python dependencies
pip install -r requirements.txt
# Key dependencies installed:
# - torch==2.4.1, transformers==4.51.0 (AI models)
# - lancedb (vector database)
# - rank_bm25, fuzzywuzzy (search algorithms)
# - sentence_transformers, rerankers (embedding/reranking)
# - docling (document processing)
# - colpali-engine (multimodal processing - support coming soon)
# Install Node.js dependencies
npm install
# Install and start Ollama
curl -fsSL https://ollama.ai/install.sh | sh
ollama pull qwen3:0.6b
ollama pull qwen3:8b
ollama serve
# Start the system (in a new terminal)
python run_system.py
# Access the application
open http://localhost:3000システム管理:
# Check system health (comprehensive diagnostics)
python system_health_check.py
# Check service status and health
python run_system.py --health
# Start in production mode
python run_system.py --mode prod
# Skip frontend (backend + RAG API only)
python run_system.py --no-frontend
# View aggregated logs
python run_system.py --logs-only
# Stop all services
python run_system.py --stop
# Or press Ctrl+C in the terminal running python run_system.pyサービスアーキテクチャ:
run_system.py ランチャーは 4 つの主要なサービスを管理します:
- Ollama Server (port 11434): AI モデル提供
- RAG API Server (port 8001): ドキュメント処理と取得
- Backend Server (port 8000): セッション管理と API エンドポイント
- Frontend Server (port 3000): React/Next.js ウェブインターフェース
# Terminal 1: Start Ollama
ollama serve
# Terminal 2: Start RAG API
python -m rag_system.api_server
# Terminal 3: Start Backend
cd backend && python server.py
# Terminal 4: Start Frontend
npm run dev
# Access at http://localhost:3000Ubuntu/Debian:
sudo apt update
sudo apt install python3.8 python3-pip nodejs npm docker.io docker-composemacOS:
brew install python@3.8 node npm docker docker-composeWindows:
# Install Python 3.8+, Node.js, and Docker Desktop
# Then use PowerShell or WSL2Ollama のインストール(推奨):
# Install Ollama
curl -fsSL https://ollama.ai/install.sh | sh
# Pull recommended models
ollama pull qwen3:0.6b # Fast generation model
ollama pull qwen3:8b # High-quality generation model# Copy environment template
cp .env.example .env
# Edit configuration
nano .env主要設定オプション:
# AI Models (referenced in rag_system/main.py)
OLLAMA_HOST=http://localhost:11434
# Database Paths (used by backend and RAG system)
DATABASE_PATH=./backend/chat_data.db
VECTOR_DB_PATH=./lancedb
# Server Settings (used by run_system.py)
BACKEND_PORT=8000
FRONTEND_PORT=3000
RAG_API_PORT=8001
# Optional: Override default models
GENERATION_MODEL=qwen3:8b
ENRICHMENT_MODEL=qwen3:0.6b
EMBEDDING_MODEL=Qwen/Qwen3-Embedding-0.6B
RERANKER_MODEL=answerdotai/answerai-colbert-small-v1


