# LLM Routing по тарифам ✅ ## Архитектура ``` ┌─────────────────────────────────────────────────────────┐ │ llm-svc │ │ │ │ POST /api/v1/generate │ │ │ │ │ ▼ │ │ ┌─────────────────┐ │ │ │ resolveProvider │ │ │ │ (tier) │ │ │ └────────┬────────┘ │ │ │ │ │ ┌─────┴─────┐ │ │ ▼ ▼ │ │ ┌──────┐ ┌────────┐ │ │ │ FREE │ │ PRO │ │ │ └──┬───┘ └───┬────┘ │ │ │ │ │ │ ▼ ▼ │ │ Ollama Timeweb │ │ (local) (cloud) │ └─────────────────────────────────────────────────────────┘ ``` ## Роутинг по тарифам | Тариф | Провайдер | Модель | Лимиты | |-------|-----------|--------|--------| | **free** | Ollama (local) | qwen3.5:9b | 50 req/day, 2000 tokens/req | | **pro** | Timeweb | gpt-4o, claude, etc | 500 req/day, 8000 tokens/req | | **business** | Timeweb | all models | 5000 req/day, 32000 tokens/req | ## API Endpoints ### POST /api/v1/generate ```json { "providerId": "auto", // или "ollama", "timeweb", etc "key": "qwen3.5:9b", // модель "messages": [{"role": "user", "content": "..."}], "options": { "maxTokens": 1000, "temperature": 0.7, "stream": true } } ``` ### POST /api/v1/embed ```json { "input": "Текст для эмбеддинга", "model": "qwen3-embedding:0.6b" } ``` ### GET /api/v1/providers Возвращает список доступных провайдеров с указанием tier. --- ## Ollama конфигурация | Параметр | Значение | |----------|----------| | OLLAMA_NUM_PARALLEL | 4 | | OLLAMA_MAX_LOADED_MODELS | 2 | | OLLAMA_FLASH_ATTENTION | true | | Модель генерации | qwen3.5:9b | | Модель эмбеддингов | qwen3-embedding:0.6b | ## Пропускная способность | Сценарий | Одновременно | RPM | |----------|--------------|-----| | Короткие ответы | 6-8 чел | ~40-60 | | Средние ответы | 4-6 чел | ~20-30 | | Эмбеддинги | 10+ чел | ~800+ | --- ## Файлы изменены - `backend/cmd/llm-svc/main.go` — роутинг по тарифу, /embed endpoint - `backend/internal/llm/ollama.go` — qwen3.5:9b, убран токен, GenerateEmbedding - `backend/internal/llm/client.go` — убран OllamaToken - `backend/deploy/k8s/ollama.yaml` — GPU + параллельность - `backend/deploy/k8s/ollama-models.yaml` — без авторизации --- ## Сервер - IP: 5.187.77.89 - GPU: RTX 4060 Ti 16GB - Site: https://gooseek.ru