Сразу скажу, в ИИ я полный нуб, и скорее всего выше уровнем не поднимусь, так что не судите строго
Установил ollama на win11, в неё локальный qwen, вроде более менее шевелится на мобильной rtx 4070, но в интернет не умеет, как облачные ИИ.
Подскажите, гуру, можно ли как-то настроить, чтобы и в интернете искал ответы на мои вопросы?
Здравствуйте, wl., Вы писали:
wl.>Сразу скажу, в ИИ я полный нуб, и скорее всего выше уровнем не поднимусь, так что не судите строго wl.>Установил ollama на win11, в неё локальный qwen, вроде более менее шевелится на мобильной rtx 4070, но в интернет не умеет, как облачные ИИ. wl.>Подскажите, гуру, можно ли как-то настроить, чтобы и в интернете искал ответы на мои вопросы?
Можно, важно понимать как ты вызываешь.
— ИИ сама не ищет в интернете, но современные ии натренированы на function calling aka tool calling (бейдж tools в ollama каталоге)
— Вызывающий код (клиент) передает описание функций (инструментов) в промпт
— ИИ в ответе говорит "хочу вызывать функцию ХХХ с параметрами УУУ"
— вызывающий код (клиент), получив такую инфу функцию спрашивает пользователя если надо и вызывает функцию если пользователь согласился, а ответ скармливает ИИ назад
У ollama есть готовые функции для поиска инфы в интернете, они автоматом подсовываются если ты пользуешься ollama клиентом, который аутентифицировался в ollama.
Кроме того в примерах ollama есть готовый MCP-сервер для вызова ollama поиска из любого клиента.
MCP (Model Context Protocol) это универсальный протокол взаимодействия между ИИ клиентом и серверами функций. Все современные клиенты: lmstuio, claude, open code, cursor, vscode, cline, continue, codex, nanocode, VS и все программные клиенты умеют общаться с MCP. А вот ollamа-клиент не умеет, у него есть только инструменты поиска встроенные и все.
MCP-сервер это программа, которая содержит набор функций для ИИ. Есть готовые серверы и для поиска, как удаленные, так и локально запускаемые, главное удобный клиент подбери.
Здравствуйте, gandjustas, Вы писали:
G>- ИИ сама не ищет в интернете, но современные ии натренированы на function calling aka tool calling (бейдж tools в ollama каталоге) G>- Вызывающий код (клиент) передает описание функций (инструментов) в промпт G>- ИИ в ответе говорит "хочу вызывать функцию ХХХ с параметрами УУУ" G>- вызывающий код (клиент), получив такую инфу функцию спрашивает пользователя если надо и вызывает функцию если пользователь согласился, а ответ скармливает ИИ назад
да, всё так
G>MCP (Model Context Protocol)
это tcp / pipe. Регистрацию tools, перехват запроса на вызов от llm и имполнение tool (например "search_internet") можно сделать в клиенте, минуя mcp от слова совсем. Это то, что мы сделали недавно в Minimum Viable Product прототипе и с локальной ollama.
Здравствуйте, Артём, Вы писали:
Аё>Здравствуйте, gandjustas, Вы писали:
G>>- ИИ сама не ищет в интернете, но современные ии натренированы на function calling aka tool calling (бейдж tools в ollama каталоге) G>>- Вызывающий код (клиент) передает описание функций (инструментов) в промпт G>>- ИИ в ответе говорит "хочу вызывать функцию ХХХ с параметрами УУУ" G>>- вызывающий код (клиент), получив такую инфу функцию спрашивает пользователя если надо и вызывает функцию если пользователь согласился, а ответ скармливает ИИ назад Аё>да, всё так
G>>MCP (Model Context Protocol) Аё>это tcp / pipe.
Не только
Аё>Регистрацию tools, перехват запроса на вызов от llm и имполнение tool (например "search_internet") можно сделать в клиенте, минуя mcp от слова совсем. Это то, что мы сделали недавно в Minimum Viable Product прототипе и с локальной ollama.
Оно и так делается в клиенте. В OpenAI API вообще нет понятия MCP, там есть только tools. MCP это механизим расширения клиента за счет подстановки tools.
Здравствуйте, wl., Вы писали:
wl.>Установил ollama на win11, в неё локальный qwen, вроде более менее шевелится на мобильной rtx 4070
а ты уверен что она у тебя именно на dGPU шевелится проверь загрузку CPU во время ответа (если его грузит, а видяху нет — значит всё на CPU считается).
вроде ollama можно через dGPU юзать, уточняй у ChatGPT (но iGPU не поддерживается).
P.S.:
а я настроил Continue в VSCode через LM Studio (через iGPU Prefill быстрее в 2-4 раза чем на CPU). dGPU у меня пока нету.
qwen3.5:4b-q4_K_M на 5600G/32GB нормально бегает ..
Здравствуйте, xma, Вы писали:
wl.>>Установил ollama на win11, в неё локальный qwen, вроде более менее шевелится на мобильной rtx 4070 xma>а ты уверен что она у тебя именно на dGPU шевелится проверь загрузку CPU во время ответа (если его грузит, а видяху нет — значит всё на CPU считается). xma>вроде ollama можно через dGPU юзать, уточняй у ChatGPT (но iGPU не поддерживается).
Ага, у него и спрашивал, как включить, он говорит, само будет работать, для проверки надо смотреть нагрузку на GPU — во время ответа занято на 100%.
Я выбрал специально такую, чтобы 8гб vram с видеокарты хватило
но в итоге пришел к выводу, что всё это баловство. Пока полностью не перекроют доступ к иностранным ИИ, буду ими пользоваться. Можно считать, что мой эксперимент провалился