MELHOR QUE MANUS E O CHATGPT OPERATOR DA OPENAI. COMO INSTALAR O BROWSER-USE! OPEN SOURCE E GRÁTIS!

Browser-use: O Agente AI Open Source e Gratuito Que Supera o ChatGPT Operator! (Tutorial Completo)

🚀 Browser-use: A Alternativa Gratuita e Superior ao Agente Operator da OpenAI

Se você acompanha as inovações da OpenAI, já deve ter ouvido falar do Agente Operator, uma Inteligência Artificial capaz de operar um navegador, identificar elementos de página, e executar tarefas complexas. A desvantagem? Seu custo pode chegar a cerca de $200 por mês.

É aí que entra o Browser-use, uma solução open source e gratuita que, segundo testes de desempenho apresentados pela comunidade (e no vídeo), mostra resultados superiores aos do Operator, alcançando 89% de aproveitamento em tarefas de navegação.

Neste tutorial, você aprenderá a instalar e configurar essa tecnologia poderosa em sua máquina local.


🛠️ Requisitos Mínimos para Instalação

Para começar o processo de instalação do Browser-use (Web-UI), você precisará ter instalado em seu sistema operacional (o tutorial do vídeo usa o Linux Mint):

  1. Python 3.11 ou superior
  2. Git (Sistema de controle de versão)

1. Preparando o Ambiente (Linux Mint)

Abra seu terminal e siga os comandos para garantir que seu sistema e as ferramentas necessárias estejam atualizadas e instaladas:

AçãoComandoObservação
Atualizar o Sistemasudo apt updateGarante que a lista de pacotes esteja atualizada.
Verificar Pythonpython3 --versionConfirme se a versão é 3.11 ou superior.
Instalar/Verificar Gitsudo apt install gitInstala o Git, se ainda não estiver presente.

2. Baixando e Configurando o Repositório

O Browser-use é hospedado no GitHub sob o nome Web-UI.

  1. Acesse o Repositório: O repositório oficial que você deve clonar é o do web-ui.
  2. Clonar o Repositório:Bashgit clone [Link do Repositório Web-UI do GitHub]
  3. Acessar o Diretório:Bashcd web-ui

3. Criando e Ativando o Ambiente Virtual (VENV)

O uso de um Ambiente Virtual (venv) é crucial para isolar as dependências do projeto e evitar conflitos com outros softwares do sistema.

  1. Instalar VENV (se necessário):Bashsudo apt install python3-venv
  2. Criar o Ambiente Virtual:Bashpython3 -m venv .venv
  3. Ativar o Ambiente Virtual:Bashsource .venv/bin/activate Se bem-sucedido, você verá (.venv) no início da linha de comando.

4. Instalar Dependências e Playwright

  1. Instalar PIP (se necessário):Bashsudo apt install python3-pip
  2. Instalar as Dependências do Projeto:Bashpip install -r requirements.txt
  3. Instalar o Playwright (Navegador):Bashplaywright install Este processo baixa e configura os navegadores que o Agente AI irá controlar.

5. Executando a Interface Web (WebUI)

Com tudo instalado, você está pronto para iniciar o Browser-use.

  1. Executar o Script:Bashpython web_ui.py
  2. Acessar a Interface: O sistema ficará online em uma porta local. Abra seu navegador e acesse o endereço fornecido no terminal (geralmente http://127.0.0.1:7860).

⚙️ Configurando o Agente AI no Browser-use

Após acessar a interface web, o primeiro passo é configurar o Agente de Inteligência Artificial para operar.

1. Configurações de LLM e API (Chave da API)

O Browser-use permite a conexão com diversas LLMs (Modelos de Linguagem Grande) via API, incluindo as gratuitas e pagas.

PlataformaModelo Recomendado (Exemplo)Onde Inserir a Chave
Google GeminiGemini 2.0 Flash Think ExpertCampo API Key (aba LLM)
OpenAIGPT-4o (Geralmente requer API paga)Campo API Key (aba LLM)

Dica de SEO Técnico: Escolher modelos mais avançados, como o GPT-4o ou Gemini Flash Expert, aumenta a capacidade do agente de lidar com a complexidade do HTML, resultando em automações mais eficazes.

2. Configurações do Agente

  • Agente Settings:
    • Max Run Steps: O número máximo de tentativas de ações que o agente fará para resolver uma tarefa. O vídeo sugere maximizar este valor para permitir que o Agente pense e tente mais soluções (ex: 100).
    • Max Actions per Step: O número de ações que ele pode executar por vez.

3. Salvando e Restaurando Configurações

Para não perder suas chaves de API e preferências a cada atualização de página, utilize o recurso de salvar/carregar:

  1. Salvar: Clique em “Salvar Configurações Atuais” para criar um arquivo .pkl dentro da pasta temp/web-settings.
  2. Restaurar: Clique no botão de carregamento, navegue até o arquivo .pkl salvo e clique em “Load Agent Settings”.

🎯 Exemplos de Uso: Dominando a Automação Web

Com o Browser-use configurado, você pode delegar tarefas complexas que exigiriam horas de trabalho manual.

1. Pesquisa e Preenchimento de Formulários (Run Agent)

O modo Run Agent é ideal para tarefas sequenciais em um navegador.

  • Exemplo: Navegar até um site de busca anônimo (DuckDuckGo), pesquisar por um termo, acessar o site, encontrar um botão (Falar com Especialista), clicar e preencher um formulário de contato com dados específicos.
    • O agente demonstra a capacidade de auto-recuperação (corrigir erros), ler elementos da página e interagir com formulários.

2. Análise de Dados e Conclusão (Run Agent)

O agente pode ser instruído a coletar dados de fontes específicas e tirar conclusões.

  • Exemplo: Acessar um sistema de mapeamento geológico (como o SIGMINE no exemplo), pesquisar vários números de processos, extrair o tipo de minério e, no final, escrever um texto curto com a conclusão dos achados.

3. Pesquisa Avançada e Criação de Conteúdo (Deep Search)

O modo Deep Search permite que o agente navegue de forma autônoma por múltiplas fontes na internet para compilar informações e gerar um relatório.

  • Exemplo de Prompt: “Pesquise na internet sobre tendências para o futuro das IAs e escreva um conteúdo com foco em SEO para o Blog do meu site (robotizai.com). Explique também como a RobotizAI (Inteligência Artificial) pode contribuir com o futuro do seu negócio.”

O resultado é um conteúdo completo, com foco em SEO, citando as tendências e integrando a sua marca de forma orgânica.


✅ Conclusão SEO-Otimizada

O Browser-use é uma ferramenta indispensável para quem busca automação de processos via navegador sem os custos de plataformas proprietárias. Sua capacidade de se conectar a APIs como Gemini e OpenAI e executar comandos complexos o torna o agente AI open source mais robusto para tarefas de pesquisa, preenchimento de formulários e coleta de dados.

Próxima Ação: Instale o Browser-use hoje mesmo e comece a automatizar suas tarefas web!

Rolar para cima