Web crawler Java
$250-750 USD
Pago na entrega
Procuro alguém que desenvolva uma aplicação utlizando Java e Selenium que extraia informações públicas de processos dos seguintes tribunais:
TJRJ
Sitema principal - [login to view URL]
Pje - [login to view URL]
TJSP
Consulta 1º grau - [login to view URL]
Consulta 2º grau - [login to view URL]
Dado uma numeração de processo no seguinte formato: 0014532-94.2021.8.19.0209 o crawler deverá navegar até a seção de consulta do site e extrair as informações.
Esta numeração será obtida através de uma outra rotina que será detalhada mais abaixo, sendo assim, não há necessidade de criação de interface gráfica para interação com usuários.
Processos do TJRJ sempre terão "8.19" em sua numeração [login to view URL]
Processos do TJSP sempre terão "8.26" em sua numeração [login to view URL]
No TJRJ, os processos podem estar em 1 dos 2 sistemas do tribunal: sistema principal e PJe.
No TJSP o processo pode estar na consulta de 1º grau ou na consulta de 2º grau.
Durante o processo de consulta é possível que algumas páginas possuam captchas que devem ser resolvidos (mesmo que a solução seja paga [sugerimos o AntiCaptcha]).
As informações desejadas do processo são as seguintes:
Réu(s) + (Se disponível algum documento que o identifique como CPF/CNPJ)
Autor(es) + (Se disponível algum documento que o identifique como CPF/CNPJ)
Advogado(s) + (Se disponível o número da OAB)
Perito(s)
Título, descrição e data das movimentações
Valor da causa
Comarca
E qualquer outra informação que seja exibida na consulta
Os dados acima deverão ser armazenados em um objeto json e salvos em um banco de dados mysql que contenha os seguintes campos:
id (int - primary key - auto increment)
numero_processo (varchar - uniq)
json (text) | Descrição: Objeto json completo com todos os dados encontrados.
data_ultima_movimentacao (timestamp) | Descrição: Data da última movimentação encontrada na página de consulta.
last_update (timestamp) | Descrição: Data da última atualização deste registro no banco de dados.
Além disso, será necessário criar uma rotina que extraia dos diários oficiais dos tribunais a numeração dos processos de uma data informada para que o crawler de consulta seja alimentado.
Diário oficial TJRJ: [login to view URL]
Diário oficial TJSP: [login to view URL]
Todos os cadernos do diário oficial deverão ser vasculhados, exceto o caderno administrativo.
Ao final da extração deve-se criar um arquivo txt que contenha todos os números de processo encontrados naquela data e alimente o crawler de consulta de processo.
Na hora de consultar o processo, caso este número já tenha sido consultado previamente deve-se fazer uma atualização dos dados.
ID do Projeto: #30781576
Sobre o projeto
5 freelancers estão ofertando em média $500 nesse trabalho
Java Developer Please see recent review regarding to JAVA from my professional clients https://www.freelancer.in/projects/java/Java-program-run-the-implementation-30212681/reviews https://www.freelancer.in/projects/ja Mais
Web Scraping using Java is my top skill and I really love it. I will do my best for you as I have extremely excited previous clients with my perfect results. As you can see in my profile, I have enough experience to s Mais
Hi, dear client. I have read the descriptions and I am an Electrical Engineer and I started my carrier as Electrical Engineer and I am an expert in Machine learning, Python, Java,Algorithm,C,C++S Matlab with skills ove Mais
Boa noite. Tudo bem? Para ter excelência nos meus serviços costumo trabalhar no seguinte formato: Levantamento dos requisitos > Análise Técnica(Priorização) > Desenvolvimento > Testes/Documentação > Entrega. Tenho o Mais