Python Web Scrapper Project

Last update: Jan 04, 2022

Overview

Web Scrapper

Projeto desenvolvido em python, sobre tudo com Selenium, BeautifulSoup e Pandas é um web scrapper que puxa uma tabela com as principais empresas listadas na bolsa, no site fundamentus e após isso aplica uma série de filtros que são úteis no mundo dos investimentos.

Plataforma disponível:

Linux

Componentes

Esse projeto é dividido em 4 partes básicas, sendo elas:

main_scrapper.py
filter_data.py
advanced_scrapper.py
utils.py

main_scrapper

Esse código é responsável por pegar os principais dados das empresas listadas na bolsa disponíveis no site fundamentus. Esse dados são transformados em um Data Frame pandas e depois disso ele salva em um arquivo Excel, chamado output.xlsx na pasta excel tables

filter_data

Essa parte do código é responsável por aplicar alguns filtros no output gerado. Removendo empresas com baixa liquides, empresas com Mrg. Ebit negativa e empresas do ramo financeiro, como seguradoras, bancos, etc. Após isso ele ordena por Ev/Ebit. Uma vez que os dados saíram desse filtro, eles já podem ser consultados para saber quais empresas podem ser investidas , levando em consideração as 30 primeiras

(Lembrando que isso foi por meio de algumas pesquisas e eu não posso dizer que você terá lucro nisso, reforçando que a intenção aqui é mostrar o código em python e não uma maneira de ganhar dinheiro)

advanced_scrapper

Essa parte aqui é avançada não por ser código complexos, mas a meu ver foi mais chata de fazer, além de que é a parte do código que mais demora. Nele, eu pego todos os papeis das ações e faço consultas individualizadas para buscar o valor atual ação, lpa e vpa. Após isso, eu uso a fórmula de Ben Graham para calcular o valor intrínseco da empresa (Eu zero as que estiverem com LPA ou VPA negativo, pois preciso calcular uma raíz quadrada). Uma vez que o loop foi finalizado, eu vou gerar um novo data frame apenas com as informações de LPA, VPA, VAlUE e VALUATION (valor intriseco) e gero uma saída em um novo arquivo excel

Para rodar

É necessários os seguintes elementos:

Python
Pandas
Selenium
bs4
chrome driver (o ques tá presente no pacote é para versão especifica do navegador que uso, mas pode baixar a vesão compatível com seu navegador no seguinte link: Chrome Driver)

cd webscrapper
chmod +x *
./main_scrapper.py

Considerações Finais

para testar o programa por completo, pode ser que demore bastante pois o advanced scrapper consome muito tempo para buscar todas informações, caso queira ver ele rodando por completo. Sugiro que após executar o primeiro arquivo, você abra o output.xlsx e deixe apenas umas 10-20 linhas que ele executará o programa por completo mais rápido, além disso, após finalizado cada programa, ele vai automaticamente chamar o próximo do fluxo, então tem que ter um pouquinho de atenção.

Toda susgestão é bem vinda, pois é meu primeiro projeto nessa área então não entendo muito das boas práticas ou algo que possa melhorar, etc

Python Web Scrapper Project

Related tags

Overview

Web Scrapper

Componentes

main_scrapper

filter_data

advanced_scrapper

Para rodar

Considerações Finais

Owner

Jordan Ítalo Amaral

A python script to extract answers to any question on Quora (Quora+ included)

Crawler job that scrapes comments from social media posts and saves them in a S3 bucket.

Scraping Top Repositories for Topics on GitHub,

Introduction to WebScraping Workshop - Semcomp 24 Beta

A python tool to scrape NFT's off of OpenSea

A simple code to fetch comments below an Instagram post and save them to a csv file

A multithreaded tool for searching and downloading images from popular search engines. It is straightforward to set up and run!

EBay-email-tracker - Scapes an entire search page of a particular item on eBay and sends regular updates to an email address

Unja is a fast & light tool for fetching known URLs from Wayback Machine

A command-line program to download media, like and unlike posts, and more from creators on OnlyFans.

抖音批量下载用户所有无水印视频

CRI Scrape is a tool for get general info about Italian Red Cross in GAIA Platform

The first public repository that provides free BUBT website scraping API script on Github.

Scrapegoat is a python library that can be used to scrape the websites from internet based on the relevance of the given topic irrespective of language using Natural Language Processing

A simple django-rest-framework api using web scraping

12306抢票脚本

Screen scraping and web crawling framework

A simple, configurable and expandable combined shop scraper to minimize the costs of ordering several items

🕷 Phone Crawler with multi-thread functionality

A simple Discord scraper for discord bots