Web Scraping em Python

Diogo Vidal
21 de ago. de 2020
1 min de leitura

Existem algumas maneiras de coletar tweets do Twitter.

Você pode usar a API do Twitter, mas a API do Twitter limita o número de tweets que você pode coletar.

Você pode copiar manualmente os tweets que deseja, mas isso pode ser demorado.

Outra opção é usar Twint. Twint é uma biblioteca que permite retirar Tweets do Twitter que atendam aos requisitos inseridos. Twint permite que você pesquise tweets que contenham certas palavras ou frases, tweets publicados por contas específicas, tweets dentro de um determinado período de tempo e muito mais.

Instalação e configuração do Twint

Você pode instalar o Twint digitando o seguinte comando em seu terminal

pip3 install twint

Depois de instalar o Twint, você precisará importar o Twint.

import twint

Abaixo vamos pesquisar todos os tweets ao invés de apenas os tweets de um determinado usuário. Por exemplo, vou pesquisar tweets sobre as ações da Holding Itausa 'ITSA4'.

O código abaixo retornará os tweets que contêm o termo “ITSA4”.

# Configurando busca
c = twint.Config()
c.Search = 'ITSA4'
c.Store_txt = True
c.Output = 'Investimentos'
# Executando
twint.run.Search(c)

Abaixo o resultado do nosso código.

Os tweets retornados são um pouco confusos de ler, mas podemos formatar.

O código abaixo retornará os mesmos tweets do código anterior, mas desta vez mostrará apenas o id do tweet, a data, a hora e o tweet real. Os resultados também serão formatados como “Tweet id: {id} | Data: {data} | Hora: {hora} | Tweet: {tweet} ” .

O Webscrapping de uma forma simples e democrático!

Com apenas 6 linhas de código!

É isso ai pessoal, espero que tenham curtido e aproveitem esse código para suas analises.

Diogo Vidal

Web Scraping em Python

Instalação e configuração do Twint

Posts recentes

Comentários