top of page
  • Foto do escritorDiogo Vidal

Web Scraping em Python


Existem algumas maneiras de coletar tweets do Twitter.

Você pode usar a API do Twitter, mas a API do Twitter limita o número de tweets que você pode coletar.

Você pode copiar manualmente os tweets que deseja, mas isso pode ser demorado.

Outra opção é usar Twint. Twint é uma biblioteca que permite retirar Tweets do Twitter que atendam aos requisitos inseridos. Twint permite que você pesquise tweets que contenham certas palavras ou frases, tweets publicados por contas específicas, tweets dentro de um determinado período de tempo e muito mais.


Instalação e configuração do Twint


Você pode instalar o Twint digitando o seguinte comando em seu terminal


pip3 install twint

Depois de instalar o Twint, você precisará importar o Twint.


import twint

Abaixo vamos pesquisar todos os tweets ao invés de apenas os tweets de um determinado usuário. Por exemplo, vou pesquisar tweets sobre as ações da Holding Itausa 'ITSA4'.

O código abaixo retornará os tweets que contêm o termo “ITSA4”.


# Configurando busca
c = twint.Config()
c.Search = 'ITSA4'
c.Store_txt = True
c.Output = 'Investimentos'
# Executando
twint.run.Search(c)

Abaixo o resultado do nosso código.


Os tweets retornados são um pouco confusos de ler, mas podemos formatar.

O código abaixo retornará os mesmos tweets do código anterior, mas desta vez mostrará apenas o id do tweet, a data, a hora e o tweet real. Os resultados também serão formatados como “Tweet id: {id} | Data: {data} | Hora: {hora} | Tweet: {tweet} ” .



O Webscrapping de uma forma simples e democrático!

Com apenas 6 linhas de código!


É isso ai pessoal, espero que tenham curtido e aproveitem esse código para suas analises.

 

By

Diogo Vidal

129 visualizações0 comentário

Posts recentes

Ver tudo
bottom of page