top of page
linear-illustration-slide-presentation-l
building-a-performing-machine-learning-m
623379_orig

Web Scraping em Python

  • Foto do escritor: Diogo Vidal
    Diogo Vidal
  • 21 de ago. de 2020
  • 1 min de leitura

Existem algumas maneiras de coletar tweets do Twitter.

Você pode usar a API do Twitter, mas a API do Twitter limita o número de tweets que você pode coletar.

Você pode copiar manualmente os tweets que deseja, mas isso pode ser demorado.

Outra opção é usar Twint. Twint é uma biblioteca que permite retirar Tweets do Twitter que atendam aos requisitos inseridos. Twint permite que você pesquise tweets que contenham certas palavras ou frases, tweets publicados por contas específicas, tweets dentro de um determinado período de tempo e muito mais.


Instalação e configuração do Twint


Você pode instalar o Twint digitando o seguinte comando em seu terminal


pip3 install twint

Depois de instalar o Twint, você precisará importar o Twint.


import twint

Abaixo vamos pesquisar todos os tweets ao invés de apenas os tweets de um determinado usuário. Por exemplo, vou pesquisar tweets sobre as ações da Holding Itausa 'ITSA4'.

O código abaixo retornará os tweets que contêm o termo “ITSA4”.


# Configurando busca
c = twint.Config()
c.Search = 'ITSA4'
c.Store_txt = True
c.Output = 'Investimentos'
# Executando
twint.run.Search(c)

Abaixo o resultado do nosso código.


Os tweets retornados são um pouco confusos de ler, mas podemos formatar.

O código abaixo retornará os mesmos tweets do código anterior, mas desta vez mostrará apenas o id do tweet, a data, a hora e o tweet real. Os resultados também serão formatados como “Tweet id: {id} | Data: {data} | Hora: {hora} | Tweet: {tweet} ” .



O Webscrapping de uma forma simples e democrático!

Com apenas 6 linhas de código!


É isso ai pessoal, espero que tenham curtido e aproveitem esse código para suas analises.

By

Diogo Vidal

 
 
 

ความคิดเห็น


bottom of page