Python 爬虫项目实战（二）：爬取微博热搜榜

原创

ithorizon 7个月前 (09-16) 阅读数 186 #Python

引言

在上一篇文章中，我们介绍了Python爬虫的基础知识，并实现了一个简洁的爬虫。本文将继续深入，带大家爬取微博热搜榜的数据，展示怎样使用Python进行实战爬虫项目。

项目需求

我们的目标是获取微博热搜榜上的关键词和对应的排名，进而分析当前热点话题。由于微博的数据是通过JavaScript动态加载的，我们将使用requests库获取页面HTML内容，并利用BeautifulSoup解析HTML，提取我们需要的信息。

环境准备

在起始爬取数据之前，请确保你已经安装了以下库：

pip install requests

pip install beautifulsoup4

代码实现

下面是爬取微博热搜榜的具体代码实现：


        # 导入所需库
        import requests
        from bs4 import BeautifulSoup
        # 微博热搜榜URL
        url = 'https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6'
        # 发送请求，获取HTML内容
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
        }
        response = requests.get(url, headers=headers)
        html_content = response.text
        # 解析HTML，提取热搜榜信息
        soup = BeautifulSoup(html_content, 'html.parser')
        hot_search_list = soup.find_all('td', class_='td-01 ranktop')
        # 输出热搜榜
        for item in hot_search_list:
            keyword = item.find('a').get_text()
            rank = item.find('span').get_text()
            print(f'排名：{rank}，关键词：{keyword}')