【爬虫实战】用python爬今日头条热榜TOP50榜单！

2023-09-21 10:05 由马哥python说发表于 #后端开发

一、爬取目标
二、爬取结果
三、代码讲解
四、技术总结
五、演示视频
六、附完整源码

一、爬取目标

您好！我是@马哥python说，一名10年程序猿。

今天分享一期爬虫案例，爬取的目标是：今日头条热榜的榜单数据。

打开今日头条首页，在页面右侧会看到头条热榜，如下：

爬取以上6个关键字段，含：

热榜排名,热榜标题,热度值,热榜标签,热榜分类,热榜链接。

开发者模式分析：

二、爬取结果

爬取结果截图：

三、代码讲解

首先，导入需要用到的库：

import requests
import pandas as pd
import re

定义一个请求头：（爬取目标较简单，一个User-agent即可）

# 请求头
h1 = {
	'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/15.4 Safari/605.1.15',
}

定义请求地址：

url = 'https://www.toutiao.com/hot-event/hot-board/?origin=toutiao_pc'

用requests发送请求：

# 发送请求
response = requests.get(url, headers=h1)

查看响应码并以json方式接收返回数据：

# 查看响应码
print(r.status_code)
# 接收返回数据
json_data = r.json()

定义一些空列表，用于存放数据：

title_list = []  # 热榜标题
value_list = []  # 热度值
url_list = []  # 热榜链接
category_list = []  # 热榜分类
label_list = []  # 热榜标签

以"热榜标题"字段为例：

for data in json_data['data']:
	# 热榜标题
	title = data['Title']
	print('热榜标题：', title)
	title_list.append(title)

其中，热榜链接比较特殊，接口中返回的url很长，形如：

可以看到，url中从?往后，都是不必要的请求参数。

所以，用正则表达式把?后面的全部删掉，提取出id，再进行拼接url，如下：

# 正则表达式提取出链接id
url3 = re.search(r"(?<=https:\/\/www\.toutiao\.com\/trending\/)\d+", url2).group(0)
# 拼接链接
url4 = 'https://www.toutiao.com/trending/' + str(url3)

最后，把所有字段存放的列表数据组成Dataframe格式：

# 把列表数据组装成Dataframe数据
df = pd.DataFrame(
	{
		'热榜排名': range(1, data_num + 1),  # 一共50条
		'热榜标题': title_list,
		'热度值': value_list,
		'热榜标签': label_list,
		'热榜分类': category_list,
		'热榜链接': url_list,
	}
)

进一步保存到csv文件里：

# 保存到csv文件
df.to_csv(result_file, header=True, index=False, encoding='utf_8_sig')

以上，核心逻辑讲解完毕。

代码中还含有：解析热度值、热榜标签、热榜分类、热榜链接字段等，详见文末完整代码。

四、技术总结

爬取技术流程：

requests 发送请求
json 解析数据
re 正则表达式提取文本
pandas 保存csv

五、演示视频

演示视频：代码演示：用python爬头条热榜TOP50榜单！

六、附完整源码

本案例完整源码已上传微信公众号"老男孩的平凡之路"，后台回复"爬头条热榜"即可获取。点击直达：点这里

我是@马哥python说，一名10年程序猿，持续分享python干货中！

热门相关：神秘总裁小小妻楚氏赘婿我是仙凡隐婚试爱：娇妻，好甜！宠物小精灵之庭树

【爬虫实战】用python爬豆瓣电影《热烈》短评

[toc] # 一、爬虫对象-豆瓣电影短评您好！我是[@马哥python说](https://www.cnblogs.com/mashukui/)，一名10年程序猿。今天分享一期爬虫案例，爬取的目标是：豆瓣上任意一部电影的短评（注意：是短评，不是影评！），以《热烈》这部电影为例： ![爬取目标] ...阅读全文

Python 爬虫实战：驾驭数据洪流，揭秘网页深处

**爬虫，这个经常被人提到的词，是对数据收集过程的一种形象化描述。特别是在Python语言中，由于其丰富的库资源和良好的易用性，使得其成为编写爬虫的绝佳选择。本文将从基础知识开始，深入浅出地讲解Python爬虫的相关知识，并分享一些独特的用法和实用技巧。本文将以实际的网站为例，深入阐述各个处理部分， ...阅读全文

【python爬虫实战】用python爬取爱奇艺电视剧十大榜单的全部数据！

[toc] # 一、爬取目标本次爬取的目标是，爱奇艺电视剧类目下的10个榜单：[电视剧风云榜-爱奇艺风云榜](https://www.iqiyi.com/ranks1/2/0) ![爱奇艺页面](https://img2023.cnblogs.com/blog/2864563/202306/28 ...阅读全文

别再纠结线程池池大小、线程数量了，哪有什么固定公式

可能很多人都看到过一个线程数设置的理论：CPU 密集型的程序 - 核心数 + 1，I/O 密集型的程序 - 核心数 * 2，不会吧，不会吧，真的有人按照这个理论规划线程数？ ...阅读全文

Spring Boot虚拟线程与Webflux在JWT验证和MySQL查询上的性能比较

早上看到一篇关于Spring Boot虚拟线程和Webflux性能对比的文章，觉得还不错。内容较长，我就不翻译了，抓重点给大家介绍一下这篇文章的核心内容，方便大家快速阅读。测试场景作者采用了一个尽可能贴近现实操作的场景：从授权头信息中提取JWT 验证JWT并从中提取用户的Email 使用用户的 ...阅读全文

JDK21来了！附重要更新说明

JDK21 计划23年9月19日正式发布，虽然一直以来都是“版本随便出，换 8 算我输”，但这么多年这么多版本的折腾，如果说之前的 LTS版本JDK17你还觉得不香，那 JDK21还是有必要关注一下，因为会有一批重要更新发布到生产环境中，特别是千呼万唤的虚拟线程，虽然说这东西我感觉不需要的用不到，需 ...阅读全文

2023年了，复习了一下spring boot配置使用mongodb

前言 MongoDB是一个基于分布式文件存储的开源数据库系统，使用C++语言编写。它是一个介于关系数据库和非关系数据库之间的产品，具有类似关系数据库的功能，但又有一些非关系数据库的特点。MongoDB的数据模型比较松散，采用类似json的bson格式，可以灵活地存储各种类型的数据 MongoDB的优 ...阅读全文

京东一面：分布式 ID 生成方案怎么选？写得太好了！

背景在分布式系统中，经常需要用到全局唯一ID发生器，标识需要存储的数据。我们需要什么样的ID生成器？ ID生成器除了是数据的唯一标识以外，一般需要在系统中承担更多的责任，概括起来有以下几点：唯一性：“全局唯一” vs “业务唯一”？分布式系统使用唯一的ID生成器，会有非常严重的申请互斥问题。互 ...阅读全文

给WordPress设置自动发布每日60秒文章

应大家需求，出一个 wp 自动发布每日 60 秒读懂世界文章的教程. 1.复制下方的 php 代码 <?php $date = file_get_contents("https://www.zhihu.com/api/v4/columns/c_1261258401923026944/items"); ...阅读全文

How to parse OR AND within text

假设你有一行 String condition = "A or B and C"; 语句，请问怎么做才能变成一行真正的逻辑表达式(能在计算机中运行计算)？ Resolution 声明一个List<List<String>>结构；先分割 or ; 变成 [ A, B and C ] 不包含and的， ...阅读全文