Python采集C站热榜数据实战示例
时间:2023-05-06 05:56:59 来源:脚本之家
目录
前言功能实现解析数据保存数据总结前言
大家好,我们今天来爬取c站的热搜榜,把其文章名称,链接和作者获取下来,我们保存到本地,我们通过测试,发现其实很简单,我们只要简单获取数据就可以。没有加密的东西。
(相关资料图)
功能实现
我们话不多说,我们先找到url,也就是请求地址。我们代码如下:
url = "https://blog.csdn.net/phoenix/web/blog/hot-rank?page=0&pageSize=25&type=" headers = { "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36"} res = requests.get(url, headers=headers)
我们这里首先定义了一个url
变量,它表示要访问的 URL。然后,它定义了一个headers
变量,其中包含了一些 HTTP 请求头信息,如User-Agent
表示 HTTP 请求的 User-Agent。最后,它使用requests.get()
函数发送 HTTP GET 请求,并将headers
变量作为参数传递给该函数。
解析数据
我们获取到了内容,接下来就是解析数据,我们不难发现这个是一个json数据,我们直接取值就好了,我们来看看代码怎么写。
datas = res.json()["data"] for data in datas: period = data["period"] nickName = data["nickName"] articleTitle = data["articleTitle"] articleDetailUrl = data["articleDetailUrl"] viewCount = data["viewCount"] commentCount = data["commentCount"] favorCount = data["favorCount"] hotRankScore = data["hotRankScore"] print(period,nickName,articleTitle,avatarUrl,viewCount,favorCount,commentCount,hotRankScore)
我们将从res.json()
中获取data
数据,并将其存储在datas
变量中。res.json()
返回的是一个包含多个字典的对象,每个字典代表一个数据。
在这个例子中,res.json()
返回的字典中的data
字段的值为[{"period": "1", "nickName": "", "articleTitle": "", "articleDetailUrl": "", "viewCount": "", "commentCount": "", "favorCount": "", "hotRankScore": "0.08536632385314886", "avatarUrl": "null", "viewCount": "0", "favorCount": "0", "commentCount": "0", "hotRankScore": "0.08536633735229816"}]
,我们使用这个数据来遍历datas
变量中的每个字典。
在每个字典中,我们使用data
字段的值来获取期数、昵称、标题、详细URL、访问次数、评论次数、喜欢次数、热门排名分数。
保存数据
now_time =time.strftime("%Y-%m-%d-%H-%M",time.localtime(time.time())) f = open(f"{now_time}热榜数据.csv", mode="a", encoding="utf-8", newline="") csv_writer = csv.DictWriter(f, fieldnames=["日期", "姓名", "文章标题", "文章链接", "浏览量", "评论量", "收藏量", "热榜值"]) csv_writer.writeheader()
我们首先打开一个名为data.csv
的文件,并指定使用a
模式打开文件。然后,使用csv.DictWriter()
函数创建一个 CSV 写入器,并指定要写入的列名。在这个例子中,我们指定了fieldnames
参数,它包含了我们要写入的列名。
接下来,我们使用csv_writer.writeheader()
方法写入列名。这个方法会将列名写入文件的第一行。
最后,我们使用csv_writer.writerow()
方法写入数据。
我们先写入字典。
dit = {"日期": period, "姓名": nickName, "文章标题": articleTitle, "文章链接": articleDetailUrl, "浏览量": viewCount, "评论量": commentCount, "收藏量": favorCount, "热榜值": hotRankScore} print(dit) csv_writer.writerow(dit)
这段代码创建了一个字典dit
,其中包含了每个元素的值。然后,它使用csv_writer.writerow()
方法将字典写入CSV文件中。
总结
以上就是Python采集C站热榜数据实战示例的详细内容,更多关于Python采集C站热榜数据的资料请关注脚本之家其它相关文章!
标签:
最新文章推荐
- 郭富城“梦幻舞林”澳门起跑:为了歌迷,唱到“湿身”也值得!_天天简讯
- 安普6芯光缆_关于安普6芯光缆介绍 全球速讯
- 头条:或为问界新LOGO:华为申请WENJIE图文商标
- 世界快看:润和软件:发布人工智能中枢平台AIRUNS公测版本
- 2023陕西理工大学招生计划 陕西理工大学招生简章-环球短讯
- 建设单位审计 热头条
- 当前最新:介绍如何制作美味的麂肉
- 环球即时看!麦卡文尼:曼联需要凯恩,他们上一位这样级别的前锋还是伊布
- 建行增额终身寿险可靠吗?值得买吗? 世界速讯
- 【全球快播报】新天科技:公司2022年度智能燃气表销量约100万套
- 淘宝更新《内容 MCN 机构管理规范》,将于 7 月 8 日正式生效 天天热资讯
- 2023NBL揭幕战打响 广西威壮客场惜败香港金牛无缘赛季开门
- 每日头条!海泰新能10GWh储能项目首台液冷PACK产品下线
- 环球今亮点!唯美昵称六字(唯美昵称六字男生)
- 每日资讯:云海苍穹:江城子 二首(苏轼体)
- 华西证券:A股有望演绎“筑底后回升”的结构性行情
- 环球今日讯!最高检发布湿地保护公益诉讼典型案例
- 于都3个孩子被杀,疑是奶奶的情人所为!因将情人丑事告诉其老婆 天天观察
- 权相佑主演的电影中的小美是什么电影_权相佑主演的电影
- 北京市风景名胜区协会副会长单位·云居寺文物管理处 莅临会长单位·戒台寺景区研讨交流
X 关闭
资讯中心

2023-02-01

2022-08-29

2022-08-15

2022-05-20
X 关闭
热点资讯
-
1
1月11日午后两市机构大单抢筹40股(名单)
-
2
【天天速看料】王俊凯疑坐实性丑闻!网传将被封杀,正在走程序,涉顶流女星杨幂
-
3
六福内地铂金多少钱一克(2023年01月10日)-世界消息
-
4
在岸离岸人民币对美元汇率双双升破“6.9” 专家预计本月将延续波动回升态势 每日速看
-
5
2023年首单!超126倍认购 嘉实京东仓储基础设施REIT吸金近720亿元 环球新资讯
-
6
环球观热点:叮当钱包借款逾期1年还不起会上征信系统吗
-
7
光华股份:公司主营粉末涂料用聚酯树脂,没有POE胶膜相关产品 看热讯
-
8
WD-40(WDFC.US):2023年Q1财报实现营收1.249亿美元_全球观天下
-
9
微粒贷逾期一年还不起征信会怎么样
-
10
基金:开年五连阳怎么办
-
11
赣州轻微工伤如何计算
-
12
5个案例:难以描述的需求,PRD越抹越黑?
-
13
世界观点:粤港跨境巴士恢复运行:恢复通关,感觉日子更有盼头
-
14
猫的英文怎么说 猫的英文是什么
-
15
今日热门!数据海报丨2022年长沙高质量发展报告·宜居之城品质倍升
-
16
英方软件(688435):首发网上路演时间 2023年1月9日(T-1日,周一)9:00~12:00
-
17
2021年12月几号有雪?
-
18
快播:特斯拉上海被曝停产一周,股票暴跌,到底发生什么了?
-
19
[快讯]乐心医疗发布解除质押公告
-
20
家政创业成功的3大核心,你了解吗?|速看