Python爬取百度热榜

这是一个非常基础的爬虫;使用Python爬取百度热榜的标题和链接;

python爬取百度热榜

完整源码

# 需有requests、lxml库
import requests
from urllib import parse
from lxml import etree

#请求头必须有合理的 User-Agent 值
headers = {
    'User-Agent':'请自行填入User-Agent'
}

response = requests.get('https://www.baidu.com/',headers=headers)

html = response.text

document = etree.HTML(html)

for content in document.xpath('//textarea [@id="hotsearch_data"]/text()'):
    for item in eval(content).get('hotsearch'):
        #打印标题
        print(item.get('pure_title'))
        #打印链接
        print(parse.unquote(item.get('linkurl')))

原创内容,如需转载,请注明出处;

本文地址: https://www.perfcode.com/p/python-get-baidu-hotsearch.html

分类: 计算机技术
推荐阅读:
C语言isspace()函数:判断字符是否为空白字符 isspace()是C语言标准库中的一个函数,用于判断一个字符是否为空白字符;当字符参数是一个空白字符时,返回一个非0值,否则返回0;
Windows和Linux系统启用IP转发 在Windows系统下启用IP转发,需要通过修改注册表来实现;Linux系统只需将系统下的/proc/sys/net/ipv4/ip_forward文件值修改为1;
Python breakpoint()函数 breakpoint()是 Python 3.7 中新增的一个调试工具,它是一个内置函数,可以在程序执行过程中插入一个断点,让程序停在该处等待调试器的进一步命令。
Rust中r#的含义 在Rust中,如果需要使用Rust关键字作为变量名、函数名、模块名等标识符,可以在关键字前面加上前缀 r#,这样编译器就会将其解析为标识符而非关键字。这个前缀可以用于任何Rust关键字。
C语言中struct和typedef struct的用法和不同 在C语言中struct和typedef struct创建的结构体并没有什么不同,只是使用typedef后可以为结构体创建一个别名;
一条命令下载整个网站 在Linux系统下,你可以通过一条命令来下载整个网站,并按照网站的目录结构生成对应的文件夹及网页文件: