Python爬取百度热榜

这是一个非常基础的爬虫;使用Python爬取百度热榜的标题和链接;

python爬取百度热榜

完整源码

# 需有requests、lxml库
import requests
from urllib import parse
from lxml import etree

#请求头必须有合理的 User-Agent 值
headers = {
    'User-Agent':'请自行填入User-Agent'
}

response = requests.get('https://www.baidu.com/',headers=headers)

html = response.text

document = etree.HTML(html)

for content in document.xpath('//textarea [@id="hotsearch_data"]/text()'):
    for item in eval(content).get('hotsearch'):
        #打印标题
        print(item.get('pure_title'))
        #打印链接
        print(parse.unquote(item.get('linkurl')))

原创内容,如需转载,请注明出处;

本文地址: https://www.perfcode.com/p/python-get-baidu-hotsearch.html

分类: 计算机技术
推荐阅读:
Linux下快速的重命名文件 在Linux系统下,不知道你们是怎么重命名文件的,虽然方法很多,但我这个绝对是最简单且最高效的,而且只有一条命令就可实现:
打开任务管理的一瞬间CPU飙到很高,这种现象正常吗? Windows系统上的任务管理器(进程名Taskmgr.exe)用于实时显示计算机当前有关于性能、进程、服务等信息;细心的朋友会发现,在打开任务管理器的一瞬间,CPU使用率瞬间飙升,基本上会达到100%,随后也会很快回落,那这种现象正常么?
C语言isalpha()函数:判断字符是否为字母 isalpha()函数是C语言中的一个标准库函数;用于判断一个字符是否为字母(a-z或A-Z);如果参数c是一个字母(不区分大小写),则返回非0值,否则返回0;
Linux终端重用上一条命令的参数 在Linux系统下,当你想使用上一条命令所用的参数,你可以通过这一条命令实现:
MySQL ASCII()函数 ASCII(str)函数返回字符串str第一个字符的ASCII码;如果str是NULL则返回NULL;
System has not been booted with systemd as init system (PID 1). Can't operate.解决方法 在WSL(Windows Subsystem for Linux,适用于Linux的Windows子系统)下通过systemctl命令启动某些服务将造成System has not been booted with systemd as init system (PID 1). Can't operate.这样的错误;