Python爬取百度热榜

这是一个非常基础的爬虫;使用Python爬取百度热榜的标题和链接;

python爬取百度热榜

完整源码

# 需有requests、lxml库
import requests
from urllib import parse
from lxml import etree

#请求头必须有合理的 User-Agent 值
headers = {
    'User-Agent':'请自行填入User-Agent'
}

response = requests.get('https://www.baidu.com/',headers=headers)

html = response.text

document = etree.HTML(html)

for content in document.xpath('//textarea [@id="hotsearch_data"]/text()'):
    for item in eval(content).get('hotsearch'):
        #打印标题
        print(item.get('pure_title'))
        #打印链接
        print(parse.unquote(item.get('linkurl')))

原创内容,如需转载,请注明出处;

本文地址: https://www.perfcode.com/p/python-get-baidu-hotsearch.html

分类: 计算机技术
推荐阅读:
显示当前挂载的文件系统 在Linux系统下,通过一条命令即可显示系统当前挂载的文件系统:
Python里with语句的用法与技巧 本文将详细讲解Python语言中with语句的用法,以及如何让自定义的类也支持with语句;
Golang生成一个整数范围内的随机整数 在Golang中,可以通过math/rand包的Intn(n)函数生成一个0~n之间的随机整数,碰到100~200、-10~10这样的整数段却无能为力了;
Python使用langid库来识别字符串语言 python使用 langid 库来实现识别字符串是什么语言;langid 是第三方库,需要我们自己安装
Go语言获取操作系统类型 在Go语言中,你可以使用runtime包来获取操作系统类型。具体来说,你可以使用runtime.GOOS来获取操作系统类型的字符串表示。
堆段和栈段的区别 堆段(Heap Segment)和栈段(Stack Segment)都是在程序运行时分配内存的区域,但它们有以下不同之处: