location_on 首页 keyboard_arrow_right 资讯 keyboard_arrow_right 正文

零基础写爬虫：Python Selenium 自动抓取网页数据教程

资讯 2026-04-28 1

在爬虫领域，传统的 requests 库虽然轻便，但在面对 JavaScript 渲染的动态网页（如需要点击、翻页、滚动加载的页面）时往往力不从心。

Selenium 的核心优势在于：

所见即所得：它直接驱动浏览器运行，模拟真人操作。
上手简单：无需深究复杂的 API 接口和加密算法。
功能强大：自动处理点击、滑动、输入等交互行为。

第一步：环境搭建（工欲善其事）

在开始编写代码之前，我们需要准备好开发环境：

安装 Python：前往官网下载并安装最新版本。
安装 Selenium 库：在终端/命令行执行：pip install selenium
下载 WebDriver：

根据你使用的浏览器（如 Chrome 或 Edge）下载对应的驱动。
确保驱动版本与浏览器版本一致，并将其路径添加到系统环境变量。

第二步：核心逻辑与代码实战

下面是一个简单的 Selenium 爬虫框架，展示了如何打开网页并获取标题：

Python

from selenium import webdriverfrom selenium.webdriver.common.by import Byimport time# 1. 初始化浏览器驱动driver = webdriver.Chrome()try:    # 2. 访问目标 URL
    driver.get("https://www.example.com")    
    # 3. 等待页面加载
    time.sleep(3)    
    # 4. 定位元素并抓取数据
    # 这里以抓取页面所有 h2 标签内容为例
    elements = driver.find_elements(By.TAG_NAME, "h2")    
    for index, element in enumerate(elements):
        print(f"数据 {index+1}: {element.text}")finally:    # 5. 关闭浏览器
    driver.quit()