手把手教你写网络爬虫（5）：PhantomJS实战("零基础入门：手把手教你编写PhantomJS网络爬虫实战教程（第五篇）")

原创

ithorizon 4个月前 (10-19) 阅读数 14 #后端开发

零基础入门：手把手教你编写PhantomJS网络爬虫实战教程（第五篇）

一、前言

在前几篇文章中，我们已经介绍了PhantomJS的基本概念和用法。本篇文章将带大家进行一次PhantomJS网络爬虫的实战，爬取一个网页中的数据。我们将使用PhantomJS的内置模块以及一些常用的JavaScript库来实现这个功能。

二、PhantomJS实战准备

在起始实战之前，我们需要做一些准备工作。首先，确保你已经安装了PhantomJS。如果没有安装，可以参考前面的文章进行安装。其次，我们需要一个目标网站，这里我们以一个单纯的新闻网站为例。

三、实战步骤

下面我们将按照以下步骤来实现这个PhantomJS网络爬虫：

创建PhantomJS脚本文件

引入必要的模块和库

设置PhantomJS参数和配置

编写爬虫逻辑

执行爬虫并输出因此

四、创建PhantomJS脚本文件

首先，我们需要创建一个PhantomJS脚本文件，命名为phantomjs_crawler.js。以下是脚本的基本结构：


// phantomjs_crawler.js
// 引入PhantomJS模块
var page = require('webpage').create();
var system = require('system');
// 爬虫主函数
function crawl(url) {
    // 爬虫逻辑
}
// 执行爬虫
var url = 'http://example.com/news';
crawl(url);
// 输出因此

五、引入必要的模块和库

为了方便操作DOM元素，我们可以引入一些JavaScript库，如jQuery。这里我们需要使用PhantomJS的内置模块webpage，以及引入jQuery库。


// 引入PhantomJS模块
var page = require('webpage').create();
var system = require('system');
// 引入jQuery库
page.includeJs('http://ajax.googleapis.com/ajax/libs/jquery/1.8.2/jquery.min.js', function() {
    // 爬虫逻辑
});

六、设置PhantomJS参数和配置

为了更好地爬取网页，我们需要设置一些PhantomJS的参数和配置，如页面大小、加载超时时间等。


// 引入PhantomJS模块
var page = require('webpage').create();
var system = require('system');
// 设置PhantomJS参数
page.settings.userAgent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3';
page.viewportSize = { width: 1920, height: 1080 };
page.settings.loadImages = false; // 不加载图片
page.settings.resourceTimeout = 10000; // 资源加载超时时间
// 引入jQuery库
page.includeJs('http://ajax.googleapis.com/ajax/libs/jquery/1.8.2/jquery.min.js', function() {
    // 爬虫逻辑
});

七、编写爬虫逻辑

接下来，我们将编写爬虫逻辑。以下是一个单纯的例子，爬取新闻网站中的新闻标题和链接。


// 引入PhantomJS模块
var page = require('webpage').create();
var system = require('system');
// 设置PhantomJS参数
page.settings.userAgent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3';
page.viewportSize = { width: 1920, height: 1080 };
page.settings.loadImages = false; // 不加载图片
page.settings.resourceTimeout = 10000; // 资源加载超时时间
// 引入jQuery库
page.includeJs('http://ajax.googleapis.com/ajax/libs/jquery/1.8.2/jquery.min.js', function() {
    // 爬虫逻辑
    page.open('http://example.com/news', function(status) {
        if (status !== 'success') {
            console.log('Unable to load the address!');
            phantom.exit();
        } else {
            // 等待页面加载完成
            window.setTimeout(function() {
                // 使用jQuery选择器获取新闻标题和链接
                var newsList = page.evaluate(function() {
                    var items = [];
                    $('div.news-item').each(function() {
                        var title = $(this).find('h2').text();
                        var link = $(this).find('a').attr('href');
                        items.push({title: title, link: link});
                    });
                    return items;
                });
                // 输出因此
                console.log(JSON.stringify(newsList, null, 4));
                phantom.exit();
            }, 2000);
        }
    });
});