核心五部曲: 列表采集规则核心只需要填写这五个空。


1YS.jpg

  • 采集地址: 大家采集目标页面的地址

  • 采集范围: 你要采集目标页面的哪一块数据

  • 采集规则: Jquery选择器,选择页面上的区域

  • 详情页采集范围: 同上

  • 详情页采集规则: 同上


来看这是一个例子

先科普一下, 在 html 中


class 对应 Jquery 的 .


id 对应 Jquery 的 #


我下面的例子中每个选择器都有 . 或者 # 大家放大图仔细看。


不要拉下这些小符号了


目标采集目标地址:  这是国内某游戏新闻列表页


https://xx.qq.com/webplat/info/news_version3/154/2233/3889/m2702/list_1.shtml


打开页面


在页面中 点击右键->检查 即可出现下方的框框。可看到页面的源代码


2YS.jpg

如图所画:


他每页有十篇新闻


黄色区域就是我们本页面所有文章所在的范围


黄色区域 对应右侧的代码 区域 class = down-nr


解释: 加上 ul  li 会循环每一个文章所在的区域。达到了我们列表批量采集的目的


注意: 这一步 请务必使用debug功能测试。(下面有介绍如何使用)


最终列表采集范围结果:  .down-nr>ul>li


列表十篇文章的区域找到了,下面就找找十篇文章区域,所对应的文章链接吧


因为拿到具体的文章链接我们就能去采集每篇文章的内容啊!


恭喜完成第一步


现在我们已经定位到了文章区域,我们现在要找到区域中文章的链接


3YS.jpg

一般的文章区域只有一个a就是文章地址。但是这个例子不太一样


大家截图中观察 li 里面的文章区域有两个 a


第一个a是新闻列表页地址 第二个a才是我们需要的文章地址


我们用 Jquery 的 eq 语法 a:eq(1)   意是取 所在区域的 第二个 a


注:代码中从 0 开始(只有一个 a标签 可以只填 a 即可),


注:如果目标站链接是相对链接。程序会自动补全的


当当当~


最终列表采集规则:   a:eq(1) href


href 意思选择a标签的 href属性(就是文章地址)


注: 请使用Debug功能(下面有介绍如何使用)


第二步完成了。。。


我们要进入文章详情页面啦、


有点累了。下面大家自己悟把。很简单。


4YS.jpg

注:请使用Debug功能,每一步都使用debug功能看结果。


详情采集范围   .sub-cont  


解释: 看图 .sub-cont 包括了 标题和内容 是他们的父级区域 选择这个区域可


详情采集规则   title = .n_title 


详情采集规则   content = .sub-nr


解释: 看图 .n_title 是文章的标题


解释: 看图 .sub-nr 使文章的内容


当当当~~~


终于所有的都搞完了。最终 完成的配置 


5YS.jpg

属性解释


href 基本指 a 标签的 href 属性(这个属性存储的是点击后跳转地址)

text 取区域的文本 ,一般用于标题

html 取区域的所有的html  一般用到取内容,内容比较多。且内容有排版里面有 image css js 很多东西 。所以要拿到所有的原始html

标签过滤怎么用呢?给大家描述一下(多个过滤规则中间使用空格区分)


a 就是去除掉区域所有a标签跳转功能。保留文字

-a 删除a标签 包括删除a标签里面包含的内容 (不建议使用,因为有些图片是在a里面的 删除a 里面的 图片也没了。)

-div 删除所有div

-p 同上

-b 同上

-span 同上

-p:first  删除第一个 p标签

-p:last  删除最后一个 p标签

-p:eq(-2) 删除倒数 二个p

-p:eq(2) 删除正数 二个p

就是这个套路…

标签过滤支持所有 Jquery 语法,灰常强大。能帮你处理各种杂乱的数据


只是一部分过滤方法。居然更多请自行百度。


请看下图


6YS.jpg

请看上图,只是过滤的一部分。大家自行百度,胖鼠采集过滤功能很强大。


新手可以导入默认例子品尝。全部都是配好的规则直接用


 Debug功能使用方法


7YS.jpg

给大家实战一下


8YS.jpg

上面是debug是测试采集10条link有没有采集成功。有了link之后就可以采集详情页面了


大家同样要使用debug功能 测试 详情页 title content 是否可以获取正确。


测试过 link title content 三个规则数据都对了。那么采集应该就十拿九稳啦。


一次花点时间配一次 就可以一直使用。希望大家花一点点时间学习一下。


这个网站只是其中一个例子。


目标站 html 与这种不同,可以动动脑筋,多改改。用Debug多看看结果


This article comes from http://www.chieng.cn, reproduced please specify!

打赏 支付宝 微信