采集器字符串规则写法入门_文摘

准备工作
DOM规则
字符串规则

字符串截取规则写法

如果你觉得dom规则的写法很难，不适合你，你只想要那些常见的采集器的规则写法就行了，那么你可以尝试一下这种写法。

写法说明

所谓字符串截取，就是规定了起点，终点，根据正则，把一段内容匹配下来。

*代替任意字符、回车、换行, 在要获取的地方放入一个占位符，所谓占位符，每个地方都不一样，比如你想获取链接，占位符是[link],如果是标题，占位符是[title] ,如果是内容，占位符是[body]。一般采集器都会在旁边说明，采集器也提供了快捷的插入占位符功能，如下图：

需要注意：不要以注释（)、javascript、iframe、style、css这些标签的内容做为截取的边界，因为采集器在获取内容时会自动过滤掉。

用字符串截取获取文章列表链接

源代码如下图：

第一步：循环重复的部分是li那行，随便复制出一段代码如：<li><a href="http://www.test.com/1.html">第一个链接</a></li>
第二步：把变化的地方用*代替，链接用[link]代替之后，变成：<li><a href="[link]">*</a></li>
测试结果：