实例解释比较详细的杰奇小说采集规则编写教程

2019-11-02 17:01:00

字体：大中小

来源：转载

供稿：网友

添加采集规则

规则说明

系统默认变量：<{articleid}> - 文章序号，<{chapterid}> －章节序号， <{subarticleid}> －文章子序号， <{subchapterid}> －章节子序号。

系统标签 * 可以替代任意字符串。

系统标签 ! 可以替代除了<和>以外的任意字符串。

系统标签 ~ 可以替代除了<>'"以外的任意字符串。

系统标签 ^ 可以替代除了数字和<>之外字符串。

系统标签 $ 可以替代数字字符串。

采集规则中，需要获取的内容部分用四个以上系统标签代替，如 !!!!

基本设置

网站标识configs/article/collectsite.php中所添写的标识，可随便填写，一般为所采集站点的域名简写，以和其他规则区分。例：feiku

网站名称所采集站的名称。例：飞库

网站地址所采集站的地址。例：http://www.feiku.com

文章子序号运算方式不是必须添写的，我这里就留空了。

支持使用<{articleid}>标记的四则运算（+加，-减，*乘，/除，%取余）

章节子序号运算方式不是必须添写的，我这里就留空了。(谁知道他一个文件夹放多少书啊，他不按规则放，我不是采集不到 )

支持使用<{articleid}>标记的四则运算（+加，-减，*乘，/除，%取余）

代理服务器地址不使用代理服务器请留空

代理服务器端口

现有章节无法对应时候是否全部清空重新采集是否根据自己需要选择

是否默认把采集到的文章设置为全本是否根据自己需要选择，如果选择"是"无论文章是连载还是完结，你站上都显示全本，建议选“否”

发送HTTP_REFERER标志，用于突破防采集设置是否默认选“是”,不知道什么用，我选“是”先突破下再说

对方网页编码（自动检测 GB2312 UTF8 BIG5）默认“自动检测” 编码与本站不同将自动尝试转换

文章信息页面采集规则

文章信息页面地址书籍信息页网址，书籍ID用<{articleid}>代替。例：

http://feiku.com/Book/<{articleid}>/Index.html

文章标题采集规则要求会查看网页的源文件啊 ,不会的可以停止了 .查看下信息页面的源文件，然后找到文章标题在源文件的什么位置(我们是以飞库为例的,就是章节信息页面那个《文章标题》在源文件的位置).这里以《我的美女大小姐》这个为例,找到标题附近的代码是<div id="CrBookTitle"><span class="booktitle">《我的美女大小姐》</span></div>把上面代码复制到文章标题采集规则的那个框里,然后把我的美女大小姐这个真实的标题替换为!!!!当然也可以替换成其他的替换符号比如****不过讲究的是在能表达意思的情况下范围越小越好(习惯问题，这里当然只能采集到文章标题了，但是其他的一些采集的时候就有你不想要的东西).

作者采集规则<li class="l6"><a href="/Author/WB/144238.html">李兴禹</a></li>这里的李兴禹是要采集的内容,用!!!!代替不过144238只对这个文章有用,其他文章有其他的数字,所以用任意数字串$代替.所以作者采集规则就是

文章类型采集规则 <li class="l2"><a href="/Book/LN/133.html">都市</a></li>由上面两个采集规则的写法不难看出这里的规则是 <li class="l2"><a href="/Book/LN/$.html">!!!!</a></li>

上一篇：网站增加外部链接的方法和几点注意事项

下一篇：Google Adsense优化心得