![]() |
|
|
|
#1 |
|
高级会员
注册日期: 2009-04-10
帖子: 176
声望力: 5 ![]() |
写采集规则必备知识:HTML代码知识,略懂一点正则,正则里只懂一条就足够了,那就是万能的 (.*) 代表任意字符。例如:<a(.*)</a> 代表所有的超级链接,简单地说就是<a开头并且</a>结尾。
通常写一个SKYUC采集规则步骤如下: 1、确定分类翻页地址,和页数。例如 http://xxx.com/list-8-[page] 这里[page]是代表1-N的数字,N就是页数。 2、找准影片列表“开始和结束”HTML代码,这里“开始”必须是网页中唯一的,“结束”必须是离开始最近的符号。如果“测试”时发现有多余的链接,可以用“全局过滤”把多余的内容过滤掉,也可以使用网址“必须包含”和“不能包含”。 3、影片属性,就没什么好说的,只要找准“开始和结束”就OK,影片图片“结束”一般用双引号即可。 4、最后是影片地址,这个最麻烦。如果是普通的电影站,那需要用到高级接口(PHP接口)实现,一般人学不了这个。这里我说到的是普通的资源站提供的地址,和上面影片属性的获取方式不一样,这里是和影片列表的“开始和结束”类似,就是先找准一个影片地址的范围,再过滤掉不需要的信息。常用到的过滤规则,官方给出的有。 总结一下,在此处用到的规则如下: 代码:
{suc:trim}<a(.*)>{/suc}{suc:trim}</a>{/suc} 过滤掉超级链接,但是保留链接名称。
{suc:trim}<a([^>]*)>(.*)</a>{/suc}过滤掉超级链接。
下面几个过滤表格
{suc:trim}<table(.*)>{/suc}{suc:trim}</table>{/suc}
{suc:trim}<tr(.*)>{/suc}{suc:trim}</tr>{/suc}
{suc:trim}<td(.*)>{/suc}{suc:trim}</td>{/suc}
这里要留神观察,通常用两种方法可以解决,大家根据自己的观察选择。 代码:
{suc:trim}<a(.*)>{/suc}{suc:trim replace="\n"}</a>{/suc} 把超级链接最后的</a>作为每一行的分割符。
{suc:trim replace="\n"}<br>{/suc} 把HTML的代码<br>作为每一行分割符
全文完…… |
|
|
|
|
|
#2 |
|
初级会员
注册日期: 2008-11-01
帖子: 7
声望力: 0 ![]() |
|
|
|
|
|
|
#3 |
|
高级会员
注册日期: 2009-04-10
帖子: 176
声望力: 5 ![]() |
做视频太麻烦了,而且也没有文字描述的清楚,本人不擅口才。
|
|
|
|
|
|
#4 |
|
初级会员
注册日期: 2010-07-13
帖子: 2
声望力: 0 ![]() |
这个值得仔细研究一下。
|
|
|
|
|
|
#5 |
|
初级会员
注册日期: 2008-11-01
帖子: 7
声望力: 0 ![]() |
能否说的详细一点呀大哥
|
|
|
|
|
|
#6 |
|
初级会员
注册日期: 2008-11-01
帖子: 7
声望力: 0 ![]() |
大哥,我不会,采集规则还是靠你了,帮我写全站 http://www.9zy.me/ 谢谢大哥了
|
|
|
|
|
|
#7 | |
|
论坛管理员
注册日期: 2007-08-26
帖子: 2,673
声望力: 10 ![]() |
引用:
__________________
SKYUC 3.0.6商业版8月13日更新,请商业用户及时更新! |
|
|
|
|
|
|
#8 |
|
普通会员
注册日期: 2010-07-27
帖子: 31
声望力: 0 ![]() |
还是不太懂,有个图文教程,手把手教就好了
|
|
|
|