小蜜蜂推广大师:采集软件使用教程V0315版本

作者 9iBee.coom 来源 小蜜蜂论坛顶帖机 浏览

小蜜蜂采集软件使用要点:
  第一步根据目录页采集内容页网址
  第二步根据内容页网址采集内容
  第三步开始采集
  第四步伪原创

  小蜜蜂采集软件使用简单方便,容易上手,下面以详细教程图文并茂说明如何使用小蜜蜂采集软件,如何写采集规则:

1、首先点击“内容采集”按钮,如下图所示

小蜜蜂推广大师:采集软件使用教程V0315版本

2、在采集规则方案输入方案名称,如下图1所示

3、首先我们进行第一步:采集网址规则,在采集网站处输入我们要采集网站的网址,这里主要用来识别网站编码用的,输入网址后把鼠标移动到其它任何输入框,软件会自动识别网站编码,我们以采集牛站长论坛为例子,所以这里输入www.nb5.cn(注意不要输入http://,因为软件默认自带http://);采集网址就是我们要采集的内容目录页,其中目录页有很多分页,如图

小蜜蜂推广大师:采集软件使用教程V0315版本

目录页的网址:
第一页:http://www.nb5.cn/forum-102-1.html
第二页:http://www.nb5.cn/forum-102-2.html
第三页:http://www.nb5.cn/forum-102-3.html
......
最后页:http://www.nb5.cn/forum-102-11977.html

我们可以看出这些网址有一个规律,就是这些网址是有序递增的,我们用批量多页一次就可以加完,在网址内“插入通配符(*)”,如www.nb5.cn/forum-102-(*).html(注意不要输入http://,因为软件默认自带http://),然后在数字哪里输入从“1”到“10”,然后点击添加,在网址框内就会生成1~10页的目录页网址,如下图2所示

4、我们仔细看目录页http://www.nb5.cn/forum-102-1.html 的源代码(如何查看源代码,用IE打开网页,然后在网页内鼠标右键 -> 查看源代码),就可以发现在 “版块主题”和“</form>” 之间是文章列表内容,而且这两个标记是唯一的,“</form>”是从“版块主题”这个位置开始往后查找,是唯一的,我们就以此为页面内选定区域采集网址的开始和结束标志,如下图3所示

5、我们再来看内容页面的网址
http://www.nb5.cn/thread-1733285-1-1.html
http://www.nb5.cn/thread-1733323-1-1.html
http://www.nb5.cn/thread-1733334-1-1.html

我们可以看出这些网址都包含了“-1-”字符,于是我们可以在文章内容页面的地址必需包含输入“-1-”,对于一些不是我们需要采集内容页面的网址,我们可以在“不得包含(多个关键词 | 格开)”过滤掉,譬如论坛用户空间地址http://www.nb5.cn/space-uid-563869.html,我们需要过滤掉,只要输入“-uid-”,如下图3所示

小蜜蜂推广大师:采集软件使用教程V0315版本 

6、采集网址规则设置好了,我们可以测试看一下效果,点测试按钮,测试效果如下图,关闭测试网址列表点击隐藏按钮:

小蜜蜂推广大师:采集软件使用教程V0315版本

7、接下来我们进行第二步:采集内容规则,我们以这个页面为例http://www.nb5.cn/thread-1733334-1-1.html,采一下标题和内容等,先看源码

 小蜜蜂推广大师:采集软件使用教程V0315版本

这里我们获得标题,可以选开始“<title>” 结束“-”;下面讲一下怎么获得内容,我们先打开网页源代码,查找内容附近的代码

小蜜蜂推广大师:采集软件使用教程V0315版本 

我们可以看到,文章前边是<div class="t_fsz">这个代码,我们查找一下,这是唯一的,可以使用,然后找后边文章结束有个这个代码</td></tr>,这个也是唯一的。这样,我们以这两个代码为开头和结尾就可以获得内容了;如下图1所示

8、如果我们希望采集的内容必需是包含我们需要的关键字内容,我们可以在“内容中包含关键字”输入关键字(多个关键字用小写逗号格开);有时候一些帖子内容都是一些水帖,或者没有内容的帖子,这时候我们可以自定义内容的长度,把没有内容的帖子全部过滤掉,我们就可以在内容处输入内容长度,单位是字,我们可以输入一个100,如下图1所示

 小蜜蜂推广大师:采集软件使用教程V0315版本

9、小蜜蜂采集软件会自动去掉帖子内容里面的网页标签,ubb代码,保留纯文字内容,但是有时候内容里面还带有一些我们不需要的内容,譬如该帖子里面有一个“西安担保”文字,我们希望过滤掉,这时候我们点击上图2的“内容替换”按钮,弹出下图窗口,输入从“西安”到“担保”,替换为空,不需要输入,然后点击“添加”按钮,返回点击“隐藏”按钮即可,如下图1所示:

 小蜜蜂推广大师:采集软件使用教程V0315版本

10、采集内容规则设置好了,我们可以测试看一下效果,输入测试网址,点测试按钮,测试效果如下图:

小蜜蜂推广大师:采集软件使用教程V0315版本

11、我们可以根据测试采集的内容来调试采集规则,直到调整完全满意后,我们不要忘记点击“保存”按钮,这样一个采集规则就完成了

12、接下来我们进行第三步:开始采集,点击“浏览”按钮,选择保存采集内容文件的目录,然后点击“开始采集”,如下图1所示,在采集的日志中,我们看到有“没有采集到内容”,这是因为我们在采集规则中设置了“内容中包含关键字”和“内容长度”条件,而采集到的内容没有满足这两个条件,所以就被抛弃掉

 小蜜蜂推广大师:采集软件使用教程V0315版本

12、接下来我们进行第四步:伪原创,我们可以“打开伪原创词库”文件,里面的内容就是一些词语替换的词库,这些词库我们是可以增加、修改和删除的,只要按照文件内的格式“原词语=替换后词语”书写就可以了;接下来我们点击“开始转换”按钮,小蜜蜂采集软件就开始自动伪原创,如下图所示:

 小蜜蜂推广大师:采集软件使用教程V0315版本

13、操作完以上4步,我们的采集内容+伪原创就完成了,采集到的文件,我们可以手动打开文件,查看一下里面的内容,其中第一行为标题,第二行开始为内容,如果发现有些采集到的内容还是有其它不需要的内容,我们可以继续修改采集规则、内容替换来不断调整,直到适合我们的要求,在这里特别需要提醒的是每次修改采集规则,一定不要忘记点“保存”按钮,否则我们的辛苦劳动都白白浪费了;

 

 

Copyright 2011-2999 Powered By 小蜜蜂论坛顶帖机 小蜜蜂论坛回帖机 小蜜蜂论坛发帖机