网络神采 网络神采

网络神采

  • 类别:实用工具
  • 大小:5.91 MB
  • 更新:2024-02-03
  • 下载:468次
游戏简介

运行在计算机上的网络精神收集工具;用户成功安装软件后,点击快捷方式进入软件主界面,设置相关采集信息,点击开始按钮,完成任务采集;软件下载网页的数据,免费提供给大家使用。智能采集功能为您节省大量时间,二次开发的功能注册采用分布式部署。感兴趣的朋友不要错过!

软件功能

源文件查看器

在设置采集任务时,需要对网页的源文件进行分析,以确定如何提取里面的信息。源文件查看器是软件附带的工具,文件名为htmlview.exe。

常规测试仪

软件附带的正则表达式测试工具。

网站编码器

用于用中文字符对URL进行编码或对编码后的URL进行解码。

任务升级设备

您可以将任务文件的较低版本升级到新版本。

在线出版商

当地数据可以在线发布到网站上。

HTML标签

在收集时,软件会自动从内容中删除HTML标签,但是,用户可以选择保留一些标签。在这里维护一个标签库,供你在编辑任务时选择。

正则表达式

这里维护预置的正则表达式,用于“采集结果替换”。

插入“增量变量”

在起始地址中,除了“页码变量”之外还可以使用增量,例如https://www.ltthb.com/d/file/pic/20230310/search.asp start={0,1000,20},表示起始参数会从0变化到1000,每次增加20。

插入“反转页码变量”

适合反向收集,即先收集排名靠后的页面。例如:https://www.ltthb.com/d/file/pic/20230310/search.asp

插入POST参数的开头和结尾

假设这是一个信息查询的页面:https://www.ltthb.com/d/file/pic/20230310/query.asp { POST } keyword=Beijing page={ 1,100}{/post},表示通过POST提交关键字和页面参数。page参数就是上面说的页码参数,这里指的是收集1到100页。

插入年、月、日和日期变量。

假设这是一个带有“日期变量”的起始地址:https://www.ltthb.com/d/file/pic/20230310/news_list.asp

对所选部分进行编码/解码

起始地址文本框的选定部分是URL编码或解码的。注意:如果起始地址中有汉字,一般情况下,URL必须进行编码。

捕获URL

访问某些网站时,URL中不显示任何参数,因为这些参数是通过POST提交的。如果无法获取这些岗位参数,就无法通过软件进行访问和查询。在这里,您可以捕获文章的URL,包括隐藏的文章参数。捕获后,URL将自动填充到起始地址文本框中。

软件特色

发布结果

默认情况下,软件会将收集结果保存到结果文件中,发布结果意味着将结果文件中的收集结果发布到现有数据库中。

结果导出为

将结果文件中的收集结果导出为ACCESS、EXCEL和文本文件。

检查结果

在结果文件中查看收集结果。

空结果

清除结果文件中的收集结果。

发布时重复行

将采集结果发布到数据库时,可以检查数据的重复性,避免重复采集。这里的“重复行”是指在发布时与数据库中现有记录重复的数据行。您可以选择将这些重复的行保存到一个文件中,供以后查看。您可以在这里查看和清除重复的行。

发布时出现错误行

将收集结果发布到数据库时,可能会出现错误,例如,现有数据字段的长度太小,无法容纳收集的信息。为了便于将来查看,您可以选择将这些失败的数据行(即“错误行”)保存到一个文件中。您可以在这里查看和清除错误行。

历史

软件在采集时支持历史记录对比,即通过查看历史记录来判断该地址是否已经采集,如果已经采集,则不采集。在这里您可以查看和管理历史记录。

任务日志

您可以选择将任务的运行日志保存到文件中,以便查看日志。

使用方法

1.在本站下载软件后,软件解压成功,点击poster.exe运行软件;

2.点击应用图标进入软件主界面,可以设置相关选项;

3.单击文件夹图标以选择本地数据库文件;

4.发布后是否删除本地数据,也支持设置缓存的大小;

5、目标地址编辑窗口,快速完成参数名称的查找和设置;

6.可以查看捕获的地址参数;

7.设置用户自定义错误,包括显示错误列表;

8.设置完成后,点击开始发布按钮,查看已发布的状态信息;

9.检查有关软件的信息;

10.支持用户查看工作流;

使用说明

条目获取示例

实例分析

新闻采集最常用,也最容易理解。我们以一个简单的新闻采集任务为例。这个任务有两个层次:“新闻列表”和“新闻内容”。我们以新闻列表为“起始地址”,然后通过“导航规则”从新闻列表中提取“新闻内容”的网址,最后根据“收集规则”收集所需内容。

创建任务

在软件主窗口中,单击任务-新建以打开任务编辑对话框来创建任务。我们来讨论一下如何通过图形混合一步步填充设置:

步骤1:任务概述

在“任务概述”中,我们只需要填写一个任务名称:郑州大学新闻信息。其他设置暂且不讨论,等你熟练了再参考我们的帮助文档。

第二步:开始地址

起始地址是我们要收集的内容的。。地址,这里是“新闻列表”:http://www3.zzu.edu.cn/msgs/vmsgisapi.dll/vmsglist? mtype=xlan=202 TTS=tops=pn={ 1,100}。其中“pn”为分页变量名,浏览“新闻列表”时翻页即可观察到。如果“pn=1”表示第1页,“pn=2”表示第2页,依此类推。我们为“pn”指定一个变量值:{1,100},这意味着将收集1到100个页面。这个分页变量格式是由我们的软件定义的。您可以通过单击“插入”按钮插入预设的分页变量(详情请见此处)。

第三步:导航规则

因为这个任务有两层,所以需要构建两个“导航规则”,分别命名为“新闻列表”和“新闻内容”。我们需要从“新闻列表”中提取“新闻内容”的网址来实现导航。因此,将“新闻列表”设置为“中间层”,并填写“下一层URL模板”来提取URL。对于“新闻内容”,只需选择“最终页面”并保存即可。

那么如何确定“新闻列表”的“下一层URL模板”?请看下图。

通过查看“新闻列表”的源文件,我们可以找到“新闻内容”的网址,它显示在黄色部分。我们用“*”(通配符)代替URL的可变部分,这就是“下一层URL模板”,即https://www.ltthb.com/d/file/pic/20230310/onemsg msgid=* .这样我们在提取的时候就有了依据:只提取与模板匹配的URL,跳过其他URL。

导航规则的最终设置如下:

步骤4:收集规则

通过“导航规则”一路走到“最终页面”,也就是“新闻内容”,然后需要根据“采集规则”采集所需内容。如上图所示,一个“采集规则”对应一个数据库字段,即一个信息类型,如标题、出版商、投稿人、内容等。“数据库字段”可以留空,默认值是其规则名称。“level”是一个跨层的集合函数,在这个例子中没有用到,所以保持默认值即可。

以下是最重要的:“前信息标记”和“后信息标记”。软件通过在源文件中寻找“前信息标记”来定位要收集的信息。那么如何获取logo前后的信息呢?请看下图。

如图,“红色部分”。。信息的正面标志,“黄色部分”是背面标志,中间夹着的“蓝色部分”是我们需要收集的。它们是:标题、出版商、投稿人、出版日期、阅读次数和内容。

收款规则的最终设置如下:

注意:

1.如果使用“前后标志”来收集信息,则必须与“网页源文件”的顺序相同。

2.应用一个“获取规则”后,会将“获取内容”的尾部作为“当前位置”,然后从“当前位置”找到下一个“获取规则”的“前信息标记”。

3.如果选择了全局规则和静态规则,它们将不再受当前位置的影响。

第五步:收集结果。

如图,这里不做任何设置,采集后可以直接导出结果。

使用技巧

1.自动填写“采集规则名称”

设置采集规则时,如果“前置信息标志”包含“汉字或字母”,则自动提取为“采集规则名称”。例如:

2.导入和导出任务

可以免费注册两个神七账号,导入后简单修改即可实现不同账号之间“导出/导入”的任务。

导出时,可以按住Ctrl键选择多个任务。运行或暂停任务也是如此。您可以选择多个任务。

3、复制任务

同一个任务(比如同一个网站下的不同栏目)或者智能采集任务(没有规则,只需修改起始地址)非常适合复制一个任务然后修改:

4、内容收集完毕后,保留断行、图片等。

默认情况下,收集的内容不保留任何HTML标签,所以换行符,图片等。无法显示。在收集规则设置中,您可以指定要保留哪些HTML标记:

可以维护“HTML标签”库。软件菜单:设置-HTML标签:

5.预设规则名称

6.取定值作为结果

手动设置一个固定值,可以用来指定分类、区域等。截图示例:

7.默认结果替换

在收藏规则中,可以设置“收藏结果替换”来替换收藏的内容。如果您需要经常替换某些内容,例如将“”替换为“空格”({sapce}),您可以在软件设置中设置默认替换:

“默认结果替换。xml”来源于“任务编辑-采集规则-采集结果替换”。

8.手动修改任务状态

只有当采集任务“暂停”时,才能继续采集,即可以在断点处恢复采集。如果任务被“停止”,那么必须从头开始收集。

如果意外停止了任务,可以在任务的XML文件中手动将任务状态更改为“暂停”:

任务名称

9.源文件替换

“源文件替换”是最灵活的设置之一。可以用普通链接代替“JS脚本链接”,方便“提取下一层URL”和导航。源文件替换,其实就是“动态改变”一个网页的源文件,方便导航和收藏。

比如列表页面的源文件中有这样一个“JS脚本链接”:文章的标题,文章内容的实际地址,就需要用源文件来替换。

源文件替换设置为:

旧值中的“{id}”。。一个参数,用来表示文章的id(即220433);

新值中的“${id}”引用旧值中的参数“{id}”,该参数被替换以形成新的URL。

10、检查源文件替换效果

源文件替换后,如果不确定替换是否成功,可以把整个“网页源文件”收集起来,看看替换后的样子:

如果你仍然有疑问,你也可以将收集到的“网页源文件”复制到“工具-常规测试器”(RegexTester.exe)中进行实际测试。因为源文件替换中的“旧值”可以直接转换成“正则表达式”:

11.正则表达式应用程序:收集规则

正则表达式非常灵活,集合规则中的“前后标志”和导航规则中的“下一层URL模板”最终都会被软件转换成正则表达式。

如果需要写“正则表达式”提取内容,可以在“采集规则-采集结果替换”中使用正则表达式:

12.正则表达式应用程序:导航规则

在“下一层URL模板”中使用“*”通配符是软件定义的规则。也可以直接使用标准的“正则表达式”提取“下一层URL”,使匹配更加准确灵活:

常见问题

如果循环收集呢?

循环采集原理:

以百度新闻搜索为例:

取“循环标记”并限制采集范围:

游戏截图
标题:网络神采
链接:https://www.ltthb.com/app/gj/15457.html
版权:文章转载自网络,如有侵权,请联系删除!
资讯推荐
更多
2024最新公测手游排行榜,最近新出的高人气游戏推荐

一、文章导读老游戏玩腻了的小伙伴们都在寻找最近才公测的手游都要哪些,有没有出新的玩法和新的游戏类型,毕竟

2024-02-03
魔兽世界金价持续暴跌,未来的搬砖方法只有这3种

魔兽世界金价持续下跌,未来的搬砖方法只有这3种,大家好我是分身有术,那么最近的话,魔兽世界金价是持续下跌的,现

2024-02-03
Switch2024上半年最值得游玩的游戏

波斯王子:失落的王冠玩家在游戏中扮演不死军团的战士萨尔贡,为了拯救被劫走的波斯王子前往戛弗山开启一场传奇

2024-02-03
街机游戏中让人神烦的敌人,穿得再少玩家也没心思

如今大家对街机游戏都驾轻就熟了吧!随便一款游戏都能玩十几分钟。就是不知道如今的你是否还记得最初接触《三

2024-02-03
FC十大最难游戏当年你通关了没?

本内容来源于@什么值得买APP,观点仅代表作者本人 |作者:老曾说游戏1.绿色兵团肯定会有小伙伴会说,你到底是有多

2024-02-03
比较好玩的传奇手游有哪些 2024热门传奇手游top5

“醉卧沙场君莫笑,古来征战几人回。”在游戏的浩渺世界中,传奇类手游宛如一座闪耀着光芒的神秘宝库,吸引着无数

2024-02-03