运行在计算机上的网络精神收集工具;用户成功安装软件后,点击快捷方式进入软件主界面,设置相关采集信息,点击开始按钮,完成任务采集;软件下载网页的数据,免费提供给大家使用。智能采集功能为您节省大量时间,二次开发的功能注册采用分布式部署。感兴趣的朋友不要错过!
软件功能
源文件查看器
在设置采集任务时,需要对网页的源文件进行分析,以确定如何提取里面的信息。源文件查看器是软件附带的工具,文件名为htmlview.exe。
常规测试仪
软件附带的正则表达式测试工具。
网站编码器
用于用中文字符对URL进行编码或对编码后的URL进行解码。
任务升级设备
您可以将任务文件的较低版本升级到新版本。
在线出版商
当地数据可以在线发布到网站上。
HTML标签
在收集时,软件会自动从内容中删除HTML标签,但是,用户可以选择保留一些标签。在这里维护一个标签库,供你在编辑任务时选择。
正则表达式
这里维护预置的正则表达式,用于“采集结果替换”。
插入“增量变量”
在起始地址中,除了“页码变量”之外还可以使用增量,例如https://www.ltthb.com/d/file/pic/20230310/search.asp start={0,1000,20},表示起始参数会从0变化到1000,每次增加20。
插入“反转页码变量”
适合反向收集,即先收集排名靠后的页面。例如:https://www.ltthb.com/d/file/pic/20230310/search.asp
插入POST参数的开头和结尾
假设这是一个信息查询的页面:https://www.ltthb.com/d/file/pic/20230310/query.asp { POST } keyword=Beijing page={ 1,100}{/post},表示通过POST提交关键字和页面参数。page参数就是上面说的页码参数,这里指的是收集1到100页。
插入年、月、日和日期变量。
假设这是一个带有“日期变量”的起始地址:https://www.ltthb.com/d/file/pic/20230310/news_list.asp
对所选部分进行编码/解码
起始地址文本框的选定部分是URL编码或解码的。注意:如果起始地址中有汉字,一般情况下,URL必须进行编码。
捕获URL
访问某些网站时,URL中不显示任何参数,因为这些参数是通过POST提交的。如果无法获取这些岗位参数,就无法通过软件进行访问和查询。在这里,您可以捕获文章的URL,包括隐藏的文章参数。捕获后,URL将自动填充到起始地址文本框中。
软件特色
发布结果
默认情况下,软件会将收集结果保存到结果文件中,发布结果意味着将结果文件中的收集结果发布到现有数据库中。
结果导出为
将结果文件中的收集结果导出为ACCESS、EXCEL和文本文件。
检查结果
在结果文件中查看收集结果。
空结果
清除结果文件中的收集结果。
发布时重复行
将采集结果发布到数据库时,可以检查数据的重复性,避免重复采集。这里的“重复行”是指在发布时与数据库中现有记录重复的数据行。您可以选择将这些重复的行保存到一个文件中,供以后查看。您可以在这里查看和清除重复的行。
发布时出现错误行
将收集结果发布到数据库时,可能会出现错误,例如,现有数据字段的长度太小,无法容纳收集的信息。为了便于将来查看,您可以选择将这些失败的数据行(即“错误行”)保存到一个文件中。您可以在这里查看和清除错误行。
历史
软件在采集时支持历史记录对比,即通过查看历史记录来判断该地址是否已经采集,如果已经采集,则不采集。在这里您可以查看和管理历史记录。
任务日志
您可以选择将任务的运行日志保存到文件中,以便查看日志。
使用方法
1.在本站下载软件后,软件解压成功,点击poster.exe运行软件;
2.点击应用图标进入软件主界面,可以设置相关选项;
3.单击文件夹图标以选择本地数据库文件;
4.发布后是否删除本地数据,也支持设置缓存的大小;
5、目标地址编辑窗口,快速完成参数名称的查找和设置;
6.可以查看捕获的地址参数;
7.设置用户自定义错误,包括显示错误列表;
8.设置完成后,点击开始发布按钮,查看已发布的状态信息;
9.检查有关软件的信息;
10.支持用户查看工作流;
使用说明
条目获取示例
实例分析
新闻采集最常用,也最容易理解。我们以一个简单的新闻采集任务为例。这个任务有两个层次:“新闻列表”和“新闻内容”。我们以新闻列表为“起始地址”,然后通过“导航规则”从新闻列表中提取“新闻内容”的网址,最后根据“收集规则”收集所需内容。
创建任务
在软件主窗口中,单击任务-新建以打开任务编辑对话框来创建任务。我们来讨论一下如何通过图形混合一步步填充设置:
步骤1:任务概述
在“任务概述”中,我们只需要填写一个任务名称:郑州大学新闻信息。其他设置暂且不讨论,等你熟练了再参考我们的帮助文档。
第二步:开始地址
起始地址是我们要收集的内容的。。地址,这里是“新闻列表”:http://www3.zzu.edu.cn/msgs/vmsgisapi.dll/vmsglist? mtype=xlan=202 TTS=tops=pn={ 1,100}。其中“pn”为分页变量名,浏览“新闻列表”时翻页即可观察到。如果“pn=1”表示第1页,“pn=2”表示第2页,依此类推。我们为“pn”指定一个变量值:{1,100},这意味着将收集1到100个页面。这个分页变量格式是由我们的软件定义的。您可以通过单击“插入”按钮插入预设的分页变量(详情请见此处)。
第三步:导航规则
因为这个任务有两层,所以需要构建两个“导航规则”,分别命名为“新闻列表”和“新闻内容”。我们需要从“新闻列表”中提取“新闻内容”的网址来实现导航。因此,将“新闻列表”设置为“中间层”,并填写“下一层URL模板”来提取URL。对于“新闻内容”,只需选择“最终页面”并保存即可。
那么如何确定“新闻列表”的“下一层URL模板”?请看下图。
通过查看“新闻列表”的源文件,我们可以找到“新闻内容”的网址,它显示在黄色部分。我们用“*”(通配符)代替URL的可变部分,这就是“下一层URL模板”,即https://www.ltthb.com/d/file/pic/20230310/onemsg msgid=* .这样我们在提取的时候就有了依据:只提取与模板匹配的URL,跳过其他URL。
导航规则的最终设置如下:
步骤4:收集规则
通过“导航规则”一路走到“最终页面”,也就是“新闻内容”,然后需要根据“采集规则”采集所需内容。如上图所示,一个“采集规则”对应一个数据库字段,即一个信息类型,如标题、出版商、投稿人、内容等。“数据库字段”可以留空,默认值是其规则名称。“level”是一个跨层的集合函数,在这个例子中没有用到,所以保持默认值即可。
以下是最重要的:“前信息标记”和“后信息标记”。软件通过在源文件中寻找“前信息标记”来定位要收集的信息。那么如何获取logo前后的信息呢?请看下图。
如图,“红色部分”。。信息的正面标志,“黄色部分”是背面标志,中间夹着的“蓝色部分”是我们需要收集的。它们是:标题、出版商、投稿人、出版日期、阅读次数和内容。
收款规则的最终设置如下:
注意:
1.如果使用“前后标志”来收集信息,则必须与“网页源文件”的顺序相同。
2.应用一个“获取规则”后,会将“获取内容”的尾部作为“当前位置”,然后从“当前位置”找到下一个“获取规则”的“前信息标记”。
3.如果选择了全局规则和静态规则,它们将不再受当前位置的影响。
第五步:收集结果。
如图,这里不做任何设置,采集后可以直接导出结果。
使用技巧
1.自动填写“采集规则名称”
设置采集规则时,如果“前置信息标志”包含“汉字或字母”,则自动提取为“采集规则名称”。例如:
2.导入和导出任务
可以免费注册两个神七账号,导入后简单修改即可实现不同账号之间“导出/导入”的任务。
导出时,可以按住Ctrl键选择多个任务。运行或暂停任务也是如此。您可以选择多个任务。
3、复制任务
同一个任务(比如同一个网站下的不同栏目)或者智能采集任务(没有规则,只需修改起始地址)非常适合复制一个任务然后修改:
4、内容收集完毕后,保留断行、图片等。
默认情况下,收集的内容不保留任何HTML标签,所以换行符,图片等。无法显示。在收集规则设置中,您可以指定要保留哪些HTML标记:
可以维护“HTML标签”库。软件菜单:设置-HTML标签:
5.预设规则名称
6.取定值作为结果
手动设置一个固定值,可以用来指定分类、区域等。截图示例:
、
7.默认结果替换
在收藏规则中,可以设置“收藏结果替换”来替换收藏的内容。如果您需要经常替换某些内容,例如将“”替换为“空格”({sapce}),您可以在软件设置中设置默认替换:
“默认结果替换。xml”来源于“任务编辑-采集规则-采集结果替换”。
8.手动修改任务状态
只有当采集任务“暂停”时,才能继续采集,即可以在断点处恢复采集。如果任务被“停止”,那么必须从头开始收集。
如果意外停止了任务,可以在任务的XML文件中手动将任务状态更改为“暂停”:
任务名称
9.源文件替换
“源文件替换”是最灵活的设置之一。可以用普通链接代替“JS脚本链接”,方便“提取下一层URL”和导航。源文件替换,其实就是“动态改变”一个网页的源文件,方便导航和收藏。
比如列表页面的源文件中有这样一个“JS脚本链接”:文章的标题,文章内容的实际地址,就需要用源文件来替换。
源文件替换设置为:
旧值中的“{id}”。。一个参数,用来表示文章的id(即220433);
新值中的“${id}”引用旧值中的参数“{id}”,该参数被替换以形成新的URL。
10、检查源文件替换效果
源文件替换后,如果不确定替换是否成功,可以把整个“网页源文件”收集起来,看看替换后的样子:
如果你仍然有疑问,你也可以将收集到的“网页源文件”复制到“工具-常规测试器”(RegexTester.exe)中进行实际测试。因为源文件替换中的“旧值”可以直接转换成“正则表达式”:
11.正则表达式应用程序:收集规则
正则表达式非常灵活,集合规则中的“前后标志”和导航规则中的“下一层URL模板”最终都会被软件转换成正则表达式。
如果需要写“正则表达式”提取内容,可以在“采集规则-采集结果替换”中使用正则表达式:
12.正则表达式应用程序:导航规则
在“下一层URL模板”中使用“*”通配符是软件定义的规则。也可以直接使用标准的“正则表达式”提取“下一层URL”,使匹配更加准确灵活:
常见问题
如果循环收集呢?
循环采集原理:
以百度新闻搜索为例:
取“循环标记”并限制采集范围:
教师微助手出品,必属精品。其实,你知道吗?普通人离速效装逼,只是一份模板的距离。来吧,这226说课模板,带你速效完
2024-02-03-
ToonMe怎么取消自动续费?自动续费关闭方法 2023-11-12
-
怎么不让快递放菜鸟驿站 2023-11-12
-
妄想山海怎么加好友 加好友方法大全 2023-11-14
-
绯红之境兑换码最新2021 礼包兑换码大全 2023-11-12
-
欢乐射手能提款吗 欢乐射手领红包是真的吗 2023-11-16
-
菜鸟驿站怎么送货上门 2023-11-13
用户评论
你讲得真好!我们确实在网络世界里常常能看到令人惊艳的表现,真是一种神采!我也想学习一些技巧,让自己也拥有网络神采。
有20位网友表示赞同!
以前觉得网络上都是些无聊信息,现在看来还挺多让人眼前一亮的內容。要怎么才能更有网络神采呢?期待作者分享更多宝贵经验!
有6位网友表示赞同!
我更喜欢面对面的交流,感觉网络上的互动有些虚假和不真实或许我只是老旧的想法了?
有18位网友表示赞同!
确实,现在看一些。。作品,评论区,很多人都表现得很有魅力,有想法。这也让我对网络世界充满了好奇心!
有18位网友表示赞同!
网络神采真的很重要,尤其是在现在这个时代,要想吸引人的眼球,就得展现出自己的独特才华。希望越来越多的人都能找到自己的网络神采。
有10位网友表示赞同!
网络神采确实很迷人,就像一颗颗闪耀的星光一样,让人眼前一亮! 但同时也提醒我们要注意网络安全和自保护知识啊。
有15位网友表示赞同!
我完全认同你的观点!很多人在网上展现出自己最真实的一面,这正是网络魅力所在。让我们共同探索网络的神采吧!
有10位网友表示赞同!
我一直觉得网络世界有很多负面的信息,让人误导和消极影响。网络神采也许是一种比较好的方式去引导人们的思想和行为。
有6位网友表示赞同!
作者说得很有道理! 应该更主动地表达自己的观点和想法,这样才能拥有真正的网络神采!我从今以后也要努力学习,让自己在网络世界更加自信!
有8位网友表示赞同!
我觉得网络神采不仅限于个人表现,还包括传播积极。。。的内容,让更多人能从中获得帮助和启迪。
有11位网友表示赞同!
网络神采很有意思,但这并不意味着我们需要编造虚假的人物形象。 真诚才是最重要的!
有19位网友表示赞同!
有些时侯觉得网络上的人太过浮夸,缺乏真实的情感交流,总让我感到有些虚伪...
有20位网友表示赞同!
我更喜欢在网络上和朋友交流生活点滴,分享彼此的喜怒哀乐,这种真挚的互动才是最珍贵的。
有7位网友表示赞同!
作者的观点很独特, 让我意识到网络神采的内涵其实比表面光鲜更有深度! 也让我对网络世界有了全新的认识。
有18位网友表示赞同!
网上那些拥有独特风采的人真是了不起!希望能像他们一样拥有自己的特色和魅力,在网络世界中展现自我。
有15位网友表示赞同!
网络世界确实存在很多美好,但同时也需要注意安全问题,避免上当受骗。 让我们共同营造一个更加积极健康的网络氛围。 !
有19位网友表示赞同!
我一直觉得网络神采与个人修养和智慧有关, 只有拥有丰富的内涵才能在网络世界中展现出独特的光彩。
有16位网友表示赞同!
我很喜欢阅读那些充满深度和思考的博文,它们带给我的不仅仅是知识,更是一份对生活的启迪。
有5位网友表示赞同!