非常强劲的网址文章采集器,本软件全名叫红叶文章采集器,英文名字Fast_Spider,归属于蜘蛛爬虫类程序流程,用以从特定网址采集大量精华文章内容,将立即丢掉在其中的废弃物网页页面信息内容,仅储存具有阅读文章使用价值和访问 使用价值的精华文章内容,全自动实行HTM-TXT变换。本软件为软件工具缓解压力就可以应用!
【软件特点】
(1)本软件选用北大天网MD5指纹识别排重优化算法,针对类似同样的网页页面信息内容,已不反复储存。
(2)采集信息内容含意:[[HT]]表明网页页面题目,[[HA]]表明新闻标题,[[HC]]表明10个权重值关键词,[[UR]]表明网页页面中的图片地址,[[TXT]]以后为文章正文。
(3)蜘蛛特性:本软件打开300个进程来确保采集高效率。根据采集一百万精华文章内容来实行稳定性测试,以一般网友的连接网络电子计算机为参照规范,每台电子计算机能够在一天内解析xml200万网页页面、采集二十万精华文章内容,一百万精华文章内容仅需5天就可采集结束。
(4) 最新版本与绿色版的差别取决于:最新版本容许将采集的精华文章内容数据信息全自动储存为ACCESS数据库查询。选购最新版本请联络QQ(970093569)。
【操作步骤】
(1)应用前,务必保证 你的电子计算机能够连接互联网,且服务器防火墙不必阻拦本软件。
(2)运作SETUP.EXE和setup2.exe,以安裝电脑操作系统system32适用库。
(3)运作spider.exe,键入网址入口,先点"人力加上"按键,点一下"起动"按键,将逐渐实行采集。
【常见问题】
(1)爬取深层:填好0表明不限定爬取深层;填好3表明抓到第三层。
(2)通用性蜘蛛方式与归类蜘蛛方式的差别:假设网址入口为“http://youxi.baidu.com/”,若挑选通用性蜘蛛方式,将解析xml“baidu.com”里边的每一个网页页面;若选择分类蜘蛛方式,则只解析xml“youxi.baidu.com”里边的每一个网页页面。
(3) 按键“从MDB导进”:网址入口从TASK.MDB中批量导入。
(4)本软件采集的标准不是越站,比如给的入口是“http://youxi.baidu.com/”,就只在百度网站內部爬取。
(5)本软件采集全过程中,有时候会弹出来一个或多个“不正确提示框”,请未予理睬,假若关掉“不正确提示框”,采集软件便会挂了。
(6)使用人如何选择采集主题:比如你若要采集 “个股类”文章内容,只需把这些“个股类”网站做为网址入口就可以。