Angusfz
管理员
管理员
  • 金钱114825枚
  • 威望95453点
  • 贡献值81568点
  • 注册日期2009-09-23
  • 最后登录2019-05-20
  • 忠实会员
  • 喜爱沙发
  • 原创达人
  • 最爱沙发
  • 社区明星
  • 喜欢达人
  • 社区版主
阅读:73回复:1

[易语言源码]网站文章采集1.0源码

楼主#
更多 发布于:2019-05-15 21:40

1、说明:


1、刚写完的采集软件,针对资源网,其他网站可以自己测试。


2、模块使用了:精易模块、精易皮肤模块(我就不打包了,增加安全度)。


3、很简单的一个软件


4、root\rule 目录里存放的是网站规则的配置文件,可以用记事本打开。


5、root\article 目录里存放的是爬取出来的html文件,可以用浏览器打开。(没有把图片保存到本地,省空间,省速度,哈哈)


6、tmp 目录里存放的是临时测试爬取的html文件。


7、LinkId.txt文件是取网站链接的 配置文件。


2、教程:


1、请新建文件夹,解压压缩包里的所有文件,并编译源码。


2、选择夹介绍:


第一个选择夹:正式遍历文章(就是测试遍历正常,才开始正式遍历)
第二个选择夹:测试遍历(就是自己添加完规则后,测试遍历是否正常!)
第三个选择夹:添加规则(就是自己添加网站的采集规则,头文本,尾文本啊,那些的)


3、使用方法:


请新建文件夹,解压压缩包里的所有文件,并编译源码。
进入第三个选择夹,选择规则文件,点击载入按钮。
载入完毕后(编辑框会出现内容),点击右下角的  “测试遍历”  按钮。
软件自动进入第二个选择夹,这个时候可以点击  “开始遍历”  按钮。
遍历完成后会弹出信息框,点击列表框,可以查看遍历出的内容是否正确。
以上是临时采集,文件保存在 tmp 目录下。
正式采集就进入第一个选择夹选择规则 开始采集 ,正式采集过程可视!


规则添加方法:


规则添加方法:


规则添加方法:


页面规则采集设置:


{


范围头部文本


    标签头部文本


        链接头部文本


        链接尾部文本


        标题头部文本


        标题尾部文本


    标签尾部文本


范围尾部文本


}


文章规则采集设置:


{


文章范围头部文本
文章范围尾部文本


}


查看网页源代码并填写进编辑框测试遍历即可!






下载地址



本部分内容设定了隐藏,需要回复后才能看到
喜欢0 评分0
lvkeqin
小学二年级
小学二年级
  • 金钱624枚
  • 威望626点
  • 贡献值121点
  • 注册日期2015-05-01
  • 最后登录2019-05-20
  • 论坛居民
  • 社区居民
1楼#
发布于:2019-05-15 22:38
黑手有你更精彩
回复(0) 喜欢(0)     评分
游客

返回顶部