有些导购站是没有内页的,需要从列表页直接采集内容并单独发布。针对这种情况,新增魔法采集:从列表页抓取内容。
下面以采集飞天券网站为例介绍如何使用该魔法采集。
采集教程
获取列表中的内容
输入列表地址
设置魔法采集
其中项目选择器获取方法如下图,选择其中1个项目获取其选择器即可:
而标题选择器的作用是和已经保存了的文章的标题进行比对来判断这个是否已经采集过了,获取方法同上:
也许你觉得纳闷,怎么这里的选择器和之前的设置图片不一样?之前的是 .info-title 而不是 .item-info .info-title a,那是因为采集这个标签选择器会自动清除采集到的HTML标签,a标签就被自动过滤掉了,所以这两个的写法效果是一样的。
这样,就可以将每一个项目的HTML代码都获取了,下面是从这些HTML代码中获取内容。
采集特色图、标题和内容
设置特色图
设置标题选择器和内容选择器
这里内容选择器我直接选了最外层的标签,其实是偷懒了,正确的做法是,把各个参数采集到自定义栏目中,然后格式化输出,文末会介绍如何采集到自定义栏目和格式化输出。
测试采集
OK,都设置好了,测试抓取链接:
然后随便选择一篇,测试采集:
虽然内容有点乱,但是圆满成功。
自定义栏目采集和格式化输出
将内容采集到自定义栏目
新建自定义栏目采集,采集导购链接,并设置自定义栏目名为buy-link,这个就是Meta Key。
设置格式化输出
这段代码的意思是,在文章内容的后面输出导购链接,之所以要用短代码来输出链接,是因为链接的href里是不能有引号的,而post-meta的短代码里就有引号。
结语
采集没有内页的网站的教程到此结束,有兴趣的朋友赶紧来试试吧。还没有购买的朋友欢迎惠顾:QQWorld收藏家。