第一步:添加采集规则有两种方式(二选一)
第一种方式:一步到位(仅限采集规则的添加,不包含数据,数据的添加仍然需要执行后面的第二步与第三步)
1:点击caijisql这个文件复制里面的内容
2:点击SQL,点击添加SQL,将复制的内容粘贴进去,然后点击提交
第二种方式:分步添加(点击图片下方蓝色文字可直接复制)
添加行业资迅采集规则
1:列表页默认页url:http://www.sznest.net/_mfmb/0001/xwzx/hyzx/
2:带参数的详情页url:http://www.sznest.net/_mfmb/0001/xwzx/idvalue.html
3:列表页循环体正则:/<div class="clear"></div></div><ul class="news_list mt20">(.*?)</ul><div class="clear"></div></div><div class="bg_foot" data-am-scrollspy/i
4:列表页循环体内id正则:/<li><span class="date">[0-9]{2}<em>[0-9]{4}-[0-9]{2}</em></span><div><a href="http://www.sznest.net/_mfmb/0001/xwzx/([a-z]{1,}/[0-9]{1,}).html" title="[^"]{1,}">[^<]{1,}</a>[^<]{1,}</div></li>/i
5:列表页循环体内标题正则:/<li><span class="date">[0-9]{2}<em>[0-9]{4}-[0-9]{2}</em></span><div><a href="http://www.sznest.net/_mfmb/0001/xwzx/[a-z]{1,}/[0-9]{1,}.html" title="([^"]{1,})">[^<]{1,}</a>[^<]{1,}</div></li>/i
6:详情页标签循环体正则:/</script> 标签:(.*?)</div><div class="intro">/i
7:详情页标签循环体内文本正则:/<a href="[^"]{1,}">([^<]{1,})</a> /i
8:列表页循环体内简介正则:/<li><span class="date">[0-9]{2}<em>[0-9]{4}-[0-9]{2}</em></span><div><a href="http://www.sznest.net/_mfmb/0001/xwzx/[a-z]{1,}/[0-9]{1,}.html" title="[^"]{1,}">[^<]{1,}</a>([^<]{1,})</div></li>/i
9:详情页时间正则:/<div class="info">日期:([0-9-]{1,}) 人气:/i
10:详情页详情正则:/<div class="intro">(.*?)<div class="clear"></div></div><div class="other">/i
添加公司动态采集规则
1:将行业资迅的采集规则复制给公司动态
2:修改公司动态的列表页url默认页:http://www.sznest.net/_mfmb/0001/xwzx/gsdt/
添加生活家电采集规则
1:列表页默认页url:http://www.sznest.net/_mfmb/0001/cpzs/shjd/
2:带参数的详情页url:http://www.sznest.net/_mfmb/0001/cpzs/idvalue.html
3:列表页循环体正则:/<div class="home_pro"><ul id="home_pro_ul">(.*?)</ul><div class="clear"></div></div></div><div class="bg_foot" data-am-scrollspy=/i
4:列表页循环体内id正则:/<li><a href="http://www.sznest.net/_mfmb/0001/cpzs/([a-z]{1,}/[0-9]{1,}).html" title="[^"]{1,}"><div><img src="[^"]{1,}" alt="[^"]{1,}" height="279"></div><p class="title">[^<]{1,}</p></a></li>/i
5:列表页循环体内标题正则:/<li><a href="http://www.sznest.net/_mfmb/0001/cpzs/[a-z]{1,}/[0-9]{1,}.html" title="([^"]{1,})"><div><img src="[^"]{1,}" alt="[^"]{1,}" height="279"></div><p class="title">[^<]{1,}</p></a></li>/i
6:列表页循环体内图片正则:/<li><a href="http://www.sznest.net/_mfmb/0001/cpzs/[a-z]{1,}/[0-9]{1,}.html" title="[^"]{1,}"><div><img src="([^"]{1,})" alt="[^"]{1,}" height="279"></div><p class="title">[^<]{1,}</p></a></li>/i
7:详情页简介正则:/<div class="right"><h1>[^<]{1,}</h1><hr><h5>([^<]{1,})</h5><hr><ul class="attribute">/i
8:详情页时间正则:/<li id="date"><em>日期:</em>([0-9-]{1,})</li>/i
9:详情页属性循环体正则:/</h5><hr><ul class="attribute">(.*?)<li id="date"><em>日期:</em>/i
10:详情页属性循环体内属性名正则:/<li><em>([^:]{1,}):</em>[^<]{1,}</li>/i
11:详情页属性循环体内属性值正则:/<li><em>[^:]{1,}:</em>([^<]{1,})</li>/i
12:详情页相册循环体正则:/<div class="thumb_pic">(.*?)</div></div><div class="right">/i
13:详情页相册循环体内路径正则:/<li><img src="([^"]{1,})" data-url="[^"]{1,}" alt="" width="60" height="60"></li>/i
14:详情页详情正则:/<div class="intro" id="con_one_1">(.*?)</div></div><div class="clear"></div></div></div><div class="bg_foot" data-am-scrollspy=/i
添加智能家电采集规则
1:将生活家电的采集规则复制给智能家电
2:修改智能家电的列表页url默认页:http://www.sznest.net/_mfmb/0001/cpzs/znjd/
3:清空详情页属性循环体正则、详情页属性循环体内属性名正则、详情页属性循环体内属性值正则(因为智能家电没有属性)
添加客户案例采集规则
1:列表页默认页url:http://www.sznest.net/_mfmb/0001/khal/
2:带参数的列表页url:http://www.sznest.net/_mfmb/0001/khal/page_endpage.html
3:带参数的详情页url:http://www.sznest.net/_mfmb/0001/khal/idvalue.html
4:列表页循环体正则:/<div class="list_pic"><ul id="list_pic_ul">(.*?)/ul><div class="clear"></div></div></div><div class="bg_foot"/i
5:列表页循环体内id正则:/<li><a href="http://www.sznest.net/_mfmb/0001/khal/([0-9]{1,}).html" title="[^"]{1,}"><div><img src="[^"]{1,}" alt="[^"]{1,}" height="200"></div><p class="title">[^<]{1,}</p></a></li>/i
6:列表页循环体内标题正则:/<li><a href="http://www.sznest.net/_mfmb/0001/khal/[0-9]{1,}.html" title="([^"]{1,})"><div><img src="[^"]{1,}" alt="[^"]{1,}" height="200"></div><p class="title">[^<]{1,}</p></a></li>/i
7:列表页循环体内图片正则:/<li><a href="http://www.sznest.net/_mfmb/0001/khal/[0-9]{1,}.html" title="[^"]{1,}"><div><img src="([^"]{1,})" alt="[^"]{1,}" height="200"></div><p class="title">[^<]{1,}</p></a></li>/i
8:详情页时间正则:/<div class="news_show"><h1>[^<]{1,}</h1><div class="info">日期:([0-9]{4}-[0-9]{2}-[0-9]{2}) 人气/i
9:详情页详情正则:/</script></div><div class="intro">(.*?)<div class="clear"></div></div><div class="other">/i
第二步:添加完规则之后,接下来进入采集规则列表页面,然后点击开始采集就可以了
第三步:全部采集完成之后,还需要进入新闻中心、产品展示、客户案例三个节点的采集记录页面中去批量审核