您現在的位置是:芭奇站群管理系統 > 軟件使用教程大全 > -> 如何指定域名規則去采集網站的文章

如何指定域名規則去采集網站的文章

時間:2020-10-16 20:44

  很多站長朋友都喜歡采集一些比較好的文章,比如美文網就是其中一個,里面每天都在大量的質量較好的文章發布,因此文章資源可以說是源源不斷。但是對于采集工具,互聯網上各式各樣,編寫規則采集的占多數,這個對于大部份站長來說,可能這是一道很大的門檻,很難跨過去,因為大部份站長不會編寫采集規則,這樣就導致許多的好的資源眼睜睜著放棄,或者有部份站長手工去復制粘貼或付費讓人編寫采集規則,效率和資金投入可謂是傷力又傷財呀。現在我這里就教大家如果利用芭奇站群軟件來指定域名規則去采集網站文章,這個是一個不用寫規則,還支持自動采集,自動跟蹤等功能,不管是新站長還是老站長,都是很容易入門,方便省力。現在圖片教程如下:

你先按入門教程加好一個網站在軟件,入門教程地址:http://www.lygqzw.com/jiaochengdaquan/2018/1108/11150.html

  一、打開芭奇軟件,在你的網站節點右健菜單,打開【指定域名采集】功能。(網站節點和欄目自己按上面入門教程增加一下。)

圖片.png

  二、進入后,點擊左上角一個欄目,作為保存點,然后在右邊填寫采集的目標網址。

圖片.png

在這里,我先教一下大家一些"如何填寫字符"的基本知識。看下圖

圖片.png

1、是你想采哪個站的列表網址,就是叫目標采集地址,這個一般是列表,因為列表才是這個欄目所有內容鏈接的地方。

2、翻頁鏈接地址,就是第1頁,第2頁等等的鏈接,注意上方紅色和藍色的字符,在芭奇站群軟件上,就是需要填寫這些藍色字符。對比兩個網址,相同不會變化的,就是藍色的字符。紅色字符的2和3,這個是欄目的翻頁數的ID,在這個分類地址,就會變化,就不填,一般以|為替換,|字符,在這里主分隔符,就是代表分開兩個字符,一般?p=后面沒有東西,可以不用寫|。遵循一句話:取相同且唯一的字符。在這個列表頁地址里面,?p=就是代表翻頁,沒有其他鏈接跟這個格式一樣了。所以,軟件就會識別了這個是翻頁地址。每行前面,都最好帶有本站網址,這樣就不會采到別的域名的同字符的文章了。

3、內容鏈接地址,就是采集的文章地址,也是和上面原理一樣,注意紅色和藍色的字符,藍色字符就是需要填上軟件的,紅色字符會變化的,就以|代替就好。



  三、上面的知識了解明白了,那就把A5的網址和字符填在軟件上,結果如下:

圖片.png

  1、紅色的框框,就是需要采集填寫的字符。按下面這樣填寫好了,就可以采集了。

圖片.png

圖片.png

  2、這里也順便說說上圖藍色框框的作用,這個是為了以后掛機自動采集時,指定列表地址掛跟蹤配置采集最新網站數據要用到的網址,一般只填第1頁或前幾頁就行了,因為目標網站更新的文章,都是在這前幾頁。軟件掛機就可以實現自動追蹤采集了。

  四、現在可以采集測試一下是否正常。在上圖左下角,點【采集測試】按扭,結果如下圖

圖片.png

圖片.png

上圖,這個是采集測試翻頁地址,沒出現其他非翻頁的地址鏈接,說明采集正常。如果其他網址,就可以再設置排除。

圖片.png

上圖,這個是測試采集當前第一頁的所有內容網址,沒其他非內容網址鏈接,說明采集正常。如果其他網址,就可以再設置排除。

圖片.png

上圖,這個是隨意測試的結果,基本夠用的。

如果還要細節調整,比如過濾替換,出現其他廣告文字,可以設置下面細節的功能。

圖片.png


那么,同一個網站,一般規則是一樣的,只是地址不一樣。以下面的這些欄目,找到他們有翻頁地址的列表地址,就可以繼續加新規則采集了。

圖片.png


現在我點采集看看效果。看中間的爬行記錄,軟件是像蜘蛛一樣一頁一頁采集的。

圖片.png

圖片.png


最后,可以在網站節點,進入【數據內容管理】或下面的【查看文章】,查看你采集回來的文章。然后發布到你的網站上去或導入TXT文本做其他用途。

圖片.png

圖片.png

好了,指定域名采集的教程就是這樣,有不懂的可以咨詢我們客服QQ:712654546。

下面,再說一下其他方面常用的功能:

1、導出導入規則

圖片.png

2、前臺模式采集,遇到有一些網站防采集,正常測試不了內容的,可以勾上前臺

圖片.png

3、翻頁列表地址詳細配置,點下面按扭

圖片.png

圖片.png


4、規則每次采集的數量定義

圖片.png


5、一個規則采集的文章,平均分配到其他欄目保存入庫,勾下下圖

圖片.png


6、標題過濾替換和內容過濾替換功能

圖片.png

圖片.png

7、有時采集不了時,可以試試換一下蜘蛛模式

圖片.png


极品美女自卫慰流水视频