發信人: slime.bbs@tropic.med.kmu.edu.tw (轉出), 看板: Linux 標 題: 【文件】介紹一個"砍站"軟體 wget 發信站: 熱帶魚天堂 (Mon Sep 25 01:17:55 2000) 轉信站: Cynix!netnews.hinet.net!spring!nsysu-news!news.kmu!TROPIC Origin: tropic.med.kmu.edu.tw
砍站這個名詞的意思是說, 把一個站的東西一股腦兒全都抓下來, 聽到這動作, 很多人可能會先想到 teleport pro 這套軟體, 而現在介紹的這套, wget , 除了可以"砍站"之外, 還可以支援續傳, 可以說 wget >= teleport pro + get right ,
現在就先說明一下, wget 是 GNU 組織發展的軟體之一, 有 Linux 與 Windows 版, 而且用法相同, 不需要註冊或破解, 一般人的使用上是沒有限制的, 有點心動了嗎?
那接著就來說明一下, wget 的用法, 因為是提供"砍站"的功能, 所以 wget 並沒有互動式的介面, 完全是用文字模式處理, 那怎麼知道要抓什麼呢? 就必須先用瀏覽器, 或 ftp 軟體確定,
例如要抓高醫的網頁, 只要在文字模式, 下這樣的命令:
wget http://www.kmu.edu.tw/ 看起來夠簡單吧, 一個小小的動作, 整個高醫網頁就抓下來了. 不過這樣會抓到很多不相關的東西, 就可以用一些參數來設定, 常用的參數如下:
-np 只抓該站內的資料, 因為網頁有超鏈結到其他網站的功能, 加上 -np 參數, 就可以限制只抓該站內資料.
-m 是 mirror 的縮寫, 也就是將整個網站, 連同目錄結構都抓下來.
-A 只抓某些副檔名, 例如 -A html,htm 表示只抓網頁而不抓圖.
-b 丟到背景執行, 在 Windows 下可以讓 wget 不佔用 DOS 模式.
-c 續傳, 如果之前有抓到一半中斷的網站, 可以用這功能續傳, 而且不需要網站支援續傳功能, wget 會自動從中斷的地方續傳.
例如我可以下這樣的指令: wget -A jpeg,jpg -b -c -m -np http://www..idv.tw/ 將該網站的 jpeg 圖片全部抓下來. 如何? 夠方便吧? 而且 wget 不只可以抓網頁, 還可以抓 ftp wget ftp://ftp.nsysu.edu.tw/ 需要帳號密碼的站台:wget ftp://user:password@ftp.individual.com.tw/ 需要特殊埠號(Port)的站台: wget ftp://user:password@ftp.individual.com.tw:6667/
只要一個命令, 就可以將整個站的資料全部抓下來, wget 的功能就是這麼強大, 相對的, 對於頻寬也就有很大的要求. 所以儘可能的, 設定正確的代理伺服器(proxy)來降低網路負載:
像高醫內可以用 set http_proxy=http://proxy.kmu.edu.tw:3128/ 使用 hinet 可以用 set http_proxy=http://www.hinet.net:80/ 使用 seed.net 可以用 set http://proxy=http://ksproxy.seed.net.tw:8080/
至於軟體的取得, 可以從這裡找到 Windows 版的 wget : ftp://ftp.ntust.edu.tw/WinNT/Winsoc...win-1_5_3_1.zip 解開之後, 直接執行 wget 就可以了, 如果您想把網路頻寬塞滿, 相信 wget 不會讓你失望的.
|