[Web] exchange rate crawler
<註:用 c shell script 爬已不管用 已經有用 python 重爬 點此 > 最近架了主機,也下了python的爬蟲工具玩了一下,恩,我覺得這是一塊蠻值得鑽研的地方。 老爸之前就跟我說過,公司需要銀行匯率的檔案,之前同事寫的java執行檔,在網頁改格式後就不管用了,但這小工具,一直沒人寫,所以一直用手工。 http://rate.bot.com.tw/Pages/Static/UIP003.zh-TW.htm ->就是這裡 適逢我正在玩scrapy,就用了工具爬了一下,大概長這樣 Item: spider: pipline: 爬是爬了,但老爸公司不知有沒有裝python和爬蟲工具,於是我就想說,既然網頁還蠻簡單的,何不用script和C爬爬就好? script: C source file named fetch.c: 但沒想到不過一天,wget就抓不到東西,估計是被擋了,瀏覽器和curl還可正常運作。 研究了下,應該是用User agent擋的,沒關係,加一下參數,冒充一下別人就好了。 wget -U Mozilla/5.0 -O bank_rate.html $URL 2>/dev/null (curl 的話 是用 -A) 註 wget 的 -O 大寫另存檔案 , curl 則是 -o 小寫另存喔! 這樣就扮成了小狐狸了,另外其他瀏覽器也可以裝喔,不論有沒有安裝都可以裝,因為這只是給server一個假名罷了!