[Web] exchange rate crawler

<註:用 c shell script 爬已不管用 已經有用 python 重爬 點此>



最近架了主機,也下了python的爬蟲工具玩了一下,恩,我覺得這是一塊蠻值得鑽研的地方。



老爸之前就跟我說過,公司需要銀行匯率的檔案,之前同事寫的java執行檔,在網頁改格式後就不管用了,但這小工具,一直沒人寫,所以一直用手工。



http://rate.bot.com.tw/Pages/Static/UIP003.zh-TW.htm ->就是這裡



適逢我正在玩scrapy,就用了工具爬了一下,大概長這樣




  • Item:





  • spider:





  • pipline:




爬是爬了,但老爸公司不知有沒有裝python和爬蟲工具,於是我就想說,既然網頁還蠻簡單的,何不用script和C爬爬就好?




  • script:





  • C source file named fetch.c:




但沒想到不過一天,wget就抓不到東西,估計是被擋了,瀏覽器和curl還可正常運作。



研究了下,應該是用User agent擋的,沒關係,加一下參數,冒充一下別人就好了。



wget -U Mozilla/5.0 -O bank_rate.html $URL 2>/dev/null (curl 的話 是用 -A)



註 wget 的 -O 大寫另存檔案 , curl 則是 -o 小寫另存喔!



這樣就扮成了小狐狸了,另外其他瀏覽器也可以裝喔,不論有沒有安裝都可以裝,因為這只是給server一個假名罷了!



留言

這個網誌中的熱門文章

[Antergos] disable touchpad

[Editor] 入坑 Atom => Markdown 轉 PDF