[Python] crawler func HTMLParser
承襲前篇的 submitter ,這篇就來講一下如何看送出去的結果。 我們要做的就是抓取網頁,然後分析出其中我們要的資料,然後簡潔的 show 出來。 廢話不多說,先引入函式庫。 import urllib2 # 一樣,抓網頁用的 from HTMLParser import HTMLParser #分析字串用的 接下來,來實作一下 Parser 繼承剛剛引入的 HTMLParser 類別。 HTMLPraser 中,我使用其中三個 method 就能完成這項任務,主要是實作這三個函式。( 其他函式 ) def handle_starttag(self , tag , attrs) # 他會讀到開頭的tag , tag 是 html tag 類型 如 h1 , td , div ; attrs 是個 list 裡面有 屬性 map 值的關係 def handle_data(self , data) # 他會讀到 開頭的 tag 和 結尾的 tag 之間的內容 , # 但由於沒有 tag 變數可供辨別,所以我用上面的 starttag 立個 flag def handle_endtag(self , tag) # 就是讀到結尾的 tag 先繼承HTMLParser類別 class rsParser(HTMLParser): 建構子來個初始化 def __init__(self): HTMLParser.__init__(self) #呼叫父類別物件建構子 self.getData = False self.lastTag = "" self.probID = "" 實作 handle_starttag 函式 def handle_starttag(...