[Python] python通过HTMLParser抓取网页上的全部链接 →→→→→进入此内容的聊天室

来自 , 2019-04-11, 写在 Python, 查看 117 次.
URL http://www.code666.cn/view/ca172e96
  1. import HTMLParser, urllib
  2.  
  3. class linkParser(HTMLParser.HTMLParser):
  4.     def __init__(self):
  5.         HTMLParser.HTMLParser.__init__(self)
  6.         self.links = []
  7.     def handle_starttag(self, tag, attrs):
  8.         if tag=='a':
  9.             self.links.append(dict(attrs)['href'])
  10.  
  11. htmlSource = urllib.urlopen("http://www.sharejs.com").read(200000)
  12. p = linkParser()
  13. p.feed(htmlSource)
  14. for link in p.links:
  15.     print link
  16. #//python/207

回复 "python通过HTMLParser抓取网页上的全部链接"

这儿你可以回复上面这条便签

captcha