[Java] WebCollector JAVA爬虫 →→→→→进入此内容的聊天室

来自 , 2020-06-14, 写在 Java, 查看 120 次.
URL http://www.code666.cn/view/522a9ae9
  1. public class ZhihuCrawler extends BreadthCrawler{
  2.  
  3.     /*visit函数定制访问每个页面时所需进行的操作*/
  4.     @Override
  5.     public void visit(Page page) {
  6.         String question_regex="^http://www.zhihu.com/question/[0-9]+";
  7.         if(Pattern.matches(question_regex, page.getUrl())){
  8.             System.out.println("正在抽取"+page.getUrl());
  9.             /*抽取标题*/
  10.             String title=page.getDoc().title();
  11.             System.out.println(title);
  12.             /*抽取提问内容*/
  13.             String question=page.getDoc().select("div[id=zh-question-detail]").text();
  14.             System.out.println(question);
  15.  
  16.         }
  17.     }
  18.  
  19.     /*启动爬虫*/
  20.     public static void main(String[] args) throws IOException{  
  21.         ZhihuCrawler crawler=new ZhihuCrawler();
  22.         crawler.addSeed("http://www.zhihu.com/question/21003086");
  23.         crawler.addRegex("http://www.zhihu.com/.*");
  24.         crawler.start(5);  
  25.     }
  26.  
  27.  
  28. }//源代码片段来自云代码http://yuncode.net
  29.                        

回复 "WebCollector JAVA爬虫"

这儿你可以回复上面这条便签

captcha