[Java] WebCollector redis数据库,使WebCollector可以进行 →→→→→进入此内容的聊天室

来自 , 2020-04-23, 写在 Java, 查看 114 次.
URL http://www.code666.cn/view/43baa676
  1. /**
  2.  * RedisCrawler是WebCollector的一个插件,将WebCollector的任务管理交
  3.  * 给redis数据库,使WebCollector可以进行海量网页的爬取
  4.  */
  5. public class MyCrawler extends RedisCrawler{
  6.  
  7.         public MyCrawler(String tableName,String ip,int port){
  8.                 super(tableName,ip,port);
  9.         }
  10.  
  11.         @Override
  12.         public void visit(Page page){
  13.                 System.out.println(page.getDoc().title());
  14.         }
  15.                
  16.  
  17.         /*运行程序前请开启redis数据库*/
  18.         public static void main(String[] args) throws Exception{
  19.  
  20.                 /*mytest是任务名(用于区别不同爬虫),"127.0.0.1"和6379是redis数据库的ip和端口*/
  21.                 MyCrawler crawler=new MyCrawler("mytest""127.0.0.1"6379);
  22.                
  23.                 /*爬取合肥工业大学新闻网*/
  24.                 crawler.addSeed("http://news.hfut.edu.cn/");
  25.                 crawler.addRegex("http://news.hfut.edu.cn/.*");
  26.  
  27.  
  28.                 /*过滤图片*/
  29.                 crawler.addRegex("-.*#.*");
  30.                 crawler.addRegex("-.*png.*");
  31.                 crawler.addRegex("-.*jpg.*");
  32.                 crawler.addRegex("-.*gif.*");
  33.                 crawler.addRegex("-.*js.*");
  34.                 crawler.addRegex("-.*css.*");
  35.  
  36.                 /*设置线程数*/
  37.                 crawler.setThreads(30);
  38.  
  39.                 /*设置是否为断点爬取模式*/
  40.                 crawler.setResumable(false);
  41.  
  42.                 /*开始深度为5的爬取*/
  43.                 crawler.start(5);
  44.         }
  45. }//源代码片段来自云代码http://yuncode.net
  46.                        

回复 "WebCollector redis数据库,使WebCollector可以进行"

这儿你可以回复上面这条便签

captcha