[Java] WebCollector redis数据库，使WebCollector可以进行 →→→→→进入此内容的聊天室

来自 , 2020-04-23, 写在 Java, 查看 214 次.

/**
 * RedisCrawler是WebCollector的一个插件，将WebCollector的任务管理交
 * 给redis数据库，使WebCollector可以进行海量网页的爬取
 */
public class MyCrawler extends RedisCrawler{
 
        public MyCrawler(String tableName,String ip,int port){
                super(tableName,ip,port);
        }
 
        @Override
        public void visit(Page page){
                System.out.println(page.getDoc().title());
        }
                
 
        /*运行程序前请开启redis数据库*/
        public static void main(String[] args) throws Exception{
 
                /*mytest是任务名(用于区别不同爬虫),"127.0.0.1"和6379是redis数据库的ip和端口*/
                MyCrawler crawler=new MyCrawler("mytest", "127.0.0.1", 6379);
                
                /*爬取合肥工业大学新闻网*/
                crawler.addSeed("http://news.hfut.edu.cn/");
                crawler.addRegex("http://news.hfut.edu.cn/.*");
 
 
                /*过滤图片*/
                crawler.addRegex("-.*#.*");
                crawler.addRegex("-.*png.*");
                crawler.addRegex("-.*jpg.*");
                crawler.addRegex("-.*gif.*");
                crawler.addRegex("-.*js.*");
                crawler.addRegex("-.*css.*");
 
                /*设置线程数*/
                crawler.setThreads(30);
 
                /*设置是否为断点爬取模式*/
                crawler.setResumable(false);
 
                /*开始深度为5的爬取*/
                crawler.start(5);
        }
}//源代码片段来自云代码http://yuncode.net
                        

回复 "WebCollector redis数据库，使WebCollector可以进行"

这儿你可以回复上面这条便签

作者你的名字是？

标题给你的便签一个标题。

语言你的便签是以

你的便签在这儿输入便签内容

/**
 * RedisCrawler是WebCollector的一个插件，将WebCollector的任务管理交
 * 给redis数据库，使WebCollector可以进行海量网页的爬取
 */
public class MyCrawler extends RedisCrawler{

public MyCrawler(String tableName,String ip,int port){
		super(tableName,ip,port);
	}

@Override
	public void visit(Page page){
		System.out.println(page.getDoc().title());
	}

/*运行程序前请开启redis数据库*/
	public static void main(String[] args) throws Exception{

/*mytest是任务名(用于区别不同爬虫),"127.0.0.1"和6379是redis数据库的ip和端口*/
		MyCrawler crawler=new MyCrawler("mytest", "127.0.0.1", 6379);
		
		/*爬取合肥工业大学新闻网*/
		crawler.addSeed("http://news.hfut.edu.cn/");
		crawler.addRegex("http://news.hfut.edu.cn/.*");

/*过滤图片*/
		crawler.addRegex("-.*#.*");
		crawler.addRegex("-.*png.*");
		crawler.addRegex("-.*jpg.*");
		crawler.addRegex("-.*gif.*");
		crawler.addRegex("-.*js.*");
		crawler.addRegex("-.*css.*");

/*设置线程数*/
		crawler.setThreads(30);

/*设置是否为断点爬取模式*/
		crawler.setResumable(false);

/*开始深度为5的爬取*/
		crawler.start(5);
	}
}//源代码片段来自云代码http://yuncode.net

创建短链接创建一个较短的URL，连接到这个便签

私人私人便签不会显示在最近列表中

保存期限我们应该什么时候删除这张便签？

防滥用键入这些字符

Code666 (代码贴、代码片段)

[Java] WebCollector redis数据库，使WebCollector可以进行 →→→→→进入此内容的聊天室

回复 "WebCollector redis数据库，使WebCollector可以进行"