[Java] jsoup 提取 html 中的链接、图片和媒体 →→→→→进入此内容的聊天室

来自 , 2021-02-10, 写在 Java, 查看 111 次.
URL http://www.code666.cn/view/298923c8
  1. package org.jsoup.examples;
  2.  
  3. import org.jsoup.Jsoup;
  4. import org.jsoup.helper.Validate;
  5. import org.jsoup.nodes.Document;
  6. import org.jsoup.nodes.Element;
  7. import org.jsoup.select.Elements;
  8.  
  9. import java.io.IOException;
  10.  
  11. /**
  12.  * Example program to list links from a URL.
  13.  */
  14. public class ListLinks {
  15.     public static void main(String[] args) throws IOException {
  16.         Validate.isTrue(args.length == 1, "usage: supply url to fetch");
  17.         String url = args[0];
  18.         print("Fetching %s...", url);
  19.  
  20.         Document doc = Jsoup.connect(url).get();
  21.         Elements links = doc.select("a[href]");
  22.         Elements media = doc.select("[src]");
  23.         Elements imports = doc.select("link[href]");
  24.  
  25.         print("\\nMedia: (%d)", media.size());
  26.         for (Element src : media) {
  27.             if (src.tagName().equals("img"))
  28.                 print(" * %s: <%s> %sx%s (%s)",
  29.                         src.tagName(), src.attr("abs:src"), src.attr("width"), src.attr("height"),
  30.                         trim(src.attr("alt"), 20));
  31.             else
  32.                 print(" * %s: <%s>", src.tagName(), src.attr("abs:src"));
  33.         }
  34.  
  35.         print("\\nImports: (%d)", imports.size());
  36.         for (Element link : imports) {
  37.             print(" * %s <%s> (%s)", link.tagName(),link.attr("abs:href"), link.attr("rel"));
  38.         }
  39.  
  40.         print("\\nLinks: (%d)", links.size());
  41.         for (Element link : links) {
  42.             print(" * a: <%s>  (%s)", link.attr("abs:href"), trim(link.text(), 35));
  43.         }
  44.     }
  45.  
  46.     private static void print(String msg, Object... args) {
  47.         System.out.println(String.format(msg, args));
  48.     }
  49.  
  50.     private static String trim(String s, int width) {
  51.         if (s.length() > width)
  52.             return s.substring(0, width-1) + ".";
  53.         else
  54.             return s;
  55.     }
  56. }
  57.  
  58. //源代码片段来自云代码http://yuncode.net
  59.                        

回复 " jsoup 提取 html 中的链接、图片和媒体"

这儿你可以回复上面这条便签

captcha