如何從網(wǎng)頁中下載圖片
如果做為爬蟲很有必要從網(wǎng)頁中下載圖片到本地,那么我們利用jsoup來進(jìn)行該操作,jsoup 是一個(gè)很不錯(cuò)的html解析器。
網(wǎng)頁中下載圖片需要這么兩步操作
1.獲取絕對路徑
很多網(wǎng)頁中用的是相對路徑,因此獲取圖片的絕對路徑很重要
方法一:我們就利用jsoup來獲取
Element image = document.select("img").first();
String url = image.absUrl("src");
// url = http://www.example.com/images/chicken.jpg
或者
String url = image.attr("abs:src");
他們的前提利用connect方式獲取而不是文件方式
Document doc = Jsoup.connect("http://jsoup.org").get();
Element link = doc.select("a").first();
String relHref = link.attr("href"); // == "/"
String absHref = link.attr("abs:href"); // "http://jsoup.org/"
方法二:利用jdk中url
URL url = new URL("http://www.example.com/index.html");
URI uri = url.toURI();
System.out.println(uri.resolve("images/chicken.jpg").toString());
2.第二步則就是下載圖片
URL url = new URL( "圖片地址");
URLConnection uc = url.openConnection();
InputStream is = uc.getInputStream();
File file = new File( "本地路徑 ");
FileOutputStream out = new FileOutputStream(file);
int i=0;
while ((i=is.read())!=-1) {
out.write(i);
}
is.close();