欢迎到访爱收集博客,喜欢就Ctrl+D收藏吧!

点击登录
  • 欢迎访问网站,推荐使用最新版火狐浏览器和Chrome浏览器访问本网站

java简单抓取给入网站title和第一张图片-大神绕过

记录 qaqcn 121次浏览 0个评论

直接代码,能抓取的网站有限

    /**
 	 *  @param url1 传入的url 
 	 *  @return 返回一个数组 包含title imgUrl
 	 * */
 		public static List<String> abc(String url1){
 			List<String> chuli = new ArrayList<String>(); 
 	        String L_title = ""; //抓取的title
 	        String L_imgUrl = "";
 	        try {
 	            //创建一个URL实例
 	            URL url = new URL(url1);
 	            try {
 	                //通过URL的openStrean方法获取URL对象所表示的自愿字节输入流
 	                InputStream is = url.openStream();
 	                InputStreamReader isr = new InputStreamReader(is,"utf-8");

 	                //为字符输入流添加缓冲
 	                BufferedReader br = new BufferedReader(isr);
 	                String data = br.readLine();//读取数据
 	            	String i= "0";
 	                while (data!=null){//循环读取数据
 	                	//一行一行读取找到title就记录标记后面不在找
 	                    if(data.indexOf("<title>")!=-1 && i=="0"){
 	                    	L_title = data;
 	                    	i = "1";
 	                    }
 	                    //找imgUrl
 	                    String IMGURL_REG = "(.*)src(.*)(JPEG|jpeg|JPG|jpg|GIF|gif|BMP|bmp|PNG|png)(.*)"; 
 	                    Matcher matcher1 = Pattern.compile(IMGURL_REG).matcher(data);
 		                while (matcher1.find()) {
 		                	L_imgUrl = matcher1.group(1);
 	                    }
 		                if(L_title != "" && L_imgUrl != ""){
 		                	break;
 		                }
 	                    data = br.readLine();
 	                }
 	                //截取title
 	                String regeTitle = "<title>(.*)</title>";
 	                Pattern pattern = Pattern.compile(regeTitle);
 	                Matcher matcher = pattern.matcher(L_title);//匹配类
 	                while (matcher.find()) {
 	                	L_title = matcher.group(1);
 	                }
 	                //截取图片
 	                String regeimg = "src=\"(.*\\.(JPEG|JPG|GIF|BMP|PNG))";
 	                Pattern pattern1 = Pattern.compile(regeimg,Pattern.CASE_INSENSITIVE);
 	                Matcher matcher1 = pattern1.matcher(L_imgUrl);//匹配类
 	               
 	                while (matcher1.find()) {
 	                	L_imgUrl = matcher1.group(1);
 	                }		                
 	            } catch (IOException e) {
 	                e.printStackTrace();
 	            }
 	        } catch (MalformedURLException e) {
 	            e.printStackTrace();
 	        }
 	        
 	        chuli.add(L_title);
 	        chuli.add(url1);
 	        chuli.add(L_imgUrl);
 	        return chuli;
 		}

爱收集 , 版权所有丨如未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权 , 转载请注明java简单抓取给入网站title和第一张图片-大神绕过
喜欢 (0)
支付宝[]
分享 (0)
发表我的评论
取消评论

表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址