JAVA使用爬虫抓取网站网页内容的方法_java_脚本之家

本文实例讲述了JAVA使用爬虫抓取网站网页内容的方法。分享给大家供大家参考。具体如下:最近在用JAVA研究下爬网技术,呵呵,入了个门,把自己的心得和大家分享下

以下提供二种方法,一种是用apache提供的包.另一种是用JAVA自带的.

代码如下:

12345678

109

1112131415161718192021222324252627282930313233343536373839404142434445464748495051525354

55// 第一种方法?//这种方法是用apache提供的包,简单方便//但是要用到以下包:commons‐codec‐1.4.jar// commons‐httpclient‐3.1.jar// commons‐logging‐1.0.4.jarpublic static String createhttpClient(String url, String param) {  HttpClient client = new HttpClient();  String response = null;  String keyword = null;  PostMethod postMethod = new PostMethod(url);//  try {//   if (param != null)//    keyword = new String(param.getBytes("gb2312"), "ISO‐8859‐1");//  } catch (UnsupportedEncodingException e1) {//   // TODO Auto‐generated catch block//   e1.printStackTrace();//  }  // NameValuePair[] data = { new NameValuePair("keyword", keyword) };  // // 将表单的值放入postMethod中  // postMethod.setRequestBody(data);  // 以上部分是带参数抓取,我自己把它注销了.大家可以把注销消掉研究下  try {   int statusCode = client.executeMethod(postMethod);   response = new String(postMethod.getResponseBodyAsString()     .getBytes("ISO‐8859‐1"), "gb2312");     //这里要注意下 gb2312要和你抓取网页的编码要一样   String p = response.replaceAll("//&[a‐zA‐Z]{1,10};", "")     .replaceAll("<[^>]*>", "");//去掉网页中带有html语言的标签   System.out.println(p);  } catch (Exception e) {   e.printStackTrace();  }  return response;}// 第二种方法// 这种方法是JAVA自带的URL来抓取网站内容public String getPageContent(String strUrl, String strPostRequest,   int maxLength) {  // 读取结果网页  StringBuffer buffer = new StringBuffer();

JAVA使用爬虫抓取网站网页内容的方法_java_脚本之家相关文档

最新文档

返回顶部