Android 解析網頁 (html parser) 取資料，使用 HtmlCleaner

Android Java 10月 27, 2012

HtmlCleaner

這篇文章是為了解決這篇回應遇到的問題，想說寫下來方便其他遇到同樣問題的人可以參考。

使用的工具

HtmlCleaner
請將 HtmlCleaner 官網中下載的 *.jar 檔加入專案中的 libs 目錄。

程式碼

用來儲存資料的值物件，Price.java

public class Price {
 /**
  * 按盤價
  */
 private String priceNow;
 /**
  * 最高
  */
 private String highest;
 /**
  * 最低
  */
 private String lowest;
 
 public String getPriceNow() {
  return priceNow;
 }
 public void setPriceNow(String priceNow) {
  this.priceNow = priceNow;
 }
 public String getHighest() {
  return highest;
 }
 public void setHighest(String highest) {
  this.highest = highest;
 }
 public String getLowest() {
  return lowest;
 }
 public void setLowest(String lowest) {
  this.lowest = lowest;
 }
}

工具類別，Utility.java

public class Utility {
 
 public static final String DATA_URL = "http://www.etnet.com.hk/mobile/tc/quote.php?code=";
 
 /**
  * Get method
  * @param _url
  * @return
  */
 public static String getHtmlByGet(String _url){ 
  
  String result = "";
  
  DefaultHttpClient client = new DefaultHttpClient();
  try {
   
         HttpGet get = new HttpGet(_url);
         
            HttpResponse response = client.execute(get); 
            
            HttpEntity resEntity = response.getEntity();
            
            if (resEntity != null) {
             result = toUTF8(resEntity.getContent());
            }
            
            
            
  } catch (Exception e) {
         e.printStackTrace();
     } finally {
      client.getConnectionManager().shutdown();
     }
 
      
  return result;
 }
 
 
 
 /**
  * 取得即時報價
  * @param code
  */
 public static Price getPrice(String code){
  Price price = new Price();
  
  String html = getHtmlByGet(DATA_URL + code);
  
  TagNode tagNode;

  try {
   
   tagNode = new HtmlCleaner().clean(html);
   
   //按盤價
   TagNode[] nodePriceNow = tagNode.getElementsByAttValue("class", "quoteNominalRight bigdown2", true, false);
   String priceNow = nodePriceNow[0].getText().toString();
   price.setPriceNow(priceNow);
   
   TagNode[] nodeQuoteOther = tagNode.getElementsByAttValue("class", "quoteOther", true, false);
   String highest = nodeQuoteOther[1].getText().toString();
   String lowest = nodeQuoteOther[3].getText().toString();
   price.setHighest(highest);
   price.setLowest(lowest);

  } catch (Exception e) {
   e.printStackTrace();
  }
  
  return price;
 }
 
 private static String toUTF8(InputStream is){
  //InputStream is = resEntity.getContent();
        InputStreamReader isr = null;
        StringBuffer buffer = new StringBuffer();
  try {
   isr = new InputStreamReader(is, "utf-8");
   
   Reader in = new BufferedReader(isr);
         
   int ch;
   while((ch = in.read()) != -1){
    buffer.append((char)ch);
   }
   
   isr.close();
   is.close();
  } catch (UnsupportedEncodingException e) {
   e.printStackTrace();
  } catch (IOException e){
   e.printStackTrace();
  }
        
  
  return buffer.toString();
 }
}

執行 MainActivity.java

public class MainActivity extends Activity {

 private TextView txtResult;
 
    @Override
    public void onCreate(Bundle savedInstanceState) {
        super.onCreate(savedInstanceState);
        setContentView(R.layout.activity_main);
        
        initView();
        getData();
    }

 private void initView() {
  txtResult = (TextView) findViewById(R.id.txtResult);
 }

 private void getData() {
  Price price = Utility.getPrice("1");
  String result = "按盤價" + price.getPriceNow() + "\n最高" + price.getHighest() + "\n最低" + price.getLowest();
  txtResult.setText(result);
 }
}

執行結果

因為隨手寫的，所以可能會有誤，直接下載程式碼回去研究吧。
程式碼下載：HtmlParserDemo.zip

本文網址：http://blog.tonycube.com/2012/10/androidhtml-parserhtmlcleaner.html
由 Tony Blog 撰寫，請勿全文複製，轉載時請註明出處及連結，謝謝 😀

71 則留言

Unknown2012年11月14日下午3:58
HtmlCleaner

請將 *.jar 檔加入專案中的 libs 目錄。

是什麼意思

然後載了程式用了發現
模擬器上面的數值跟網頁上面的數值不太一樣
是延遲的關係嗎?
回覆刪除
回覆
Ling.2012年11月25日下午1:32
下載了範例可以成功的RUN起來，
但是收不到值的部份，看過網址也沒有掛掉，
值的部份回傳都是NULL值，想請問原因為何...
回覆刪除
回覆
Unknown2013年2月7日晚上8:30
大哥您好，
我現在已經可以抓取網頁資料了，
可是在抓取這個網站時：
http://www.319papago.idv.tw/SuperTaste/700-E.html
卻無法抓取資料ˊˋ，想要請問一下是不是因為結尾是.html的關係呢?
還是有其他問題呢?0.0
另外，想要再請問大哥，
如果我要抓取網站中table裡的資料時，
要如何去抓取呢?><
已經有上網查詢過很多方法，但是還是無法成功ˊˋ
以上，謝謝大哥的解惑!!!OAQ
回覆刪除
回覆
Unknown2013年3月2日中午12:12
作者已經移除這則留言。
回覆刪除
回覆
Unknown2013年3月6日晚上7:04
好像4.0以上(包含4.0)不支援是不是...
我用4.0之下的模擬器+手機能拿到資料
同樣程式碼
4.0以上就會NULL,連html那裡也是拿到NULL
樓上那些人的問題大概是這裡~
不過我也不知道解決方法:|
回覆刪除
回覆
Unknown2013年3月6日晚上7:34
android 4.0以上好像不支援HtmlCleaner的樣子...
我使用2.3.3的模擬器或手機都能順利取得資料
使用4.0、4.1的模擬器或手機卻都取得NULL...
看來上面幾位的問題因該就是這個了:|
不過我也找不到解決方法==

回覆刪除
回覆
Mr.Alice aNd Ms. Rios2013年4月9日晚上9:02
您好，目前也在撰寫這方面的相關作業，因為目前使用手機為4.0.3的系統
經過測試試讀到null的
而2.3.3的模擬機則可以順利的取出資料。
上面一樓的回答中提到應該是ICS的機制關係，所以我是要將與網路連線的部分都寫到另外一個執行緒下執行嗎？
有無相關的資源可以查看呢？
餵給Google神 Htmlcleaner android 4.0 找不太到相關討論串...
謝謝 :)
回覆刪除
回覆
Unknown2013年9月11日凌晨2:35
作者已經移除這則留言。
回覆刪除
回覆
Unknown2013年9月11日凌晨2:36
TONY大大問您一下喔
我們現在專題正在製作微笑單車
我要能夠從他們的網站上抓取他們車輛空位的資訊
也能用這個做嗎@@?
回覆刪除
回覆
Unknown2013年10月2日凌晨1:36
作者已經移除這則留言。
回覆刪除
回覆
Unknown2013年10月2日清晨5:58
Tony大大，不好意思喔我每次用你的範例檔
都沒辦法正常的執行耶，可是在學校用是正常的
這樣會是什麼問題啊?
回覆刪除
回覆
Unknown2013年10月7日晚上9:38
你好 Tony大大
我也是Android開發新手
想請問
我剛下載並測試了程式
安裝在2.1版本或4.1版本的手機時都出現以下三個地方程式碼錯誤
無法正常啟動
at com.example.htmlpaserdemo.Utility.getPrice(Utility.java:70)
　→"tagNode = new HtmlCleaner().clean(html);"
at com.example.htmlpaserdemo.MainActivity.getData(MainActivity.java:25)
　→"Price price = Utility.getPrice("1");"
at com.example.htmlpaserdemo.MainActivity.onCreate(MainActivity.java:17)
　→"getData();"
但不知問題出在哪或如何更改
懇請該如何解決
Thank you
回覆刪除
回覆
Unknown2013年10月8日凌晨12:29
我用簡單的網頁有抓到我要的資料

但是面對較為複雜的網頁卻怎麼是都抓不到
像是
li class="co130" style="width 143px">
a herf="#" class="ymtvtrigger">
< s p a n class="title now">魔掌

我要抓魔掌這詞我寫("class", "title.now", true, false); 但怎抓到不到也改了[0]這參數也不行想問是否是我抓錯了勒?? 還是因為他寫再隱藏標籤所以不能抓
回覆刪除
回覆
bebeyim2014年4月3日晚上10:57
請問像以下這個網址的內容是不是抓取不到股票的數值? 我看原始檔時, 數值都沒有了. http://money18.on.cc/info/liveinfo_quote.html?symbol=03300
回覆刪除
回覆
Unknown2014年4月20日中午12:36
作者已經移除這則留言。
回覆刪除
回覆
Unknown2014年4月20日中午12:40
請問有沒有辦法抓同屬性但值不一樣的辦法？像下面這樣的形式...

width="61"> x </width...

都是width這個屬性，但有複數個不同的值都想抓取，且依然可以按照網頁的資料順序存放到同一個TagNode[]。
回覆刪除
回覆
bebeyim2014年5月22日晚上7:33
Tony, 買入好幾本書, 還是搞不明白怎麼將htmlcleaner 改成可以在android 4.X 跑, 能不能市請大大把你原有的範例改為可以在android 4.X 跑, 我兩者比對一下, 可能會明白, 拜託大大了.
回覆刪除
回覆
bebeyim2014年6月4日上午10:18
Tony大大, 能幫忙改一下嗎?
回覆刪除
回覆
Unknown2014年8月22日下午6:03
感謝Tony大大的分享，有成功抓取資料了
但想請問一下如果降 0.2 元這樣
我只想抓到降0.2不要元這個字可以嗎? 可不可以請大大指點一下 >_<，我是超級新手
回覆刪除
回覆
Unknown2014年12月7日晚上9:14
您好
我想請問一下我的參數都有改成新的後
數值出來還都是null
後來我用toast去測試
發現連網的部分getHtmlByGet裡面

HttpResponse response = client.execute(get);

HttpEntity resEntity = response.getEntity();

跑到這會錯誤然後跑到catch
manifest再加了一行

也沒什麼用
lib裡面是兩個
android-support-v4.jar
htmlcleaner-2.2.jar
開發版本是用API 19
最低版本我用14
最高版本我用21

不知道會是什麼問題?版本?還是其他問題?
我其他的專案也有類似的問題

Search cra = new Search();
// create HttpClient
cra.client = HttpClientBuilder.create().build();
// run GET Method
(search是這個class的名稱)
當跑到這兩行會強制結束然後跳出

希望大大能夠為我解惑
感謝

回覆刪除
回覆
Unknown2014年12月16日下午1:32
你好Tony老師,我想請問一下
為什麼我在建立TagNode 這個物件的時候, 會無法建立呢???
(TagNode cannot be resolved to a type) 系統也沒有要求import....是API版本的問題嗎??
回覆刪除
回覆
Unknown2015年11月11日下午2:04
作者已經移除這則留言。
回覆刪除
回覆
Unknown2015年11月11日下午2:15
作者已經移除這則留言。
回覆刪除
回覆
Tony2015年11月11日晚上8:12
1.先知道如何連到PHP網頁
2.再知道如何從網頁取得自己想要的資料
回覆刪除
回覆

新增留言

留言小提醒：
1.回覆時間通常在晚上，如果太忙可能要等幾天。
2.請先瀏覽一下其他人的留言，也許有人問過同樣的問題。
3.程式碼請先將它編碼後再貼上。(線上編碼：http://bit.ly/1DL6yog)
4.文字請加上標點符號及斷行，難以閱讀者恕難回覆。
5.感謝您的留言，您的問題也可能幫助到其他有相同問題的人。