본문 바로가기

Language/JAVA

[JAVA]JSOUP 을 이용한 HTML 태그 제거

Intro
1. jsoup을 사용하게 된 계기
2. maven사용 - dependency 추가
3. 사용예제

 

1. jsoup을 사용하게된 계기

 

  1. Oracle 에서는 REGEXP_REPLACE 라는 함수로 HTML 태그를 지울수 있다.
  2. MSSQL 에서 작업을 하다보니 REGEXP_REPLACE 기능의 함수가 없다.
  3. 별도의 function을 만들어 사용했다.
  4. DATA가 많아지고 태그가 많은 글들이 생성되다보니 불러오는 시간이 길어졌다.
  5. 대체를 찾던 중 jsoup을 사용하게 되었다.

 

2. maven사용 - dependency 추가

 

<!-- maven repository site : https://mvnrepository.com/artifact/org.jsoup/jsoup/1.13.1 -->
<!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.13.1</version>
</dependency>



3. 사용예제

 

List<BoardVo> list = boardService.selectBoardList(vo);
for(int i = 0; i < list.size(); i++) {
    if(list.get(i).getContents() != null && list.get(i).getContents() != "") {
        Document boardCon = Jsoup.parse(list.get(i).getContents());
        String board_con = boardCon.text();
        if(board_con.length() > 200) {
            board_con = board_con.substring(0, 200);
        }
        list.get(i).setContents(board_con);
    }
}