본문 바로가기

보물창고/IT 정보

재미로 보는 워드 클라우드 제작 과정 (키워드 cloud word count)

반응형

재미로 보는 워드 클라우드 제작 과정

(키워드 cloud word count)






  • 분석 순서
    • 웹페이지 크롤링(java) -> Hannaum 형태소 분석(java) -> 워드 카운트(java) -> 워드클라우드(d3js)




  • 수집한 데이터의 종류
    • 인터넷 커뮤니티 사이트 한군데에서 주제별로 나눠진 게시판 글을 수집했습니다
    • 수집한 글의 내용은 본문내용과 베스트 댓글을 모두 합한 내용 입니다
    • 워드 클라우드로 만들어지는 데이터는 한주제의 게시판 한달치의 데이터를 이용해서 만들고 있습니다

  • 주의 사항
    • 재미와 취미로 만들어본 워드 클라우드 입니다 정확한 데이터가 아니며 재미로만 봐주세요
    • 수집한 데이터를 형태소 분석할때 인식 못하는 단어들이 많이 있습니다 제대로된 분석이 아닐 수 있습니다
    • 이 단어들에 대한 데이터 분석은 부정확 하기 때문에 다시한번 재미로만 봐주세요
    • 그래도 의미있는 단어들이 보일 수 있도록 많은 시간 수정을하였습니다





  • 웹페이지 크롤링을통해 데이터 수집
    • java로 수집 코드 작성
    • 파일로 데이터를 저장


      





  • 형태소 분석
    • hannaum을 사용 형태소 분석







  • word count
    • 코드 작성
    • 형태소 분석된 단어를 워드카운트합니다
    • 이 후 워드 클라우드를 위해 추가 작업이 진행 됩니다
    • 4개 이상 카운트된 단어만을 이용합니다 (초기 수집한 내용에만 4개를 제한했고 추후에는 내용이 더 충실할 수 있도록 3개 이상 카운트된 댓글을 이용했습니다)

        






  • word cloud
    • http://www.jasondavies.com/wordcloud/
    • 워드 클라우드를 위해 추가작업된 데이터를 이사이트에서 시각화를 합니다
    • 많이 언급된 단어일수록 크게 표시되고 적게 언급된 단어일수록 작게 표시됩니다









  • 위와 같은 과정을 거쳐서 워드 클라우드가 만들어 집니다
  • 워드 클라우드로 어떤 단어들이 많이 사용되었는지를 보고 있지만 많은 데이터들이 쌓이면 이 사이에 어떤 관계가 있는지도 분석해 재미있는 의미를 뽑아 보고 싶습니다
  • 날씨와 관련이 있는 단어들이 있을까도 찾아보고 싶습니다




반응형