반응형
재미로 보는 워드 클라우드 제작 과정
(키워드 cloud word count)
- 분석 순서
- 웹페이지 크롤링(java) -> Hannaum 형태소 분석(java) -> 워드 카운트(java) -> 워드클라우드(d3js)
- 수집한 데이터의 종류
- 인터넷 커뮤니티 사이트 한군데에서 주제별로 나눠진 게시판 글을 수집했습니다
- 수집한 글의 내용은 본문내용과 베스트 댓글을 모두 합한 내용 입니다
- 워드 클라우드로 만들어지는 데이터는 한주제의 게시판 한달치의 데이터를 이용해서 만들고 있습니다
- 주의 사항
- 재미와 취미로 만들어본 워드 클라우드 입니다 정확한 데이터가 아니며 재미로만 봐주세요
- 수집한 데이터를 형태소 분석할때 인식 못하는 단어들이 많이 있습니다 제대로된 분석이 아닐 수 있습니다
- 이 단어들에 대한 데이터 분석은 부정확 하기 때문에 다시한번 재미로만 봐주세요
- 그래도 의미있는 단어들이 보일 수 있도록 많은 시간 수정을하였습니다
- 10대들의 관심사가 궁금하신가요?
http://paranwater.tistory.com/433
- 웹페이지 크롤링을통해 데이터 수집
- java로 수집 코드 작성
- 파일로 데이터를 저장
- 형태소 분석
- hannaum을 사용 형태소 분석
- word count
- 코드 작성
- 형태소 분석된 단어를 워드카운트합니다
- 이 후 워드 클라우드를 위해 추가 작업이 진행 됩니다
- 4개 이상 카운트된 단어만을 이용합니다 (초기 수집한 내용에만 4개를 제한했고 추후에는 내용이 더 충실할 수 있도록 3개 이상 카운트된 댓글을 이용했습니다)
- word cloud
- http://www.jasondavies.com/wordcloud/
- 워드 클라우드를 위해 추가작업된 데이터를 이사이트에서 시각화를 합니다
- 많이 언급된 단어일수록 크게 표시되고 적게 언급된 단어일수록 작게 표시됩니다
- 위와 같은 과정을 거쳐서 워드 클라우드가 만들어 집니다
- 워드 클라우드로 어떤 단어들이 많이 사용되었는지를 보고 있지만 많은 데이터들이 쌓이면 이 사이에 어떤 관계가 있는지도 분석해 재미있는 의미를 뽑아 보고 싶습니다
- 날씨와 관련이 있는 단어들이 있을까도 찾아보고 싶습니다
반응형
'보물창고 > IT 정보' 카테고리의 다른 글
재미로 보는 워드 클라우드 탑 키워드 워드 카운트 남자들의 관심사 심리 2014년 8월 (word cloud word count) (0) | 2014.10.09 |
---|---|
재미로 보는 워드 클라우드 탑 키워드 워드 카운트 결혼에대해, 시집과 친정 관심사 2014년 8월 (word cloud word count) (0) | 2014.10.04 |
재미로 보는 워드 클라우드 탑 키워드 워드 카운트 20대들의 관심사 심리 2014년 8월 (word cloud word count) (1) | 2014.09.30 |
재미로 보는 워드 클라우드 탑 키워드 워드 카운트 10대들의 관심사 2014년 8월 (word cloud word count) (0) | 2014.09.27 |
아이폰 아이팟 음성녹음 m4a mp3 변환 (Switch Sound File Converter) (8) | 2013.07.25 |
마이크로디자이너(MicroDesigner) (0) | 2012.08.11 |
[ERD/DB설계/DB도구] 마이크로디자이너(MicroDesigner) - 관계(Relation) (0) | 2012.07.20 |
[ERD/DB설계/DB도구] 마이크로디자이너(MicroDesigner) - 인브레인 (0) | 2012.07.20 |