GGRS: Geoscience, GIS, & Remote Sensing

빅카인즈 뉴스 데이터를 이용한 '깃대종' 통계 가시화

작성일 작성자 유병혁

안녕하세요? 이번 글은 빅카인즈 뉴스 데이터를 이용한 '깃대종' 통계 가시화 과정을 정리해 보겠습니다.

이전 글: 데이터랩 API를 이용한 '국립공원'과 '깃대종' 검색량 비교 | http://blog.daum.net/geoscience/1405


앞서 네이버 데이터랩 API를 이용하여 2016년 대비 깃대종 검색량이 93.4% 증가했음을 확인했었는데요,

뉴스 데이터를 통해 이 변화의 요인을 진단해보는 분석이 되겠습니다.


일단 빅카인즈를 통해서 1900년부터 2019년 6월까지 '깃대종'이 언급된 뉴스 데이터를 내려받았습니다.  

빅카인즈(BIG KINDS) | https://www.bigkinds.or.kr/


분석을 위한 라이브러리를 추가하고,


깃대종이 언급된 기사건수를 읽어와 바 플롯으로 그려봤습니다. 1995년 최초 기사가 나간 이후에 지속적으로 언급되고 있음을 알 수 있습니다.



그렇다면 국립공원이 언급된 기사는 이 중 몇 건일까요? 바 플롯으로 그려본 결과는 아래와 같습니다.



깃대종 기사 건수와 국립공원이 언급된 깃대종 기사 건수를 비교한 바 플롯입니다.



기사 건수로 보면 깃대종 기사 1,029건 중 국립공원이 언급된 기사는 380건, 36.9%를 차지합니다.

이를 통해 국립공원 외에도 깃대종 용어를 사용하는 주체(들)가 있음을 추정해 봅니다. 그렇다면 어디일까요?! 


단어빈도 분석을 통해 진단해 보겠습니다. 이를 위해 한나눔을 추가합니다.

한국어 NLP를 위한 코엔엘파이(KoNLPy) 설치하기 | http://blog.daum.net/geoscience/1398


빅카인즈 뉴스 데이터 컬럼 중 기사 제목만을 별도 텍스트 파일로 저장하고 읽어옵니다.


예시에 따라 단어빈도 분석을 수행하고 상위 20개 단어를 확인해 봅니다. 대전, 성남과 같은 지자체명이 눈에 띄는데요,

깃대종이 존재하는 곳입니다. 동물 중 언급수가 높은 하늘다람쥐는 대전의 깃대종이면서 국립공원의 깃대종이기도 합니다.


단어구름(word cloud)를 만들어 단어빈도 통계를 한눈에 확인해 봅니다.


깃대종을 제외하고 다시 그려본 단어구름입니다. 다음 글은 단어의 동시 발생 분포를 정리해 보겠습니다. 



맨위로
통합 검색어 입력폼