알려줘요. 스피드웨건! 클로로의 잡학창고

반응형

#빅 데이터, 이젠 엑셀로 쉽게 수집해보자.

 

엑셀은 정말 편리한 기능을 많이 가진 프로그램 중에 하나입니다. 사실 엑셀과

 

파워포인트 덕분에 지금의 직장인들이 예전 90년대에 비해 10배 이상의 생산력을

 

가진 것이나 마찬가지입니다.

 

 

지금 엑셀이 대신해주고 있는 자료 정리 및 계산 등을 일일이 수기로 장부 관리했던

 

예전을 생각해보면 어떻게 직장생활을 했나 싶습니다.

 

하튼 각설하고 오늘 소개해 드릴 기능은 바로 웹 데이터 크롤링 기능입니다.

 

 

최근에 빅 데이터가 대세잖아요?  빅 데이터를 수집하는 방법으론 파이썬 프로그램 및

 

자체 개발 프로그램들을 활용하는 방법이 있지만 가장 쉽게는 엑셀의 '쿼리'기능을

 

활용하면 아주 손쉽게 처리가 가능합니다. 물론 어떤 특정 분야에 맞춰서 설계된

 

프로그램처럼 입맛에 딱 맞기는 어렵겠지만 그런 게 불가능한 상황이라면 차선책으로

 

활용하기 딱 좋습니다.

 

 

#네이버 데이터 RSS를 활용하여 수집하기

 

일단 가장 쉬운 방법은 각 사이트에서 제공하는 RSS를 활용하는 것입니다.

 

먼저 사례를 하나 들어보겠습니다.

 

* RSS란? Really Simple Syndication의 약자로 뉴스나 블로그 등의 콘텐츠를

                텍스트 위주로 사용자에게 정보를 제공하는 포맷을 말합니다.

 

1. 네이버 뉴스 섹션 정리 및 RSS 생성

 

우선 맛집이란 걸 조사하기로 섹션을 정해보겠습니다. 예전엔 네이버 자체적으로

 

RSS를 제공했지만 최근엔 제공하지 않지요. 그래서 우리는 해당 인터넷 주소를

 

한번 가공해야 합니다.

 

 

네이버 기사를 RSS로 가공하기 위해선 별도의 사이트를 이용해야 하는데요.

 

가장 대표적인 사이트가 바로 파이브 필터(Fivefilters)입니다. 아, 그리고 이 방법은

 

네이버뿐만 아니라 구글, 빙, 트위터 등 모든 사이트에서 적용 가능한 방법입니다.

 

 

Feed Creator

Create a feed from a web page. Generate RSS and JSON feeds from a set of links or other web page elements.

www.fivefilters.org

 

 

사용법은 간단합니다. 본인이 검색어를 쳐서 나온 네이버의 링크를 좌상단에 URL을

 

집어넣고 하단의 프리뷰를 누르면 다음 사진처럼 우측에 RSS화 된 자료가 보입니다.

 

여기서 RSS Feed를 누르면 RSS화 된 웹 페이지가 나오는데 그 링크를 복사해주세요.

 

 

2. 엑셀에 해당 주소를 넣어 자료화 하기

 

자, 여기까지 왔으면 이제 이 주소를 엑셀에 대입하여 데이터화 할 차례입니다. 

 

우리가 여기서 활용할 것은 엑셀의 쿼리 기능입니다. 테이터 탭으로 이동하면 다음과

 

같은 기능이 보이실 텐데요. 여기서 '웹'을 눌러주세요.

 

 

아까 복사했던 RSS 정보를 웹을 눌러 기입해 주면 됩니다. 그런데 혹 URL이 너무 길어서

 

에러가 날 수가 있습니다. 그렇다면 파이브필터에서 받은 URL 주소를 하단의 '한글' 사이트를

 

방문하여 URL 주소를 줄여서 넣어주면 됩니다.

 

 

 

han.gl

url단축,단축url,주소줄이기,리타케팅,픽셀등록,bitly,한글,링크주소줄이기

han.gl

 

 

그러면 다음과 같은 결과 화면을 얻을 수 있습니다.

 

 

여기서 필요한 셀은 살려두고 불필요한 셀을 줄여서 축약적으로 기사를 소팅할 수 있어요.

 

기능이 익숙해지시면 옵션에서 업데이트를 설정하여 자료를 불러오기 할 때

 

리프레쉬하는 방법도 있지만 파일 불러오기 시 불필요한 로딩을 많이 잡아먹기 때문에

 

이는 선택사항입니다.

 

 

#엑셀 쿼리의 한계점

 

별도의 크롤링 프로그램이 없어도 자료 크롤링이 가능하니 상당히 편리한 기능임에

 

틀림없지만 한계점이 있습니다.

 

일단 자료 자체가 HTML화 되어 있는 그리고 웹 페이지 URL에 노출되어 있는 자료만

 

정리가 가능합니다.

 

 

만약 뉴스 기사 하나하나의 단어와 내용을 퍼오고 싶다면 다른 기능을 활용해야 합니다.

 

그리고 노출된 웹페이지만 정리가 가능하기에 메인이 아닌 2,3페이지 자료의 헤드를

 

정리하려면 별도로 다시 URL을 따와 자료화한 후 합쳐야 합니다. 

 

 

하지만 그럼에도 불구하고 레터가 많은 트위터나 페이스북, 블로그나 뉴스 기사 등의

 

헤드를 빠르게 수집하고 정리할 수 있기에 이런 부분에 있어선 많은 도움을 받을 수

 

있다고 할 수 있습니다.

반응형

이 글을 공유합시다

facebook twitter kakaoTalk kakaostory naver band
loading