Crawling 3

[Node.js] Starting Node.js with Crawling (Parsing XML/RSS, PhantomJS?, CasperJS?)

XML/RSS 해석 - eXtensible Markup Langauge / Really Simple Syncdication - XML - eXtensible Markup Language의 약어로 목적에 맞게 사용될 수 있는 범용적인 데이터 형식 - 기본적으로 텍스트 데이터, 각각의 데이터에 태그를 붙임으로써 문서나 데이터를 구조화 가능 - XML의 목적 : 다른 종류의 시스템 간에 구조화된 문서와 데이터를 쉽게 공유하는 것 - XML은 범용적인 형식이며, XML을 바탕으로 한 다양한 데이터 형식이 존재 - 뉴스 사이트의 요약 정보인 RSS나 벡터 그래픽을 다루는 SVG도 XML을 바탕으로 한다. - 엑셀/워드 등 마이크로스프트의 오피스 저장 형식도 여러 XML파일을 ZIP으로 압축한 것 - XML은 기계..

JavaScirpt/Node.js 2020.12.07

[Node.js] Starting Node.js with Crawling, HTML 재귀적 다운

저번 글에 이어서 계속 책 내용을 진행해 보려고 한다 상대 URL을 절대 URL로 변경 - 페이지에서 링크를 추출하는 프로그램을 저번에 작성하였는데, a 태그의 href 속성을 잘 살펴보면 절대 경로가 아닌 상대경로로 출력되던 것을 알 수 있었다 - 상대경로란, 현재 웹 페이지의 위치를 기준으로 기술한 대상 파일의 경로를 뜻하는데 - Node.js의 'url' 표준 module을 사용하면 상대경로를 절대 경로로 변환할 수 있다. - url 모듈의 resolve 메소드를 사용한다 (parameter로 기본 url과, 상대 url을 인자로 준다) - 코드 // download url module const urlType = require('url'); // convert relative path to abs..

JavaScirpt/Node.js 2020.12.06

[Node.js] Starting Node.js with Crawling, HTML 다운로드 까지

Introduction 부족하지만 웹이나 SNS 상의 데이터를 크롤링하여 얻어온 데이터를 감성분석하여 키워드에 대한 사람들의 감정을 알아보려는 프로젝트를 기획하고 있다. 이 글은 데이터를 웹으로부터 얻어오기 위한 첫 기록이며, 내가 공부하는 책의 Summary이다. github.com/Jpub/JSWebCrawler Jpub/JSWebCrawler 리포지토리. Contribute to Jpub/JSWebCrawler development by creating an account on GitHub. github.com ECMAScript가 실현한 범용 자바스크립트의 세계 - ECMAScript는 Ecma International에 의해 표준화된 스크립트 언어의 명세서. - 웹 브라우저별로 달랐던 클라이언트..

JavaScirpt/Node.js 2020.12.05