[Web] 웹 데이터 수집 및 가공 관련 용어정리

2021. 9. 13. 16:47·ETC/ETC
728x90

웹에 존재하는 데이터를 처리하는 프로그램을 작성하기 위해 데이터 수집 및 가공의 과정을 거치게 된다.

데이터를 수집 및 가공하는 과정에서 파싱, 크롤링, 스크래핑 등 용어를 사용하는데, 본 포스팅에서는 웹에서 데이터를 수집 및 가공과 관련된 용어에 대해 정리한다.

 


파싱(Parsing)

분석하다(parse)의 사전적 의미로, 웹페이지 내에서 특정 패턴, 순서로 데이터를 추출하여 데이터를 가공하는 것. 

 

크롤링(Crawling)

기어가다(Crawl)의 사전적 의미로, 광대한 웹사이트에서 필요한 정보를 수집/분류/저장하여 사용자가 필요한 시기에 쉽게 참조 할 수 있도록하는 일련의 로봇임.

 

스크래핑(Scraping)

조각/단편의 정보(scrap)의 사전적 의미로, 

데이터(자료)를 수집하는 모든 과정. 크롤링도 스크래핑의 일부분이다.


 

정리하자면 크롤링과 스크래핑을 구분은 큰 의미가 없으며, 둘다 웹상에서의 정보를 수집하는 일을 의미하며, 파싱은 사용자가 원하는 데이터를 추출하여 가공하는 일을 의미한다.

 

 

웹 데이터 수집관련 용어정리 끝.

 

* CopyRight 2021. Jay Park All rights reserved.

728x90
저작자표시 비영리 변경금지 (새창열림)

'ETC > ETC' 카테고리의 다른 글

[E-Mail] 메일 보안 필터링 이론 정리  (0) 2022.04.06
[E-Mail] 이메일 시스템 구조 및 용어 정리  (0) 2022.03.01
[E-Mail] Telnet과 OpenSSL을 이용한 SMTP 메일 발송  (0) 2022.02.03
[Math] 진법변환 (2진수, 8진수, 10진수, 16진수)  (0) 2021.09.27
[ETC] 함수와 관련 용어 정리  (0) 2021.09.13
'ETC/ETC' 카테고리의 다른 글
  • [E-Mail] 이메일 시스템 구조 및 용어 정리
  • [E-Mail] Telnet과 OpenSSL을 이용한 SMTP 메일 발송
  • [Math] 진법변환 (2진수, 8진수, 10진수, 16진수)
  • [ETC] 함수와 관련 용어 정리
dev.parkjh
dev.parkjh
Jay Blog. Github: https://github.com/GreatPark96
  • dev.parkjh
    0과 1을 공부하다.
    dev.parkjh
  • 전체
    오늘
    어제
    • 분류 전체보기 (114)
      • Profile (2)
      • Paper (6)
      • Column (3)
      • Project (8)
        • Smart Home (3)
        • 3D Printing (5)
      • Front-End (0)
        • Web (3)
      • Back-End (8)
        • API (1)
        • DB (1)
        • Laravel (4)
      • Language (16)
        • Kotlin (11)
        • C, C++ (3)
        • JAVA (0)
        • python (2)
      • System (28)
        • Server (15)
        • Security (1)
        • Network (1)
        • Linux (8)
        • Cloud (3)
      • ETC (34)
        • Book Recommend (Computer) (3)
        • IoT (7)
        • BlockChain (7)
        • ETC (17)
      • My YOLO (1)
      • Note (4)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    NAS HDD교체
    docker private register
    리눅스 파일동기화
    ncp container registry
    3D프린터
    Jenkins
    네이버클라우드
    kubernetes
    C언어
    Kotlin
    docker
    데이터 직렬화 포맷
    Database
    코틀린개발환경
    gitlab
    git
    github
    ci/cd
    3D모델링
    coderabbit
    3d프린터 초보
    3D
    docker container
    nas
    linux job
    ai code review
    data serialization formats
    Notification
    work hour
    3D프린터 입문
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
dev.parkjh
[Web] 웹 데이터 수집 및 가공 관련 용어정리
상단으로

티스토리툴바