HTTP 완벽가이드 2장

2장 URL과 리소스

2.1 인터넷의 리소스 탐색하기

URL은 브라우저가 정보를 찾는데 필요한 리소스의 위치를 가리킨다.

ex) http://www.joes-hardware.com/seasonal/index-fall.html 이라는 URL 을 불러온다고 하자.

  • http는 URL의 스킴으로 웹 클라이언트가 리소스에 어떻게 접근하는지 알려준다.
  • www.joes-hardware.com은 서버 위치로 웹 클라이언트가 리소스가 어디에 호스팅 되어 있는지 알려준다.
  • /seasonal/index-fall.html은 리소스의 경로로 서버에 존재하는 로컬 리소스들 중에서 요청받은 리소스가 무엇인지 알려준다.

URL을 사용하면 리소스를 일관된 방식으로 지칭할 수 있으며, 대부분의 URL은 “스킴://서버위치/경로“ 구조로 이루어져있다.

2.2 URL 문법

대부분의 URL은 일반 URL 문법을 따르며, 서로 다른 URL 스킴도 형태와 문법 면에서 매우 유사하다.

스킴의 문법은 일반적으로 9개로 나뉜다.

<스킴>://<사용자 이름>:<비밀번호>@<호스트>:<포트>/<경로>;<파라미터>?<질의>#<프래그먼트>

2.2.1 스킴: 사용할 프로토콜

스킴은 주어진 리소스에 어떻게 접근하는지 알려주는 중요한 정보로, 어떤 프로토콜을 사용하여 리소스를 요청해야하는지 알려준다.

2.2.2 호스트와 포트

URL의 호스트와 포트 컴포넌트가 존재한다.

  • 호스트 컴포넌트: 접근하려고 하는 리소스를 가지고 있는 인터넷상의 호스트 장비를 가리킨다.
  • 포트 컴포넌트: 서버가 열어놓은 네트워크 포트를 가리킨다.

2.2.3 사용자 이름과 비밀번호

많은 서버가 자신이 가지고 있는 데이터를 제공하기 전에 사용자 이름과 비밀번호를 요구한다.

ftp://ftp.prep.ai.mit.edu/pub/gnu

→ 표준 스킴, 호스트, 경로만 존재한다.

ftp://anonymous@ftp.prep.ai.mit.edu/pub/gnu

→ 기본 사용자 이름 값은 ‘anonymous’, 비밀번호는 브라우저마다 가지고 있는 기본값을 사용한다.

ftp://anonymous:my_passwd@ftp.prep.ai.mit.edu/pub/gnu

→ 사용자 이름 ‘anonymous’ 비밀본호 ‘my_passwd’를 ‘:’문자로 구분하여 사용한다.

‘@’는 URL에서 사용자 이름과 비밀번호 컴포넌트를 분리한다.

2.2.4 경로

URL의 경로 컴포넌트는 리소스가 서버의 어디에 있는지 알려준다.

http://www.joes-hardware.com:80/seasonal/index-fall.html

/‘ 문자를 기준으로 경로조각으로 나뉘며, 각각의 경로조각은 자체만의 파라미터 컴포넌트를 가질 수 있다.

2.2.5 파라미터

애플리케이션이 서버에 정확한 요청을 하기 위해 필요한 입력 파라미터를 받는데 사용한다.

URL의 파라미터 컴포넌트는 이름=값 쌍의 리스트로 URL 나머지로 부터 ‘;’ 문자로 구분하여 URL에 기술한다.

리소스에 접근하는데 필요한 어떤 추가 정보든 전달할 수 있다.

ftp://prep.ai.mit.edu/pub/gnu;type=d

이름은 ‘type’이고, 값은 ‘d’인 type=d라는 단 한 개의 파라미터를 전달한다.

2.2.6 질의 문자열

데이터베이스 같은 서비스들은 요청받을 리소스 형식의 범위를 좁히기 위해서 질문이나 질의를 받을 수 있다.

http://www.joes-hardware.com/inventory-check.cgi?item=12731

위 URL은 아이템 번호가 ‘12731’의 재고가 있는지 확인하기 위해서 사용된다.

‘?’ 문자에 이어서 오는 값을 질의 컴포넌트라고 한다.

‘&’문자로 나뉜 ‘이름=값‘ 쌍 형식의 질의 문자열을 많이 사용한다.

2.2.7 프래그먼트

리소스의 특정 부분을 가리킬 수 있도록, URL은 리소스 내의 조각을 가리킬 수 있는 프래그먼트 컴포넌트를 제공한다. 프래그먼트는 URL의 오른쪽에 # 문자에 이어서 온다.

http://www.joes-hardware.com/tools.html#drills

drills라는 프래그먼트는 /tools.html 웹페이지의 일부를 가리킨다.

HTTP서버는 객체 일부가 아닌 전체만 다루기 때문에, 클라이언트는 서버에 프래그먼트를 보내지 않는다.

브라우저가 서버로부터 리소스를 내려받은 후에 프래그먼트를 사용해서 보고자 하는 리소스의 화면을 보여준다.

2.3 단축 URL

웹 클라이언트는 몇몇 단축 URL을 인식하고 사용한다.

상대 URL은 리소스 안에 있는 리소스를 간결하게 기술하는데 사용할 수 있다.

2.3.1. 상대 URL

URL은 상대 URL과 절대 URL 두가지로 나뉜다.

상대 URL

  • 리소스에 접근하는데 필요한 모든 정보를 가지고 있지 않다.
  • URL을 짥게 표시하는 방식이다.
  • HTML 작성자는 URL에 스킴과 호스트 그리고 다른 컴포넌트들을 모두 입력하지 않아도 된다.

절대 URL

  • 리소스에 접근하는데 필요한 모든 정보를 가지고 있다.

URL 확장

사용자가 URL을 입력한 다음이나 입력하고 있는 동안에 자동으로 URL을 확장한다.

  • 호스트 명 확장

    ‘yahoo’를 주소창에 입력한다면, 브라우저는 호스트 명에 자동으로 ‘www.’과 ‘.com’을 붙여서 ‘www.yahoo.com'을 만든다.

  • 히스토리 확장

    URL 입력하는 시간을 줄이고자, 과거에 사용자가 방문했던 URL의 기록을 저장해 놓는 것이다.

    URL의 시작부분을 입력하면 자동으로 전체 URL을 보여준다.

2.4 안전하지 않은 문자

  • 프로토콜이 데이터를 전송하기 위해서 서로 다른 장치를 가지고 있기 때문에, 어떤 인터넷 프로토콜을 통해서든 안전하게 전송될 수 있도록 URL을 설계하는 것이 중요하다.
  • 안전한 전송이란, 정보가 유실될 위험 없이 URL을 전송할 수 있다는 것을 의미한다.
  • 이스케이프라는 기능을 추가하여, URL에 있는 안전하지 않는 문자들을 표현할 수 있도록 인코딩 방식을 사용하여 이동성과 완성도를 높였다.

HTTP 완벽가이드 1장

1장 HTTP개관

1.1 HTTP: 인터넷의 멀티미디어 배달부

HTTP는 신뢰성 있는 데이터 전송 프로토콜을 사용하기 때문에, 데이터가 지구 반대편에서 오더라도 전송 중 손상되거나 꼬이지 않음을 보장한다.

1.2 웹 클라이언트와 서버

웹 서버는 HTTP 프로토콜로 의사소통하기 때문에 HTTP서버라고 불린다. 웹 서버는 인터넷의 데이터를 저장하고, HTTP 클라이언트가 요청한 데이터를 제공한다 .

1.3 리소스

웹 서버는 웹 리소스를 관리하고 제공한다. 웹 리소스는 텍스트, 이미지 파일 등과 같은 정적 파일과 리소스는 웹에 콘텐츠를 제공하는 어떤 종류든 해당한다.

1.3.1 미디어 타입

HTTP는 웹에서 전송되는 객체 각각에 MIME라는 타입의 라벨을 붙인다. 웹브라우저는 서버로부터 객체를 돌려 받을 때, 다룰 수 있는 객체인지 MIME를 통해서 확인한다.

주 타입/부 타입으로 이루어진 문자열 라벨이다.

  • text/html → HTML로 작성된 텍스트 문서
  • text/plain → plain ASCII 텍스트 문서
  • image/jpeg →JPEG 이미지

등 수백 가지가 존재한다.

1.3.2 URI

통합 자원 식별자(Uniform Resource Identifier)

웹 서버 리소스는 각자 이름을 갖고 있기 때문에 정보 리소스를 고유하게 식별하고 위치를 지정할 수 있다.

URI에는 URL과 URN 두가지가 존재한다.

1.3.3 URL

통합 자원 지시자(Uniform Resource Locator)는 리소스 식별자의 가장 흔한 형태로, 특정 서버의 한 리소스에 대해 구체적인 위치를 서술한다.

대부분의 URL은 세부분으로 이루어진 표준 포맷을 따른다.

  • 첫번째 부분은 스킴(scheme)으로 리소스에 접근하기 위한 프로토콜을 서술한다. HTTP 프로토콜(http://)이 이에 해당한다.
  • 두번째 부분은 서버의 인터넷 주소를 제공한다. (www.joes-hardware.com)
  • 세번째 부분은 웹 서버의 리소스를 가리킨다.(/image.gif)

오늘날 대부분의 URI는 URL이다.

1.3.4 URN

유니폼 리소스 이름(Uniform Resource Name)

리소스의 위치에 영향을 받지 않으며, 리소스가 그 이름을 변하지 않게 유지하는 한, 여러종류의 네트워크 접속 프로토콜로 접근해도 문제가 되지 않는다.

1.4. 트랜잭션

요청명령(클라이언트 → 서버)과 응답결과(서버 → 클라이언트)로 구성되어있다.

1.4.1 메서드

HTTP는 여러가지 종류의 요청 명령을 지원한다.

HTTP요청 메시지는 한 개의 메서드를 갖으며, 서버에게 어떤 동작을 해야하는지 알려준다.

GET : 서버에서 클라이언트로 지정한 리소스로 보내라.

PUT : 클라이언트에서 서버로 보낸 데이터를 지정한 이름의 리소스로 저장하라.

DELETE : 저장한 리소스를 서버에서 삭제하라.

POST : 클라이언트 데이터를 서버 게이트웨이 애플리케이션으로 보내라.

HEAD : 지정한 리소스에 대한 응답에서 HTTP헤더 부분만 보내라.

1.4.2 상태코드

모든 응답 메시지는 상태 코드와 함께 반환된다.

숫자 코드 + 사유구절(reason phrase)로 함께 보낸다.

ex) 200 OK , 404 Request Error….

1.5 메시지

시작줄(Start Line)

메시지의 첫 줄로, 요청이라면 무엇을 해야 하는지 응답이라면 무슨 일이 일어났는지 나타낸다.

헤더(Header)

0개 이상의 헤더 필드가 나타난다. [이름] : [값] 형태로 구성된다.

헤더에 필드를 추가하기 위해서는 한 줄만 추가하면 된다.

본문(Body)

요청 본문은 웹 서버로 데이터를 포함해서 보내며, 응답 본문은 클라이언트로 데이터를 반환한다.

본문은 이진 데이터를 포함할 수 있다.(이미지, 비디오, 오디오, 등)

1.6 TCP 커넥션

메시지가 어떻게 TCP 커넥션을 통하는지 알아본다.

1.6.1 TCP/IP

HTTP는 애플리케이션 계층 프로토콜이다. HTTP는 네트워크 통신의 핵심적인 세부사항에 대해서는 신경쓰지 않지만 대중적이고 신뢰적인 인터넷 전송 프로토콜인 TCP/IP에게 맡긴다.

TCP특징

  • 오류 없는 데이터 전송
  • 순서에 맞는 전달(데이터는 언제나 보낸 순서대로 도착한다)
  • 조각나지 않는 데이터 스트림(언제든 어떤 크기로든 보낼 수 있다)

TCP/IP는 패킷 교환 네트워크 프로토콜의 집합이다.

어떤 종류의 컴퓨터나 네트워크든 서로 신뢰성 있는 의사소통을 하게 해준다.

TCP커넥션이 맺어지면, 클라이언트와 서버간에 교환되는 메시지가 없어지거나, 손상되거나, 순서가 뒤바뀌어 수신되는 일은 없다.

1.6.2 접속, IP주소 그리고 포트번호

HTTP 클라이언트가 서버에 메시지를 전송하기 전에 인터넷 프로토콜 주소포트번호를 사용해 클라이언트와 서버사이에 TCP 커넥션을 맺어야한다.

서버에서 클라이언트에게 HTML리소스를 보여주는 과정은 다음과 같다.

  1. 웹브라우저는 서버의 URL에서 호스트 명을 추출한다.
  2. 웹브라우저는 서버의 호스트 명을 IP로 변환한다.
  3. 웹브라우저는 URL에서 포트번호를 추출한다.
  4. 웹브라우저는 웹 서버와 TCP 커넥션을 맺는다.
  5. 웹브라우저는 서버에 HTTP 요청을 보낸다.
  6. 서버는 웹브라우저에 HTTP 응답을 돌려준다.
  7. 커넥션이 닫히면, 웹브라우저는 문서를 보여준다.

1.7 웹의 구성요소

1.7.1 프락시(Proxy)

웹 보안, 애플리케이션 통합, 성능 최적화를 위한 중요한 구성 요소로서, 프락시는 클라이언트와 서버 사이에 위치하여, 클라이언트의 모든 HTTP요청을 받아 서버에 전달한다.

주로 보안을 위해서 많이 사용된다. 모든 웹 트래픽 흐름 속에서 신뢰할 만한 중개자 역할을 한다.

1.7.2 캐시(Cache)

웹 캐시와 캐시 프락시는 자신을 거쳐 가는 문서들 중 자주 찾는 것의 사본을 저장해 둔다.

클라이언트는 멀리 떨어진 웹 서버보다 근처의 캐시에서 문서를 빠르게 다운 받을 수 있다.

1.7.3 게이트웨이(Gateway)

다른 서버들의 중개자로 동작하는 특별한 서버로서, HTTP 트래픽을 다른 프로토콜로 변환하기 위해 사용된다.

스스로가 리소스를 갖고 있는 진짜 서버인 것처럼 요청을 다룬다. 클라이언트는 자신이 게이트웨이와 통신하고 있음을 알아채지 못한다.

1.7.4 터널

두 커넥션 사이에서 raw데이터를 열어보지 않고 그대로 전달해주는 HTTP 애플리케이션이다.

터널은 주로 비 HTTP 데이터를 하나 이상의 HTTP 연결을 통해 그대로 전송해주기 위해 사용된다.

1.7.5 에이전트

사용자를 위해 HTTP 요청을 만들어주는 클라이언트 프로그램이다.

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×