웹은 처음부터 아카이브였다

웹은 왜 만들어졌을까. 사람들은 정보를 공유하기 위해서라고 답할 것이다. 그러나 웹을 발명한 사람이 처음 제출한 제안서의 제목은 "Information Management: A Proposal"(정보 관리: 하나의 제안)—정보 관리였다.¹ 1989년 3월, CERN(유럽입자물리연구소)의 물리학자 팀 버너스리(Tim Berners-Lee)가 해결하려던 문제는 웹 페이지를 만드는 것도, 멀티미디어를 전달하는 것도 아니었다. 그는 조직 안에서 끊임없이 사라지는 정보를, 어떻게 관리할 것인지를 해결하고자 했다.

1989년, 두 개의 평행 우주

CERN에서 버너스 리는 문제를 이렇게 정의했다. "Information is recorded but cannot be found."(정보는 기록되었다. 그러나 찾을 수 없다.)¹ 물리학 연구소에서 연구원들은 평균 2년만 머물다 떠났다. 누군가 작성한 문서, 누군가 만든 소프트웨어, 누군가 수집한 데이터는 그 사람이 떠나면 함께 사라졌다. 문제는 기록의 부재가 아니라 참조의 불가능이었다. 정보는 존재하지만, 서로 연결되지 않았다. 누가 무엇을 만들었는지, 어떤 문서가 어떤 프로젝트에 의존하는지, 이 소프트웨어가 무엇을 참조하는지—이런 관계가 기록되지 않았다.

버너스 리가 제안한 것은 "a pool of information which could grow and evolve"(성장하고 진화할 수 있는 정보의 저장소)—조직과 함께 성장하고 진화하는 정보의 저장소였다. 그는 왜 기존의 파일 시스템이나 데이터베이스를 쓰지 않았을까? 왜 트리가 아닌 웹인가? 실제 세계에서 정보는 여러 맥락에 동시에 속한다. 한 문서는 여러 프로젝트에서 참조되고, 한 사람은 여러 팀에 속하고, 한 소프트웨어는 여러 의존성을 가진다. 그러나 트리 구조는 모든 정보를 하나의 부모 아래 배치한다. 그의 대답은 명확했다. "A tree does not allow the system to model the real world."(트리는 시스템이 실제 세계를 모델링하도록 허용하지 않는다.)

Tim Berners-Lee의 1989년 제안서에 포함된 circles and arrows 다이어그램 — Tim Berners-Lee의 "Information Management: A Proposal" (1989) 다이어그램 - circles and arrows로 표현된 정보 관계

그가 그린 다이어그램은 "circles and arrows"(원과 화살표)였다. 원은 정보 노드를, 화살표는 그들 사이의 관계를 나타냈다. 중요한 것은 그 화살표가 관계의 타입을 표현했다는 점이다. "depends on"(의존한다), "is part of"(~의 부분이다), "made"(만들었다), "refers to"(참조한다), "uses"(사용한다). 링크는 단순히 "연결됨"이 아니었다. 링크는 의미의 기록이었다. 이것이 무엇을 의미하는지 이해하려면, 기록학이 같은 시기에 무엇을 하고 있었는지 봐야 한다.

같은 1989년, 기록학계는 전혀 다른 위기를 겪고 있었다. 종이 문서를 다루던 아키비스트(기록관리 전문가)들은 갑자기 전자기록을 마주했다. 워드프로세서 파일, 데이터베이스, 이메일. 어떻게 보존할 것인가? 어떻게 분류할 것인가? 어떻게 진본성을 보장할 것인가? 캐나다 기록학자 테리 쿡(Terry Cook)은 1991년 논문을 "Easy to byte, harder to chew"(깨물기[byte: 바이트]는 쉽지만, 씹기는 어렵다)라 제목 붙였다.² 전자기록은 만들기는 쉽지만, 관리하기는 어렵다는 뜻이었다. 파일 포맷은 빠르게 노후화되고, 하드웨어는 바뀌고, 진본성을 증명할 방법이 불분명했다.

기록학의 대응은 기존 체계를 전자 환경에 적용하는 것이었다. 1990년 캐나다는 RAD(기록물 기술 규칙, Rules for Archival Description)를 발표했다. 1993년 국제기록학협회(ICA, International Council on Archives)는 ISAD(G)(국제표준 기록물 기술 일반원칙, General International Standard Archival Description)를 승인했다. 둘 다 엄격한 계층 구조였다. Fonds(기록군) → Series(시리즈) → File(파일) → Item(개별 문서). 하나의 기록은 하나의 부모를 가진다. 출처는 단일하다. 위에서 아래로 내려가는 트리였다.

웹이 공개된 1991년 8월, 기록학 문헌에서 "hypertext"(하이퍼텍스트)나 "network structure"(네트워크 구조)는 거의 언급되지 않았다. 두 세계는 같은 문제—정보 관리—를 다루고 있었지만, 서로를 알지 못했다.

같은 구조, 34년의 차이

2023년, 국제기록학협회(ICA)는 Records in Contexts (RiC, 맥락 속 기록) 온톨로지 버전 1.0을 발표했다.³ RiC는 기록학의 패러다임 전환이었다. 더 이상 Fonds(기록군) → Series(시리즈) → File(파일) → Item(개별 문서)의 단일 계층이 아니었다. 대신 RiC는 entities(개체)와 relations(관계)의 그래프였다. Record(기록), Agent(행위자), Activity(활동), Rule(규칙), Place(장소), Date(날짜)가 복잡한 관계로 얽혀 있었다. "created by"(~에 의해 생성됨), "used by"(~에 의해 사용됨), "subject of"(~의 주제), "related to"(~와 관련됨).

Records in Contexts (RiC) 개념 모델 개요도 — Records in Contexts (RiC) 개념 모델 개요 (ICA, 2023)

흥미로운 것은 둘이 같은 구조에 도달했다는 사실이다. 버너스리의 1989년 다이어그램과 비교해보라. 둘 다 circles and arrows(원과 화살표)다. 둘 다 entities(개체)와 relations(관계)의 그래프다. 둘 다 타입화된 관계를 표현한다. 차이는 34년의 시간이다.

왜 이렇게 오래 걸렸을까? 캐나다 기록학자 에밀리 마에무라(Emily Maemura)가 지적한 것처럼, 이것은 단순히 기술을 도입하는 문제가 아니었다.⁴ RiC가 요구하는 것은 사고방식의 전환이었다. 전통 기록학은 개별 객체 중심이었다. 이 문서는 무엇인가, 누가 만들었는가, 언제 만들어졌는가. 그러나 웹 아카이브는 개별 문서로 환원되지 않는다. 한 웹사이트는 수천 개의 페이지, 수만 개의 링크, 여러 시점의 스냅샷으로 구성된다. 이것을 어떻게 기술할 것인가?

RiC의 혁신은 집합 수준(aggregate-level)에서 기술한다는 것이다. 개별 페이지가 아니라, 페이지들의 관계. 개별 문서가 아니라, 문서들이 형성하는 네트워크. 이것이 버너스리가 1989년에 그렸던 "circles and arrows"(원과 화살표)였다.

그 사이 무슨 일이 있었나

1996년, 브루스터 케일(Brewster Kahle)이라는 기술자가 인터넷 아카이브(Internet Archive)를 설립했다. 목표는 웹을 보존하는 것이었다. 그러나 미국 기록학자 케이티 헤가티(Katie Hegarty)의 2022년 연구가 밝힌 것처럼, 인터넷 아카이브는 역설적으로 도서관 프레임워크를 이식했다.⁵ 웹사이트를 "출판물"로 다뤘다. 서지 메타데이터(제목, 저자, 발행일)를 붙였다. 웨이백 머신(Wayback Machine)은 웹페이지를 책처럼 "판본"으로 저장했다. 2001년 버전, 2005년 버전, 2010년 버전.

이 접근은 웹을 보존하는 데는 성공했지만, 웹의 구조적 본질을 놓쳤다. 웹은 출판물이 아니라 링크의 네트워크였다. 한 페이지는 다른 페이지들을 참조하고, 여러 사이트는 서로 링크하며, 그 관계가 의미를 만들었다. 그러나 웨이백 머신은 개별 페이지를 스냅샷으로 저장했다. 링크는 보존되지만, 링크가 형성하는 네트워크 구조는 분석되지 않았다.

웹 아카이빙은 "보존 문제"가 되었다. 크롤러를 어떻게 개선할 것인가. WARC(웹 아카이브 파일) 포맷을 어떻게 표준화할 것인가. 저장 용량을 어떻게 확보할 것인가. 구조적 함의—웹이 기록학에 던지는 질문—는 논의되지 않았다. 기술자와 아키비스트는 서로 다른 세계에 살았다.

CERN의 아이러니

아이러니는 더 깊다. 웹을 발명한 CERN조차 자신의 웹 역사를 제대로 아카이빙하지 못했다. 이탈리아 기록학자 마테오 포마시(Matteo Fomasi)와 동료들의 2023년 연구가 밝힌 CERN WWW 컬렉션의 실상은 충격적이다.⁶

이 컬렉션은 체계적 계획의 산물이 아니었다. 1992년, 웹의 공동 발명자 로베르 카이요(Robert Cailliau)의 아내가 그에게 권유했다. "당신이 하는 일이 중요해 보이니 기록을 남겨두는 게 어때요?" 카이요는 후에 회고한다. "I just did not think of it. The historical aspect was disregarded."(나는 그저 생각하지 못했다. 역사적 측면은 무시되었다.) 웹이 역사적으로 중요해질 거라고는 아무도 예상하지 못했다. 웹은 그저 CERN 내부의 정보 관리 도구였다.

팀 버너스리의 문서 대부분은 부재한다. 1994년 그는 MIT(매사추세츠 공과대학)로 옮겼고, 개인 문서들을 가져갔다. CERN 컬렉션에는 그의 초기 제안서, 코드, 이메일이 거의 없다. 1993년 CERN이 웹 기술을 공개 도메인으로 선언한 원본 문서는 사라졌다. 웹 역사에서 가장 중요한 법적 선언문의 원본을, 아무도 보존하지 않았다.

CERN의 공식 아카이브 정책은 1997년에야 수립되었다. 웹이 공개된 1991년으로부터 6년 후였다. 그 사이 수많은 문서가 흩어졌다. 일부는 CERN에, 일부는 MIT에, 일부는 프랑스 INRIA(국립정보자동화연구소)에, 일부는 영국 도서관에, 일부는 개인의 집에. 일부는 사라졌다.

정보 관리 시스템을 만든 곳이 정보를 관리하지 못했다. 버너스리가 1989년에 진단한 문제—"정보는 기록되었다. 그러나 찾을 수 없다"—는 웹 자체의 역사에서 그대로 재현되었다.

질문

2013년이 되어서야 국제기록학협회(ICA)는 RiC 개발을 시작했다. 그리고 2023년, 웹 발명 34년 후, 기록학은 드디어 네트워크 기반 기술 모델에 도달했다. 이제야 기록학은 웹이 처음부터 보여준 구조—circles and arrows(원과 화살표), entities and relations(개체와 관계)—를 이해하기 시작했다.

웹은 처음부터 아카이브였다. 정보를 저장하는 것이 아니라, 정보 사이의 관계를 기록하는 시스템. 링크는 단순한 연결이 아니라, 의미의 타입을 표현하는 관계였다. 문제는 우리가 그것을 읽지 못했다는 것이다.

질문은 이것이다. 왜 두 세계는 만나지 못했는가. 웹 발명자들은 왜 기록학을 참조하지 않았는가. 기록학자들은 왜 웹의 구조를 주목하지 않았는가. 그리고 지금, RiC가 웹의 구조를 닮아가는 이 순간, 기록학은 웹으로부터 무엇을 다시 배워야 하는가.

각주

Berners-Lee, T. (1989). Information Management: A Proposal. CERN. https://www.w3.org/History/1989/proposal.html ↩
Cook, T. (1991). Easy to byte, harder to chew: The second generation of electronic records archives. Archivaria, 33, 202-216. ↩
International Council on Archives. (2023). Records in Contexts (RiC) Ontology Version 1.0. https://www.ica.org/standards/RiC/ ↩
Maemura, E. (2025). Conceptualizing aggregate-level description in web archives. Archival Science, 25, 119-143. https://doi.org/10.1007/s10502-024-09441-3 ↩
Hegarty, K. (2022). The invention of the archived web: Tracing the influence of library frameworks on web archiving infrastructure. Internet Histories, 6(4), 432-451. https://doi.org/10.1080/24701475.2022.2103592 ↩
Fomasi, M., Barcella, D., Benecchi, E., & Balbi, G. (2023). Genealogy of an archive: The birth, construction, and development of the World Wide Web collection at CERN. Internet Histories, 7(3-4), 277-294. https://doi.org/10.1080/24701475.2023.2188448 ↩

연재 정보

이 글은 〈웹 이후의 기록학〉 6부작 연재 시리즈 입니다.

#1: 웹은 처음부터 아카이브였다
#2: 미멕스는 왜 아직도 실현되지 않았는가
#3: 하이퍼텍스트는 왜 기억이 되지 못했는가
#4: 우부웹은 왜 여전히 웹에 남아 있는가
#5: 웹은 왜 스스로를 보존하지 못하는가
#6: 웹 이후, 기록학은 무엇을 다시 배워야 하는가