유럽 입자 물리 연구소(약칭 CERN)는 오픈소스 기술에 의존하여 대형 강입자 충돌기가 생성한 대량의 데이터를 처리합니다. ATLAS(초환면 기기, 그림 참조)는 기본 입자를 탐지하는 범용 탐지기입니다.
CERN은 굳이 많은 소개가 필요 없을 것입니다. CERN은 월드와이드웹(WWW)과 대형 강입자 충돌기(LHC)를 만들었습니다. 이것은 세계에서 가장 큰 입자 가속기로, 바로 이것을 통해 힉스 보손을 발견했습니다. 이 조직의 IT 운영 체제와 인프라를 담당하는 Tim Bell은 그의 팀의 목표가 “전 세계 13,000명의 물리학자에게 계산 시설을 제공하여 이러한 충돌을 분석하고, 우주의 구성과 작동 방식을 이해하도록 하는 것”이라고 말했습니다.
CERN은 하드코어 과학 연구를 수행하고 있으며, 특히 대형 강입자 충돌기는 운영 시 대량의 데이터를 생성합니다. “CERN은 현재 약 200 PB의 데이터를 저장하고 있으며, 가속기가 운영될 때 매월 10 PB 이상의 데이터가 생성됩니다. 이것은 필연적으로 계산 인프라에 큰 도전을 가져오며, 대량의 데이터 저장과 합리적인 시간 내에 데이터를 처리할 수 있는 능력이 필요합니다. 네트워크, 저장 기술 및 효율적인 계산 아키텍처에 모두 큰 압력이 됩니다.”라고 Bell이 말했습니다.

Tim Bell, CERN
대형 강입자 충돌기의 운영 규모와 그것이 생성하는 데이터량은 엄격한 도전을 가져오지만, CERN은 이러한 문제에 익숙하지 않습니다. CERN은 1954년에 설립되어 60년이 넘었습니다. “우리는 항상 해결하기 어려운 계산 능력 도전에 직면해 왔지만, 우리는 항상 오픈소스 커뮤니티와 협력하여 이러한 문제를 해결해 왔습니다.”라고 Bell이 말했습니다. “90년대에 우리가 월드와이드웹을 발명했을 때도 우리는 사람들과 공유하여 CERN의 연구에서 혜택을 받을 수 있도록 했습니다. 오픈소스는 이 일을 하기에 더할 나위 없이 적합한 도구였습니다.”
OpenStack과 CentOS 사용
오늘날 CERN은 OpenStack의 깊은 사용자이며, Bell은 OpenStack 재단의 이사회 구성원 중 한 명입니다. 하지만 CERN은 OpenStack보다 먼저 존재했으며, 수년간 다양한 오픈소스 기술을 사용하여 Linux 서버를 통해 서비스를 제공했습니다.
“지난 10년 동안 우리는 스스로 문제를 해결하는 것보다 유사한 도전에 직면한 상위 오픈소스 커뮤니티를 찾아 협력하는 것이 더 낫다는 것을 발견했습니다. 그런 다음 우리는 함께 이러한 프로젝트에 기여하는 것이 모든 것을 스스로 만들고 유지 관리하는 것보다 낫습니다.”라고 Bell이 말했습니다.
좋은 예는 Linux 자체입니다. CERN은 한때 Red Hat Enterprise Linux의 고객이었습니다. 사실 2004년에 이미 그들은 Fermilab과 협력하여 Scientific Linux라는 자체 Linux 배포판을 구축했습니다. 결국 그들은 커널을 수정하지 않았기 때문에 시간을 들여 자체 배포판을 구축하는 것이 의미가 없다는 것을 깨닫고 CentOS로 이동했습니다. CentOS는 완전한 오픈소스이자 커뮤니티 주도 프로젝트이기 때문에, CERN은 이 프로젝트와 협력하고 CentOS의 빌드와 배포에 기여할 수 있습니다.
CERN은 CentOS에 인프라를 제공하는 것을 도왔으며, 엔지니어가 모여 CentOS의 패키징을 함께 개선할 수 있는 CentOS DoJo 행사도 조직했습니다.
OpenStack과 CentOS 외에도 CERN은 구성 관리를 위한 Puppet, 모니터링을 위한 Grafana와 InfluxDB 등 다른 오픈소스 프로젝트의 깊은 사용자입니다.
“우리는 전 세계 약 170개 실험실과 협력합니다. 따라서 우리가 오픈소스 프로젝트의 개선점을 발견할 때마다 다른 실험실도 쉽게 채택하여 사용할 수 있습니다.”라고 Bell이 말했습니다. “동시에 우리도 다른 프로젝트에서 배웁니다. eBay와 Rackspace와 같은 대규모 설치 기반이 솔루션의 확장성을 높였을 때 우리도 혜택을 받아 규모를 확대할 수 있습니다.”
현실 문제 해결
2012년경 CERN은 대형 강입자 충돌기를 위해 계산 능력을 확장하는 방법을 연구했지만, 어려움은 기술이 아니라 인원이었습니다. CERN이 고용하는 직원 수는 고정되어 있습니다. “우리는 많은 추가 인원이 관리할 필요 없이 계산 능력을 확장하는 방법을 찾아야 했습니다.”라고 Bell이 말했습니다. “OpenStack은 우리에게 자동화된 API 주도 및 소프트웨어 정의 인프라를 제공했습니다.” OpenStack은 또한 CERN이 서비스 전달과 관련된 문제를 확인한 다음 직원을 추가하지 않고 자동화할 수 있도록 도왔습니다.
“우리는 현재 제네바와 부다페스트의 두 데이터 센터에서 약 280,000개의 프로세서 코어과 7,000대의 서버를 운영하고 있습니다. 우리는 소프트웨어 정의 인프라를 사용하여 모든 것을 자동화하고 있으며, 이를 통해 직원 수를 유지하면서 더 많은 서버를 계속 추가할 수 있습니다.”라고 Bell이 말했습니다.
시간이 지남에 따라 CERN은 더 큰 도전에 직면할 것입니다. 대형 강입자 충돌기는 2035년까지의 청사진이 있으며, 일부 중요한 업그레이드가 포함되어 있습니다. “우리의 가속기는 3~4년 동안 운영된 후 18개월이나 2년 동안 인프라를 업그레이드합니다. 이 유지 관리 기간 동안 우리는 계산 능력 계획을 합니다.”라고 Bell이 말했습니다. CERN은 또한 고휘도 대형 강입자 충돌기로 업그레이드할 계획이며, 더 높은 광도의 빔을 허용할 것입니다. 현재 CERN의 규모와 비교하여 업그레이드는 계산 요구가 약 60배 증가한다는 것을 의미합니다.
“무어의 법칙에 따르면 우리는 필요의 4분의 1만 충족할 수 있을 것입니다. 따라서 우리는 그에 상응하는 계산 능력과 저장 인프라를 확장하는 방법을 찾아야 하며, OpenStack과 같은 자동화와 솔루션을 찾는 것이 이에 도움이 될 것입니다.”라고 Bell이 말했습니다.
“우리가 대형 강입자 충돌기를 사용하기 시작하고 우리가 계산 능력을 어떻게 제공하는지 관찰했을 때, 우리가 모든 것을 CERN 데이터 센터에 넣을 수 없다는 것이 분명했습니다. 따라서 우리는 분산형 그리드 구조를 설계했습니다: 중심에 있는 CERN과 그 주변의 계단식 구조.”라고 Bell이 말했습니다. “전 세계에 약 12개의 대형 1단계 데이터 센터가 있으며, 그 다음 150개의 소규모 대학과 실험실이 있습니다. 그들은 대형 강입자 충돌기의 데이터에서 샘플을 수집하여 물리학자가 데이터를 이해하고 분석하도록 돕습니다.”
이러한 구조는 CERN이 국제 협력을 수행하고 있으며, 수백 개국이 이러한 데이터를 분석하는 데 전념하고 있음을 의미합니다. 이것은 오픈소스가 단순히 코드를 공유하는 것이 아니라 사람들 간의 협업, 지식 공유를 포함하여 개인, 조직 또는 회사가 단독으로 달성할 수 없는 목표를 실현한다는 기본 원칙으로 귀결됩니다. 이것이 오픈소스 세계의 힉스 보손입니다.
재게시 출처: 개발자 관계 »