상단여백
HOME 뉴스·정책
유튜브 “최대 규모 동영상 데이터세트를…”
  • 윤신철 칼럼니스트
  • 승인 2016.10.03 13:00
  • 댓글 0




머신러닝이나 기계 인식 연구 성과를 통해 정지 화상에 찍힌 대상을 자동 판별하고 분류하는 기술이 발전하고 있다. 수백 가지에 이르는 이미지를 분석하고 있는 이미지넷 같은 데이터베이스는 이미지 이해를 위한 연구를 가속화시키고 있다. 반면 동영상은 사진보다 포함된 정보가 많아 분석이 어렵기 때문에 사진보다 동영상에 대한 데이터세트는 부족한 게 현실이다. 이런 상황을 개선하기 위해 구글 연구팀이 4,800건에 이르는 지식 그래프 태그 처리한 800만 개 유튜브 동영상 데이터세트인 유튜브-8M(YouTube-8M)을 공개했다.

지금까지 최대 규모인 동영상 데이터세트는 스포츠 500종에 태그한 유튜브 동영상 100만 개를 모은 스포츠-1M(Sports-1M)이었다. 하지만 이보다 8배 규모로 더 많은 다양성을 기대할 수 있는 데이터세트인 유튜브-8M이 등장한 것. 이에 따라 동영상 분석 연구도 더 발전할 전망이다.





구글 연구팀은 유튜브-8M을 만들 때 먼저 수동 주석 작업은 사진보다 동영상 쪽이 더 시간이 오래 걸린다는 점, 다음으로 동영상 취급이나 보관이 컴퓨터 쪽에서 보면 높은 비용이라는 2가지 문제를 극복하기 위해 노력했다고 한다. 첫 번째 문제를 극복하기 위해 유튜브에 공개된 동영상을 적당한 지식 그래프 주제로 식별하고 주석을 자동 생성하는 주석 시스템에 주목했다. 자동 생성된 주석 품질은 동영상 분석 연구에 도움이 되는 수준을 충족한다. 태깅한 동영상 데이터세트 안정성과 품질을 보장하기 위해 유튜브-8M은 조회수 1,000회 이상이 넘은 영상만 사용하고 있다. 동영상 카테고리에 원하는 키워드만 넣으면 관련 태그가 있는 영상을 필터링할 수 있다.





두 번째 문제인 동영상 연구를 위한 스토리지와 자원 부족 현상에 대해선 연구에 최적화된 유튜브-8M을 이용하면 고가 머신이 없는 학생도 연구할 수 있다고 설명하고 있다. 구글 연구팀은 유튜브-8M이 새로운 연구 촉진과 불완전한 태그를 활성화할 수 있는 방법이 나올 기회를 제공하는 등 기대를 걸고 있다고 밝히고 있다. 관련 내용은 이곳에서 확인할 수 있다.

윤신철 칼럼니스트  creact17@gmail.com

<저작권자 © 테크홀릭, 무단 전재 및 재배포 금지>

윤신철 칼럼니스트의 다른기사 보기
인기기사
추천기사
기사 댓글 0
전체보기
첫번째 댓글을 남겨주세요.
여백
여백
재미있는 테크월드 세상
여백
여백
여백
여백
여백
여백
여백
Back to Top