1. Information Retrieval (정보 검색)
- 정보 검색은 대량의 자료 코퍼스으로부터 요구사항에 맞는 비정형 데이터(주로 텍스트 문서)를 찾는 것
- Corpus (Corpora) : 특정한 목적을 가지고 컴퓨터안에 언어의 표본을 추출한 집합을 의미함
- e.g. 웹 검색, Email 검색, 컴퓨터내 자료검색, 지식베이스 검색 등
- 여기에서 주의할 점은 정보 검색은 텍스트 문서를 찾아주는 것이지, 정답을 찾아주는 것이 아님
- 딱 정답을 대답해주는 시스템은 Q&A (Question & Answer) 시스템이라고 함 (Knowledge Data)
2. Task of Retrieval
- 1) Corpus (말뭉치) : 우선 자료를 검색할 Corpus (말뭉치)가 존재해야함
- 2) Topic (주제) : 그리고 Corpus에서 자료를 검색하기 위한 Topic이 존재해야함
- 3) Relevance (관련성) : 어떤 Document가 Topic을 포함하고 있으면 Relevance하다고 함. 백두산의 높이를 물었는데, 백두산의 높이가 포함된 문서가 검색되어 나오면 Relevance있는 것이고 백두산의 위치, 역사, 유래 이런 것만 포함된 문서가 검색되어 나오면 Non Relevance한 것이다.
- 4) Query (질의) : DB에서는 SQL로 질의를 하지만, IR에서는 자연어를 사용하여 질의한다.
- 5) Model (검색모델) : Boolean 모델 , Vector 모델, Probability 모델 등 다양한 모델을 사용함. 모델에 따라 질의의 Format은 약간 달라질 수 있음 (예를들어 Boolean 모델은 And, Or, Not을 사용하는 질의를 씀)
3. Unstructured Data (비정형 데이터)
- 비정형데이터는 명확하지 않고, 구조화되지 않은 데이터를 의미함
- 예를 들어 자연어텍스트, 웹페이지, 오디오, 비디오, 이미지 등
- 과거에는 비정형데이터가 많았으나 산업(시장)에서 요구하는 데이터는 대부분 정형 데이터였음
- 때문에 Oracle과 같이 데이터베이스를 만들어서 판매하는 회사들이 많은 수익을 올렸음
- 그러나 현대에는 산업(시장)에서 비정형데이터를 많이 요구하게 되고
- 그에 따라 비정형데이터 검색엔진을 개발한 Google, Yahoo, Bing 등이 많은 수익을 올리게 되었음
4. Assumption of Retrieval (검색이론의 가정)
- 1) Collection : 우리가 배울 모델들의 Collection은 Document의 Static Set을 의미
- 왜 Static Set이 중요할까? => 예를 들어 셰익스 피어의 희극을 검색해보자.
- Naive Soultion : 모든 작품을 다 모으고 Linear하게 Search한다
- Better Solution : Corpus를 미리 Preprocess하고, 미리 Organize한다. (색인한다 = 인덱스)
- 색인하려면 Static Set이 반드시 필요하다. (Preprocess하고있는데 데이터가 불어나면 안된다)
- 2) Goal : 사용자의 Needs에 Relevant하고, 사용자의 Task를 도울 수 있는 문서를 찾아주는 것
5. Reference
[LECTURE] 2-2. 정보검색 소개 : edwith
Acknowledgements The slides and examples of this presentation are from "Introduction to Inforamtion ... - 정설영
www.edwith.org
'정보검색' 카테고리의 다른 글
검색시스템 평가 - 리콜 / 프리시전 (0) | 2020.05.13 |
---|---|
구글의 탄생과 성장 (0) | 2020.05.06 |