데이터셋을 검색어로 찾는 방법을 설명합니다.
검색 결과가 많이 나올 경우, 검색어를 더 구체적으로 입력하십시오.
또한, 검색 결과를 정렬하거나, 필터링하여 원하는 데이터를 더 쉽게 찾을 수 있습니다.
단순 검색
기본적으로 사용하기 쉽고 오류를 반환하지 않고 거의 모든 입력을 허용하도록 설계된 DisMax Query Parser를 사용합니다.
구글 검색과 비슷하게 사용하면 됩니다. 데이터셋의 타이틀과 설명, 태그, 분류 등 가능한 많은 정보를 대상으로 검색하며, 리소스의 포맷과 그룹 분류 등을 검색 대상으로 합니다.
주의: 검색은 AI 챗봇이 아닙니다. 키워드 위주의 검색어를 사용하세요.
사용자가 검색창에 입력한 검색어는 검색의 본질을 구성하는 주요 ‘쿼리’를 정의합니다. + 및 - 문자는 용어에 대한 필수 및 금지 수식어로 처리됩니다. 균형 있는 따옴표 문자(예: “San Jose”)로 묶인 텍스트는 구로 처리됩니다. 기본적으로 사용자가 지정한 모든 단어나 문구는 “+” 또는 “-“가 앞에 오지 않는 한 선택 사항 으로 처리됩니다.
전체 단어를 검색하며 단순 검색을 수행할 때 와일드카드는 지원되지 않습니다.
간단한 검색 예:
-
census : 쿼리 필드에 “census”라는 단어가 포함된 모든 데이터 세트를 검색합니다.
-
census +2019 : “census”라는 단어가 포함된 모든 데이터 세트를 검색하고 “2019”와도 일치하는 데이터 세트만 필수 항목으로 필터링합니다.
-
census -2019 : “census”라는 단어가 포함된 모든 데이터 세트를 검색하고 “2019”는 금지된 것으로 간주되므로 결과에서 제외됩니다.
-
“european census” : “european census”라는 문구가 포함된 모든 데이터 세트를 검색합니다.
Solr는 검색 시 일부 전처리 및 형태소 분석을 적용합니다. 형태소 분석기는 단어에서 형태학적 접사를 제거하고 단어 줄기만 남깁니다. 예를 들어, “테스트” 또는 “테스트됨”을 검색하면 “테스트”라는 단어가 포함된 결과도 표시될 수 있습니다.
한글 형태소 분석은 몇 가지 주의할 점이 있습니다.
- 단어 수준에서 작동하므로, 문맥을 고려하지 않습니다. 따라서 동음이의어의 경우 정확한 분석이 어려울 수 있습니다.
- 한글은 복합명사를 자주 사용하는 언어입니다. 형태소 분석기는 이러한 복합명사를 분리하려고 시도하며, 때때로 이 과정에서 원래 의미가 손상될 수 있습니다. 기대한 것 보다 많은 검색 결과가 나올 수 있습니다.
- 고속도로 : “고속도로”이라는 단어와 “고속도로”의 형태소를 분석한 “고속”, “속도”, “도로” 라는 단어가 포함된 모든 데이터세트를 검색합니다. 기대한 것보다 많은 데이터셋이 검색되는 이유입니다. “고속도로 통행량” 과 같이 구체적인 검색어를 사용하는 것이 좋습니다.
고급 검색
쿼리에 콜론이 있으면 필드 검색으로 간주되며 Solr의 쿼리 구문이 검색에 사용됩니다. 이를 통해 와일드카드 “*”, 근접성 일치 “~” 및 Solr 문서에 설명된 일반 기능을 사용할 수 있습니다. 기본 구문은 field:term 입니다.
고급 검색 예:
title:european : 그러면 제목에 “유럽”이라는 단어가 포함된 모든 데이터세트가 검색됩니다.
title:europ* : 그러면 제목에 “europe” 및 “european”과 같이 “europ”으로 시작하는 단어가 포함된 모든 데이터세트가 검색됩니다.
__title:europe | title:africa__ : 제목에 “유럽” 또는 “아프리카”가 포함된 데이터 세트를 찾습니다. |
title: “european census” ~ 4 : 근접 검색은 서로 특정 거리 내에 있는 용어를 찾습니다. 이 예에서는 4 단어 거리 내에 제목에 “european” 및 “census”라는 단어가 포함된 데이터 세트를 찾습니다.
author:powell~ : CKAN은 Levenshtein Distance 또는 Edit Distance 알고리즘을 기반으로 퍼지 검색을 지원합니다. 퍼지 검색을 수행하려면 단일 단어 용어 끝에 “~” 기호를 사용하십시오. 이 예에서는 “jowell” 또는 “pomell”과 같은 단어도 찾을 수 있습니다.
정렬
검색 결과는 다음 다섯 가지 방법으로 정렬할 수 있습니다.
- 관련성
- 이름 오름차순
- 이름 내림차순
- 마지막으로 수정된 순서 (기본 값)
- 인기 순: 가장 많이 찾은 데이터셋부터 표시합니다.