Документация по PostgreSQL 9.4.1 | |||
---|---|---|---|
Пред. | Уровень выше | Глава 12. Полнотекстовый поиск | След. |
12.8. Тестирование и отладка текстового поиска
Поведение нестандартной конфигурации текстового поиска по мере её усложнения может стать непонятным. В этом разделе описаны функции, полезные для тестирования объектов текстового поиска. Вы можете тестировать конфигурацию как целиком, так и по частям, отлаживая анализаторы и словари по отдельности.
12.8.1. Тестирование конфигурации
Созданную конфигурацию текстового поиска можно легко протестировать с помощью функции ts_debug
.
ts_debug([конфигурация regconfig,] документ text,
OUT псевдоним text,
OUT описание text,
OUT фрагмент text,
OUT словари regdictionary[],
OUT словарь regdictionary,
OUT лексемы text[])
returns setof record
ts_debug
выводит информацию обо всех фрагментах данного документа, которые были выданы анализатором и обработаны настроенными словарями. Она использует конфигурацию, указанную в аргументе config, или default_text_search_config, если этот аргумент опущен.
ts_debug
возвращает по одной строке для каждого фрагмента, найденного в тексте анализатором. Эта строка содержит следующие колонки:
синоним text — краткое имя типа фрагмента
описание text — описание типа фрагмента
фрагмент text — текст фрагмента
словари regdictionary[] — словари, назначенные в конфигурации для фрагментов такого типа
словарь regdictionary — словарь, распознавший этот фрагмент, или NULL, если подходящего словаря не нашлось
лексемы text[] — лексемы, выданные словарём, распознавшим фрагмент, или NULL, если подходящий словарь не нашёлся; может быть также пустым массивом ({}), если фрагмент распознан как стоп-слово
Простой пример:
SELECT * FROM ts_debug('english', 'a fat cat sat on a mat - it ate a fat rats'); alias | description | token| dictionaries | dictionary |lexemes ----------+----------------+------+---------------+-------------+------- asciiword| Word, all ASCII| a | {english_stem}| english_stem| {} blank | Space symbols | | {} | | asciiword| Word, all ASCII| fat | {english_stem}| english_stem| {fat} blank | Space symbols | | {} | | asciiword| Word, all ASCII| cat | {english_stem}| english_stem| {cat} blank | Space symbols | | {} | | asciiword| Word, all ASCII| sat | {english_stem}| english_stem| {sat} blank | Space symbols | | {} | | asciiword| Word, all ASCII| on | {english_stem}| english_stem| {} blank | Space symbols | | {} | | asciiword| Word, all ASCII| a | {english_stem}| english_stem| {} blank | Space symbols | | {} | | asciiword| Word, all ASCII| mat | {english_stem}| english_stem| {mat} blank | Space symbols | | {} | | blank | Space symbols | - | {} | | asciiword| Word, all ASCII| it | {english_stem}| english_stem| {} blank | Space symbols | | {} | | asciiword| Word, all ASCII| ate | {english_stem}| english_stem| {ate} blank | Space symbols | | {} | | asciiword| Word, all ASCII| a | {english_stem}| english_stem| {} blank | Space symbols | | {} | | asciiword| Word, all ASCII| fat | {english_stem}| english_stem| {fat} blank | Space symbols | | {} | | asciiword| Word, all ASCII| rats | {english_stem}| english_stem| {rat}
Для более полной демонстрации мы сначала создадим конфигурацию public.english и словарь Ispell для английского языка:
CREATE TEXT SEARCH CONFIGURATION public.english ( COPY = pg_catalog.english ); CREATE TEXT SEARCH DICTIONARY english_ispell ( TEMPLATE = ispell, DictFile = english, AffFile = english, StopWords = english ); ALTER TEXT SEARCH CONFIGURATION public.english ALTER MAPPING FOR asciiword WITH english_ispell, english_stem;
SELECT * FROM ts_debug('public.english','The Brightest supernovaes'); alias | description | token | dictionaries |dictionary| lexemes ---------+-------------+-----------+----------- ---+----------+----------- asciiword|Word, |The |{english_ispell|english_ |{} | all ASCII | |,english_stem} |ispell | blank |Space symbols| |{} | | | | | | | asciiword|Word, |Brightest |{english_ispell|english_ |{bright} |all ASCII | |,english_stem} |ispell | blank |Space symbols| | {} | | | | | | | asciiword|Word, |supernovaes|{english_ispell|english_ |{supernova} |all ASCII | |,english_stem} |stem |
В этом примере слово Brightest было воспринято анализатором как фрагмент ASCII word (синоним asciiword). Для этого типа фрагментов список словарей включает english_ispell и english_stem. Данное слово было распознано словарём english_ispell, который свёл его к bright. Слово supernovaes оказалось незнакомо словарю english_ispell, так что оно было передано следующему словарю, который его благополучно распознал (на самом деле english_stem — это стеммер Snowball, который распознаёт всё, поэтому он включён в список словарей последним).
Слово The было распознано словарём english_ispell как стоп-слово (см. Подраздел 12.6.1) и поэтому не будет индексироваться. Пробелы тоже отбрасываются, так как в данной конфигурации для них нет словарей.
Вы можете уменьшить ширину вывода, явно перечислив только те колонки, которые вы хотите видеть:
SELECT alias, token, dictionary, lexemes FROM ts_debug('public.english','The Brightest supernovaes'); alias | token | dictionary | lexemes -----------+-------------+----------------+------------- asciiword | The | english_ispell | {} blank | | | asciiword | Brightest | english_ispell | {bright} blank | | | asciiword | supernovaes | english_stem | {supernova}
12.8.2. Тестирование анализатора
Следующие функции позволяют непосредственно протестировать анализатор текстового поиска.
ts_parse(имя_анализатора text, документ text, OUT код_фрагмента integer, OUT фрагмент text) returns setof record ts_parse(oid_анализатора oid, документ text, OUT код_фрагмента integer, OUT фрагмент text) returns setof record
ts_parse
разбирает данный документ и возвращает набор записей, по одной для каждого извлечённого фрагмента. Каждая запись содержит код_фрагмента, код назначенного типа фрагмента, и фрагмент, собственно текст фрагмента. Например:
SELECT * FROM ts_parse('default', '123 - a number'); tokid | token -------+-------- 22 | 123 12 | 12 | - 1 | a 12 | 1 | number
ts_token_type(имя_анализатора text, OUT код_фрагмента integer, OUT псевдоним text, OUT описание text) returns setof record ts_token_type(oid_анализатора oid, OUT код_фрагмента integer, OUT псевдоним text, OUT описание text) returns setof record
ts_token_type
возвращает таблицу, описывающую все типы фрагментов, которые может распознать анализатор. Для каждого типа в этой таблице указывается его целочисленный код_фрагмента, псевдоним , с которым этот тип фигурирует в командах, и краткое description. Например:
SELECT * FROM ts_token_type('default'); tokid | alias | description -------+-----------------+------------------------------------------ 1 | asciiword | Word, all ASCII 2 | word | Word, all letters 3 | numword | Word, letters and digits 4 | email | Email address 5 | url | URL 6 | host | Host 7 | sfloat | Scientific notation 8 | version | Version number 9 | hword_numpart | Hyphenated word part, letters and digits 10 | hword_part | Hyphenated word part, all letters 11 | hword_asciipart | Hyphenated word part, all ASCII 12 | blank | Space symbols 13 | tag | XML tag 14 | protocol | Protocol head 15 | numhword | Hyphenated word, letters and digits 16 | asciihword | Hyphenated word, all ASCII 17 | hword | Hyphenated word, all letters 18 | url_path | URL path 19 | file | File or path name 20 | float | Decimal notation 21 | int | Signed integer 22 | uint | Unsigned integer 23 | entity | XML entity
12.8.3. Тестирование словаря
Для тестирования словаря предназначена функция ts_lexize
.
ts_lexize(словарь regdictionary, фрагмент text) returns text[]
ts_lexize
возвращает массив лексем, если входной фрагмент известен словарю, либо пустой массив, если этот фрагмент считается в словаре стоп-словом, либо NULL, если он не был распознан.
Примеры:
SELECT ts_lexize('english_stem', 'stars'); ts_lexize ----------- {star} SELECT ts_lexize('english_stem', 'a'); ts_lexize ----------- {}
Замечание: Функция
ts_lexize
принимает одиночный фрагмент, а не просто текст. Вот пример возможного заблуждения:SELECT ts_lexize('thesaurus_astro','supernovae stars') is null; ?column? ---------- tХотя фраза supernovae stars есть в тезаурусе thesaurus_astro,
ts_lexize
не работает, так как она не разбирает входной текст, а воспринимает его как один фрагмент. Поэтому для проверки тезаурусов следует использовать функцииplainto_tsquery
иto_tsvector
, например:SELECT plainto_tsquery('supernovae stars'); plainto_tsquery ----------------- 'sn'
Пред. | Начало | След. |
Пример конфигурации | Уровень выше | Типы индексов GiST и GIN |