Перейти к содержанию

Tika

ℹ️ Доступен, начиная с версии 2.260 Пегас

Сервис используется для интеграции с инструментом Apache Tika  --- он позволяет автоматически определять тип документа, его язык и содержимое.

Сервис необходим для корректной работы задания по таймеру TikaJob, благодаря которому обеспечивается поиск по файлам:

ℹ️ Перед добавлением сервиса предварительно необходимо создать его на странице Сервисы

Настройки сервиса:

Параметр Описание
Сервис В поле необходимо выбрать предварительно созданный сервис с типом Tika на странице Сервисы
API Url Адрес API для подключения
Разрешенные типы файлов (через запятую) Список разрешенных файловых форматов: pdf, doc, docx, xls, xlsx, ppt, pptx, txt, xml, html, eml, sql, pgsql, json, md. Значения задаются через запятую без пробелов. Файлы с расширениями .md и .txt обрабатываются без обращения к Tika: их содержимое читается напрямую с автоматическим определением кодировки.
Максимальный размер обрабатываемого файла (в Килобайтах) Рекомендуемое значение: 50000
Максимум параллельных запросов к Tika Рекомендуемое значение: 10
Разрешенные языки для распознавания (например rus+eng+fre+ger+ita+spa+uzb) По умолчанию используются следующие языки: English, French, German, Italian, Spanish, Uzbek.

Для указания дополнительных языков для распознавания необходимо взять первые 3 буквы языка в англоязычном виде и перечислить их через "+": rus+eng После добавления сервиса его необходимо включить. Для этого выберите сервис в общих настройках приложения (пункт "Tika Service").

ℹ️ Перед удалением сервиса обязательно необходимо предварительно удалить его в общих настройках приложения (пункт "Tika Service")

Описание сервиса в прежнем интерфейсе администрирования