Полнотекстовый поиск по файлам
От: The SochiX http://sochix.ru
Дата: 03.04.17 10:34
Оценка:
Здравствуйте, работаю в банке. Возникла проблема поиска по файлам.

Опишу по-подробнее:
Есть несколько виндовых шар с примерно миллионов документов в разных форматах (txt, pdf, doc, jpeg сканы).
Необходимо найти какую-то систему чтобы сотрудники могли легко находить информацию внутри этих файлов. Например: вводим Иванов и тут же получаем все файлы в которых встречается данная фамилия и небольшой контекст.
Скорость работы должна быть приемлема. Пробовал DtSearch но он умирает на наших объемах и в сканах не ищет.

Подскажите какие еще продукты есть?
полнотекстовый поиск
Re: Полнотекстовый поиск по файлам
От: DOOM Россия  
Дата: 03.04.17 12:03
Оценка:
Здравствуйте, The SochiX, Вы писали:

TS>Подскажите какие еще продукты есть?

Родной поиск в MS SharePoint умеет искать по файловым шарам.
Пример настройки: https://redmondmag.com/articles/2014/10/07/search-content-source-in-sharepoint.aspx
Re[2]: Полнотекстовый поиск по файлам
От: The SochiX http://sochix.ru
Дата: 03.04.17 12:13
Оценка:
Здравствуйте, DOOM, Вы писали:

DOO>Здравствуйте, The SochiX, Вы писали:


TS>>Подскажите какие еще продукты есть?

DOO>Родной поиск в MS SharePoint умеет искать по файловым шарам.
DOO>Пример настройки: https://redmondmag.com/articles/2014/10/07/search-content-source-in-sharepoint.aspx

Спасибо за совет, но хотелось бы что-нибудь проще и современнее. Также sharepoint не умеет искать по сканам.
Re: Полнотекстовый поиск по файлам
От: zubactik  
Дата: 03.04.17 12:19
Оценка:
готового решения не знаю, но может посмотреть на solr?
Re[3]: Полнотекстовый поиск по файлам
От: DOOM Россия  
Дата: 03.04.17 12:21
Оценка:
Здравствуйте, The SochiX, Вы писали:

TS>Спасибо за совет, но хотелось бы что-нибудь проще и современнее.

Современнее? SP и 16-го года есть...

TS>Также sharepoint не умеет искать по сканам.

Ну есть решение подружить его с OCR'ом от того же Abby, но нас в свое время не устроил процент ошибок распознавания.
Но OCR от Abby, естественно, стоит немало.
Re: Полнотекстовый поиск по файлам
От: Буравчик Россия  
Дата: 03.04.17 17:12
Оценка:
Здравствуйте, The SochiX, Вы писали:

TS>Подскажите какие еще продукты есть?


Архивариус 3000

Развивается, работает быстро, пользоваться удобно, знает много форматов, стоит недорого, российский разработчик
Best regards, Буравчик
Re[2]: Полнотекстовый поиск по файлам
От: The SochiX http://sochix.ru
Дата: 04.04.17 12:32
Оценка:
Здравствуйте, zubactik, Вы писали:

Z>готового решения не знаю, но может посмотреть на solr?


Спасибо за предложение.
Пробовал ElasticSearch, долго настраивать самому и сложно дружить с OCR. Из этого явно не получится сделать production решение, т.к. будет на коленке написано.
Re[4]: Полнотекстовый поиск по файлам
От: The SochiX http://sochix.ru
Дата: 04.04.17 12:33
Оценка:
Здравствуйте, DOOM, Вы писали:

DOO>Здравствуйте, The SochiX, Вы писали:


TS>>Спасибо за совет, но хотелось бы что-нибудь проще и современнее.

DOO>Современнее? SP и 16-го года есть...

TS>>Также sharepoint не умеет искать по сканам.

DOO>Ну есть решение подружить его с OCR'ом от того же Abby, но нас в свое время не устроил процент ошибок распознавания.
DOO>Но OCR от Abby, естественно, стоит немало.

Как OCR для меня подошел Tesseract. Благо он бесплатный, процент ошибок не критичен для моих задач. Но вот подружить его с системой поиска оказалось нетривиально.
Re[2]: Полнотекстовый поиск по файлам
От: The SochiX http://sochix.ru
Дата: 04.04.17 12:37
Оценка:
Здравствуйте, Буравчик, Вы писали:

Б>Здравствуйте, The SochiX, Вы писали:


TS>>Подскажите какие еще продукты есть?


Б>Архивариус 3000


Б>Развивается, работает быстро, пользоваться удобно, знает много форматов, стоит недорого, российский разработчик


Нет OCR, по-ощущениям медленнее DtSearch
Re[3]: Полнотекстовый поиск по файлам
От: zubactik  
Дата: 04.04.17 13:11
Оценка:
У меня в таком случае есть внутренняя убежденность, что любой кто будет говрить что у него есть готове такое решение/продукт — жестко будет вас обманывать. Это мой скромный опыт общения с "экспертами" по поиску, которые продвигают очередные "революционные" решения.

В этой части без боли пока никак( Возьмите конса. Думаю за 100-200 тр он сможет настроить если имеет правильный опыт. Дешевле чем многие лицензии выйдет.
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.