Здравствуйте, работаю в банке. Возникла проблема поиска по файлам.
Опишу по-подробнее:
Есть несколько виндовых шар с примерно миллионов документов в разных форматах (txt, pdf, doc, jpeg сканы).
Необходимо найти какую-то систему чтобы сотрудники могли легко находить информацию внутри этих файлов. Например: вводим Иванов и тут же получаем все файлы в которых встречается данная фамилия и небольшой контекст.
Скорость работы должна быть приемлема. Пробовал DtSearch но он умирает на наших объемах и в сканах не ищет.
Здравствуйте, The SochiX, Вы писали:
TS>Спасибо за совет, но хотелось бы что-нибудь проще и современнее.
Современнее? SP и 16-го года есть...
TS>Также sharepoint не умеет искать по сканам.
Ну есть решение подружить его с OCR'ом от того же Abby, но нас в свое время не устроил процент ошибок распознавания.
Но OCR от Abby, естественно, стоит немало.
Здравствуйте, zubactik, Вы писали:
Z>готового решения не знаю, но может посмотреть на solr?
Спасибо за предложение.
Пробовал ElasticSearch, долго настраивать самому и сложно дружить с OCR. Из этого явно не получится сделать production решение, т.к. будет на коленке написано.
Здравствуйте, DOOM, Вы писали:
DOO>Здравствуйте, The SochiX, Вы писали:
TS>>Спасибо за совет, но хотелось бы что-нибудь проще и современнее. DOO>Современнее? SP и 16-го года есть...
TS>>Также sharepoint не умеет искать по сканам. DOO>Ну есть решение подружить его с OCR'ом от того же Abby, но нас в свое время не устроил процент ошибок распознавания. DOO>Но OCR от Abby, естественно, стоит немало.
Как OCR для меня подошел Tesseract. Благо он бесплатный, процент ошибок не критичен для моих задач. Но вот подружить его с системой поиска оказалось нетривиально.
Здравствуйте, Буравчик, Вы писали:
Б>Здравствуйте, The SochiX, Вы писали:
TS>>Подскажите какие еще продукты есть?
Б>Архивариус 3000
Б>Развивается, работает быстро, пользоваться удобно, знает много форматов, стоит недорого, российский разработчик
У меня в таком случае есть внутренняя убежденность, что любой кто будет говрить что у него есть готове такое решение/продукт — жестко будет вас обманывать. Это мой скромный опыт общения с "экспертами" по поиску, которые продвигают очередные "революционные" решения.
В этой части без боли пока никак( Возьмите конса. Думаю за 100-200 тр он сможет настроить если имеет правильный опыт. Дешевле чем многие лицензии выйдет.