Майте більше часу для відпочинку з бізнес-пошуковою системою

Що, якби ви могли миттєво знайти будь-що в терабайтах офісних файлів, архівах електронної пошти та навіть у форматах веб-даних? Що, якби ви могли шукати дані будь-де й розширити цю можливість пошуку для всіх своїх колег? Подумайте, скільки часу це заощадить вам. У цій статті описано процеси, які входять до пошукової системи підприємства, а потім надано деякі додаткові поради.

Індексований пошук для корпоративного пошуку

Ключ до миттєвого багатотерабайтного пошуку полягає в тому, щоб пошукова система спочатку створила пошуковий індекс. Пошук підприємства може включати індексований або неіндексований пошук. dtSearch®, наприклад, пропонує і те, і інше. Але незважаючи на те, що неіндексований пошук дозволяє запитувати дані без накладних витрат на пошуковий індекс, він набагато повільніший для багатокористувацького одночасного пошуку в терабайтах даних.

Отже, що відбувається в пошуковому індексі?

Покажчик — це лише внутрішній посібник пошукової системи, який зберігає кожне унікальне слово та номер, а також розташування кожного з них у даних. Для кінцевого користувача індексація проста; просто наведіть вказівник на папки та інше, щоб проіндексувати, а пошукова система зробить все інше.

Один індекс може містити до одного терабайта тексту, і немає обмежень щодо кількості індексів, які пошукова система може створювати та шукати одночасно.

Створення індексу вимагає багато ресурсів

Індексований пошук є ресурсозберігаючим. Немає обмежень на кількість одночасних потоків пошуку, які можуть запитувати той самий індекс у мережевому середовищі. В Інтернеті кожна пошукова нитка може працювати без збереження даних, що полегшує масштабування на зайнятому сайті.

Набори даних можуть продовжувати розвиватися

Наш приклад пошукової системи підтримує автоматичне оновлення всіх індексів за допомогою планувальника завдань Windows для внесення змін у файли, нових файлів і видалення файлів. Оновлення індексів не блокує пошук, тому індивідуальний і одночасний пошук може тривати навіть під час оновлення індексів.

Різні формати даних для дослідження підприємства

Зрештою, що робить корпоративний пошук таким корисним, це те, що один пошуковий запит може охоплювати багато різних форматів даних і різних сховищ даних. Ось як це працює.

Специфікація формату файлу

Щоб переглянути файл поза пошуковою системою, ви зазвичай перевіряєте цей файл у його рідній програмі, наприклад, переглядаєте документ Word у Microsoft Word, електронний лист у Outlook тощо. Створення індексу в пошуковій системі

Це чудово підходить для відображення окремих файлів. Але щоб пошукова система могла ефективно будувати свій індекс на терабайтах даних, їй потрібен інший підхід. Цей підхід полягає у відображенні кожного файлу в його двійковому форматі, повністю минаючи підхід рідної програми.

Проблема полягає в тому, що коли ви дивитесь на більшість файлів "Office" та інших файлів у двійковому форматі, вони виглядають як солянка двійкового коду. Основний текст може варіюватися від важко читаного до абсолютно непроникливого. Ефективне фільтрування тексту вимагає застосування специфікації формату файлу.

Специфікація формату файлу

Специфікація формату файлу для форматів "Office" може складатися з сотень сторінок і відрізняється для різних типів файлів. Формат файлу Microsoft Word дуже відрізняється від формату Access, який, у свою чергу, сильно відрізняється від формату файлу для Excel, PowerPoint, OneNote, PDF, електронних листів, HTML, XML тощо. Тому правильне визначення формату кожного двійкового файлу є критичним.

Один із способів визначити це — використовувати розширення формату файлу: розширення .PDF вказуватиме на файл PDF, розширення .DOCX — на файл Microsoft Word тощо.

Не застосовуйте помилково розширення формату файлу

Однак дуже легко неправильно застосувати розширення формату файлу, зберегти PDF із розширенням .DOCX або зберегти документ Word із розширенням .PDF. Хоча несумісне розширення формату файлу може бути випадковим, воно також може бути результатом бажання приховати певний файл від огляду.

Надійний спосіб визначити...

Майте більше часу для відпочинку з бізнес-пошуковою системою

Що, якби ви могли миттєво знайти будь-що в терабайтах офісних файлів, архівах електронної пошти та навіть у форматах веб-даних? Що, якби ви могли шукати дані будь-де й розширити цю можливість пошуку для всіх своїх колег? Подумайте, скільки часу це заощадить вам. У цій статті описано процеси, які входять до пошукової системи підприємства, а потім надано деякі додаткові поради.

Індексований пошук для корпоративного пошуку

Ключ до миттєвого багатотерабайтного пошуку полягає в тому, щоб пошукова система спочатку створила пошуковий індекс. Пошук підприємства може включати індексований або неіндексований пошук. dtSearch®, наприклад, пропонує і те, і інше. Але незважаючи на те, що неіндексований пошук дозволяє запитувати дані без накладних витрат на пошуковий індекс, він набагато повільніший для багатокористувацького одночасного пошуку в терабайтах даних.

Отже, що відбувається в пошуковому індексі?

Покажчик — це лише внутрішній посібник пошукової системи, який зберігає кожне унікальне слово та номер, а також розташування кожного з них у даних. Для кінцевого користувача індексація проста; просто наведіть вказівник на папки та інше, щоб проіндексувати, а пошукова система зробить все інше.

Один індекс може містити до одного терабайта тексту, і немає обмежень щодо кількості індексів, які пошукова система може створювати та шукати одночасно.

Створення індексу вимагає багато ресурсів

Індексований пошук є ресурсозберігаючим. Немає обмежень на кількість одночасних потоків пошуку, які можуть запитувати той самий індекс у мережевому середовищі. В Інтернеті кожна пошукова нитка може працювати без збереження даних, що полегшує масштабування на зайнятому сайті.

Набори даних можуть продовжувати розвиватися

Наш приклад пошукової системи підтримує автоматичне оновлення всіх індексів за допомогою планувальника завдань Windows для внесення змін у файли, нових файлів і видалення файлів. Оновлення індексів не блокує пошук, тому індивідуальний і одночасний пошук може тривати навіть під час оновлення індексів.

Різні формати даних для дослідження підприємства

Зрештою, що робить корпоративний пошук таким корисним, це те, що один пошуковий запит може охоплювати багато різних форматів даних і різних сховищ даних. Ось як це працює.

Специфікація формату файлу

Щоб переглянути файл поза пошуковою системою, ви зазвичай перевіряєте цей файл у його рідній програмі, наприклад, переглядаєте документ Word у Microsoft Word, електронний лист у Outlook тощо. Створення індексу в пошуковій системі

Це чудово підходить для відображення окремих файлів. Але щоб пошукова система могла ефективно будувати свій індекс на терабайтах даних, їй потрібен інший підхід. Цей підхід полягає у відображенні кожного файлу в його двійковому форматі, повністю минаючи підхід рідної програми.

Проблема полягає в тому, що коли ви дивитесь на більшість файлів "Office" та інших файлів у двійковому форматі, вони виглядають як солянка двійкового коду. Основний текст може варіюватися від важко читаного до абсолютно непроникливого. Ефективне фільтрування тексту вимагає застосування специфікації формату файлу.

Специфікація формату файлу

Специфікація формату файлу для форматів "Office" може складатися з сотень сторінок і відрізняється для різних типів файлів. Формат файлу Microsoft Word дуже відрізняється від формату Access, який, у свою чергу, сильно відрізняється від формату файлу для Excel, PowerPoint, OneNote, PDF, електронних листів, HTML, XML тощо. Тому правильне визначення формату кожного двійкового файлу є критичним.

Один із способів визначити це — використовувати розширення формату файлу: розширення .PDF вказуватиме на файл PDF, розширення .DOCX — на файл Microsoft Word тощо.

Не застосовуйте помилково розширення формату файлу

Однак дуже легко неправильно застосувати розширення формату файлу, зберегти PDF із розширенням .DOCX або зберегти документ Word із розширенням .PDF. Хоча несумісне розширення формату файлу може бути випадковим, воно також може бути результатом бажання приховати певний файл від огляду.

Надійний спосіб визначити...

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow