Как сделать два поисковика

Как сделать
Содержание
  1. CSE или как за 5 минут сделать собственный поисковик, работающий на технологии Google
  2. Поисковые технологии или в чем загвоздка написать свой поисковик
  3. Секретные опции Google и «Яндекса». Как профессионально искать информацию в Сети
  4. Любой пользователь Сети наверняка считает себя профи по поиску в «Гугле» и «Яндексе». А что тут уметь? Вбил пару слов в поисковую строку, нажал Enter — и готово. Во всяком случае, многие привыкли думать, что работает это именно так. На деле же к искомым статьям часто приходится продираться сквозь десятки ссылок. Но есть ряд секретных опций, которые позволяют работать с «Гуглом» и «Яндексом» эффективнее.
  5. Поиск на сайте своими руками
  6. Принцип работы
  7. Подготовка
  8. Морфологический анализатор
  9. Механизм ранжирования на уровне морфологии
  10. Индексирование содержимого сайта
  11. Хранение индексированных данных
  12. Benchmark
  13. Реализация поиска
  14. Реализация поиска на примере интернет-магазина
  15. Заключение

CSE или как за 5 минут сделать собственный поисковик, работающий на технологии Google

Вместо предисловия: обращаю Ваше внимание, что это сможет сделать и ребенок 😉

Компания Google всегда радовала пользователей изобилием качественных сервисов и услуг. Если уж Google что-то предлагает – значит это нужно. Думаю к этому уже все привыкли.

Я хочу рассказать Вам о сервисе под названием CSE — Custom Search Engine. Но дает Вам возможность буквально за считанные минуты создать свою собственную специализированную поисковую систему.

Цель сервиса такая же, как и основная цель Google – наиболее быстро предоставить пользователю нужную ему информацию. И на этот раз способ достижения этой цели буквально гениален и, как и все гениальное, — чрезвычайно прост 🙂

Google предполагает, что каждый пользователь в Интернете обладает определенным набором знаний и профессиональных навычек в интересующей его (пользователя) области. Он (пользователь) уже не раз искал информацию об этом в интернете, перебирал множество результатов в выдаче поисковиков и знает многие качественные ресурсы именно по этой тематике. Так почему бы не дать ему возможность организовать поиск по этим (качественным) ресурсам?!

Именно это предлагает сделать сервис CSE.
Вы создаете поисковую систему, работающую по технологии Google. Это как поиск по Вашему сайту, только он (поиск) осуществляется по всем сайтам, которые Вы включили в свой список. Таким образом интернет-общественность получает полноценный поисковик, но поисковик этот не выдает в результатах запроса сайты, не имеющие к запросу никакого отношения или некачественные (по Вашему мнению) сайты, или дорвеи.
Написано, конечно, немного заумно… Для наглядности приведу два примера:
• Progler.ru — Поисковая система для программиста (http://progler.ru)
Progler.Ru осуществляет поиск по сайтам посвященным программированию, что позволяет более конкретно и быстро отвечать на запросы.
• DNSE.RU – Поисковая система для домейнера (Domain Name
Осуществляет поиск по самым известным доменным ресурсам (форумы, блоги, новости, официальные сайты) (http://dnse.ru/). Это мой собственный. А вот английская версия: dncheetah.com

Напоследок скажу, что работают такие поисковики отменно. Быстро и качественно, не выдавая в результаты лишнего.

Ну и тем, кто решил создать свою поисковую систему. Сделать это (а точнее — оформить) двумя способами:
1. С выдачей результатов в Google (пример: www.google.ru/coop/cse?cx=008870169635117920385%3Agrw1u_tlpii&hl=ru)
2. С выдачей результатов на страницу Вашего сайта.

Оба варианта предполагают возможность установки формы для запроса на Вашем сайте.

Вот вроде бы и все, что я хотел рассказать.

Предварительно зарегистрируйте себе почтовый ящик на gmail.com, войдите с его помощью в свой аккаунт и для старта идите сюда: www.google.ru/coop/cse/overview?hl=ru
Затем заполните несколько простых полей (название, описание, ключевые слова и, самое главное, — список сайтов для поиска) – ВСЕ!, поисковик готов! Если Вы еще и обладаете минимальными знаниями html – нет ничего проще перенести этот поисковик на Ваш собственный домен, или вставить форму запроса в свой сайт!
Если будут вопросы – не стесняясь задавайте их тут: idnf.ru/showthread.php?t=904 (регистрироваться не обязательно).

Всем успехов в начинаниях!

Источник

Поисковые технологии или в чем загвоздка написать свой поисковик

Когда-то давно взбрела мне в голову идея: написать свой собственный поисковик. Было это очень давно, тогда я еще учился в ВУЗе, мало чего знал про технологии разработки больших проектов, зато отлично владел парой десятков языков программирования и протоколов, да и сайтов своих к тому времени было понаделано много.

Ну есть у меня тяга к монструозным проектам, да…

В то время про то, как они работают было известно мало. Статьи на английском и очень скудные. Некоторые мои знакомые, которые были тогда в курсе моих поисков, на основе нарытых и мной и ими документов и идей, в том числе тех, которые родились в процессе наших споров, сейчас делают неплохие курсы, придумывают новые технологии поиска, в общем, эта тема дала развитие довольно интересным работам. Эти работы привели в том числе к новым разработкам разных крупных компаний, в том числе Google, но я лично прямого отношения к этому не имею.

На данный момент у меня есть собственный, обучающийся поисковик от и до, со многими нюансами – подсчетом PR, сбором статистик-тематик, обучающейся функцией ранжирования, ноу хау в виде отрезания несущественного контента страницы типа меню и рекламы. Скорость индексации примерно полмиллиона страниц в сутки. Все это крутится на двух моих домашних серверах, и в данный момент я занимаюсь масштабированием системы на примерно 5 свободных серверов, к которым у меня есть доступ.

Здесь я в первый раз, публично, опишу то, что было сделано лично мной. Думаю, многим будет интересно как же работают Яндекс, Google и почти все мне известные поисковики изнутри.

Читайте также:  Как сделать дизельную печь

Есть много задач при построении таких систем, которые почти нереально решить в общем случае, однако с помощью некоторых ухищрений, придумок и хорошего понимания как работает железячная часть Вашего компьютера можно серьезно упростить. Как пример – пересчет PR, который в случае нескольких десятков миллионов страниц уже невозможно поместить в самой большой оперативной памяти, особенно если Вы, как и я, жадны до информации, и хотите кроме 1 цифры хранить еще много полезностей. Другая задача – хранение и обновление индекса, как минимум двумерной базы данных, в которой конкретному слову сопоставляется список документов, на которых оно встречается.

Просто вдумайтесь, Google хранит, по одной из оценок, более 500 миллиардов страниц в индексе. Если бы каждое слово встречалось на 1 странице только 1 раз, и на хранение этого надо было 1 байт – что невозможно, т.к. надо хранить хотя бы id страницы – уже от 4 байт, так вот тогда объем индекса бы был 500гб. В реальности одно слово встречается на странице в среднем до 10 раз, объем информации на вхождение редко когда меньше 30-50 байт, весь индекс увеличивается в тысячи раз… Ну и как прикажите это хранить? А обновлять?

Ну вот, как это все устроено и работает, я буду рассказывать планомерно, так же как и про то как считать PR быстро и инкрементально, про то как хранить миллионы и миллиарды текстов страниц, их адреса и быстро искать по адресам, как организованы разные части моей базы данных, как инкрементально обновлять индекс на много сотен гигов, ну и наверное расскажу как сделать обучающийся алгоритм ранжирования.

На сегодня объем только индекса, по которому происходит поиск — 57Gb, увеличивается каждый день примерно на 1Gb. Объем сжатых текстов – 25Gb, ну и я храню кучу другой полезной инфы, объем которой очень трудно посчитать из-за ее обилия.

Источник

Секретные опции Google и «Яндекса». Как профессионально искать информацию в Сети

» src=»https://static.life.ru/posts/2019/08/1237565/93aba6b28b0f6ce4853fac3ccb22e47a.jpg» loading=»lazy» style=»width:100%;height:100%;object-fit:cover»/>

Любой пользователь Сети наверняка считает себя профи по поиску в «Гугле» и «Яндексе». А что тут уметь? Вбил пару слов в поисковую строку, нажал Enter — и готово. Во всяком случае, многие привыкли думать, что работает это именно так. На деле же к искомым статьям часто приходится продираться сквозь десятки ссылок. Но есть ряд секретных опций, которые позволяют работать с «Гуглом» и «Яндексом» эффективнее.

Лайфхаки эти называются уточняющими командами, или знаками-операторами. Они бывают документарными и бездокументарными. Многие из них в «Гугле» и «Яндексе» перекликаются. Но есть у каждой из систем и уникальные функции. Рассказываем о самых полезных и неочевидных.

Слова только нужной формы («Яндекс»)

По умолчанию «Яндексу» плевать на склонения, падежи и спряжения. Если запрос содержит глагол «делать», в выдаче наверняка появятся статьи и с другими формами слова: «делал», «сделал», «делает» и не только.

Запросы только с нужными словами («Гугл»+»Яндекс»)

Если запрос состоит из двух, трёх и больше слов, в первых строках выдачи «Яндекс» любезно предложит ссылки на документы с каждым из них. Однако дальше он может начать выпендриваться и предлагать страницы, где есть либо одно, либо другое.

Проблему решить просто: перед каждым искомым словом нужно поставить «+». Пример запроса: +телефон +nfc +купить.

Поиск по соцсетям (Google)

Бывает, нужно найти что-либо именно в рамках экосистемы той или иной соцсети. Google в этом вопросе — лучший помощник.

Потребуется оператор @. Вводим сначала его, а следом — название соцсети. Так, как оно прописано в адресе сайта. В случае со «ВКонтакте» — vk, в случае с Twitter — twitter, Facebook — facebook. А дальше нужные слова. Пример запроса: @vk смешные кошки.

Ищем статьи по конкретным запросам («Яндекс»+»Гугл»)

Другим минусом многословных запросов является то, что «Яндекс» и «Гугл» не всегда показывают результаты, в которых нужные три слова идут подряд, как просит пользователь. Цифровые ищейки зачастую предлагают документы, в которых одно слово — в одном предложении, другое — в другом, третье — в третьем. В общем, тасуют их как хотят.

Можно приструнить. Стоит только свой запрос из нескольких слов взять в английские кавычки («), и поисковики покажут, что от них требуются. П ример запроса: «я вчера купил смартфон».

Поиск по любым файлам («Яндекс»+»Гугл»)

«Гугл» и «Яндекс» поддерживают поиск файлов с заданным расширением. Настоящая палочка-выручалочка в случаях, когда, например, нужно найти инструкцию по эксплуатации к старому холодильнику, стиральной машине или любой другой бытовой технике.

В «Гугле» нужна команда filetype:. Вводить после слов запроса. Пример запроса: RSM 601 filetype:pdf. В данном случае RSM 601 — это модельный номер стиральной машины Hotpoint-Ariston. У «Яндекса» схема та же, только нужна команда mime:.

Учим поисковики игнорировать слова («Яндекс»+»Гугл»)

«Яндекс» и «Гугл» можно заставить игнорировать в выдаче конкретные слова. Например, если пользователь ищет любой iPhone, только не чёрный, поисковик всё равно будет предлагать и чёрный смартфон тоже. Даже если в запросе не окажется слова «чёрный».

Избавиться от такой навязчивости несложно. Просто прописываем в запросе слово, которое нужно проигнорировать, и добавляем перед ним знак «–». Пример запроса: купить iPhone –чёрный.

Ищем определения в два клика (Google)

Бывают случаи, когда нужно сразу найти определение незнакомого слова, а поисковики откидывают ссылку на словарь или энциклопедию подальше. Есть выход. C помощью специального заклинания можно заставить Google показывать документы сразу из авторитетных источников вроде «Википедии».

Читайте также:  Как сделать сову оригами видео

В данном случае пригодится команда define:. Вводим её, а следом без пробелов искомое слово. Пример запроса: define:мисофония.

Фильтруем статьи по заголовкам («Яндекс»)

Нередко «Яндекс» разбивает элементы сложного запроса по разным частям выдачи: одно слово идёт в заголовок, другие два — в тело статьи. Если же нужно сосредоточить внимание поисковика только на заголовках, пригодится команда title:.

Пример запроса: title:причёска Трампа.

Сортируем результаты выдачи по времени публикации (Google)

«Гугл», как и «Яндекс», умеет искать документы в рамках заданного промежутка времени. Однако только в американском поисковике можно обойтись без выставления дополнительных настроек.

Просто пишем нужные слова, затем команду date: и число от одного до двенадцати. Цифры, как несложно догадаться, обозначают месяц. Пример запроса: Huawei Лайф date:5. Так Google покажет все соответствующие запросу статьи за последние пять месяцев.

«Гугл» и «Яндекс» знают сайты лучше, чем их создатели («Гугл»+»Яндекс»)

Внутренние поисковики сайтов почти всегда работают хуже, чем «Яндекс» или «Гугл». Если эффективность внутренних цифровых ищеек не устраивает, впору воспользоваться мощностями технологических гигантов.

Для этого задаём команду site:, за ней пишем адрес сайта и через пробел нужное слово или словосочетание. В выдаче появятся ссылки только на страницы указанного сайта. Пример запроса: site:life.ru смартфоны Huawei.

Узнаём всё о любом фильме в два клика (Google)

Занятно, но у «Гугла» предусмотрена и специальная команда для поиска информации о фильмах. Не знаем, кому и для чего она потребовалась, но раз есть, давайте ею пользоваться.

Команда называется movie:. Вводим её, а затем без пробела название искомой картины. Пример запроса: movie:помпеи. Получаем исчерпывающую сводку об историческом фильме с Китом Харингтоном.

Источник

Поиск на сайте своими руками

Наверное, многие когда-нибудь задумывались, как сделать поиск на сайте? Безусловно, для крупных сайтов с большим количеством контента поиск является просто незаменимой вещью. В большинстве случаев пользователь, впервые посетив Ваш сайт в поисках чего-либо важного, не станет разбираться в навигационных панелях, выпадающих меню и прочих элементах навигации, а в спешке попытается найти что-нибудь похожее на поисковую строку. И если такой роскоши на сайте не окажется, либо он не справится с поисковым запросом, то посетитель просто закроет вкладку. Но статья не о значении поиска для сайта и не о психологии посетителей. Я расскажу, как реализовать небольшой алгоритм полнотекстового поиска, который, надеюсь, избавит начинающих разработчиков от головной боли.

У читателя может возникнуть вопрос: зачем писать все с нуля, если все уже давно написано? Да, у крупных поисковиков есть API, есть такие клевые проекты, как Sphinx и Apache Solr. Но у каждого из этих решений есть свои преимущества и недостатки. Пользуясь услугами поисковиков, типа Google и Яндекс, Вы получите множество плюшек, таких как мощный морфологический анализ, исправление опечаток и ошибок в запросе, распознавание неверной раскладки клавиатуры, однако без ложки дегтя тут не обойдется. Во первых, такой поиск не интегрируется в структуру сайта — он внешний, и Вы не сможете указать ему, какие данные наиболее важны, а какие не очень. Во вторых, содержимое сайта индексируется только с определенным интервалом, который зависит от выбранного поисковика, так что если на сайте что-нибудь обновится, придется дожидаться момента, когда эти изменения попадут в индекс и станут доступными в поиске. У Sphinx и Apache Solr дела с интеграцией и индексированием гораздо лучше, но не каждый хостинг позволит из запустить.

Ничто не мешает написать поисковый механизм самостоятельно. Предполагается, что сайт работает на PHP в связке с каким-нибудь сервером баз данных, например MySQL. Давайте сначала определимся, что требуется от поиска на сайте?

В конце статьи будет показан пример реализации поиска на примере простого интернет-магазина. Тем, кому лень все это изучать и просто нужен готовый поисковик, можно смело забирать движок из репозитория GitHub FireWind.

Принцип работы

Подготовка

Задача поставлена, теперь можно перейти к делу. Я использую Linux в качестве рабочей ОС, однако постараюсь не использовать ее экзотических возможностей, чтобы любители Windows смогли «собрать» поисковый движок по аналогии. Все, что Вам нужно — это знание основ PHP и умение обращаться с MySQL. Поехали!

Наш проект будет состоять из ядра, где будут собраны все жизненно необходимые функции, а также модуля морфологического анализа и обработки текста. Для начала создадим корневую папку проекта firewind, а в ней создадим файл core.php — он и будет ядром.

Теперь вооружаемся своим любимым текстовым редактором и подготавливаем каркас:

Тут мы создали основной класс, который можно будет использовать на Ваших сайтах. На этом подготовительная часть заканчивается, пора двигаться дальше.

Морфологический анализатор

Русский язык — довольно сложная штука, которая радует своим разнообразием и шокирует иностранцев конструкциями, типа «да нет, наверное». Научить машину понимать его, да и любой другой язык, — довольно непростая задача. Наиболее успешны в этом плане поисковые компании, типа Google и Яндекс, которые постоянно улучшают свои алгоритмы и держат их в секрете. Придется нам сделать что-то свое, попроще. К счастью, колесо изобретать не придется — все уже сделано за нас. Встречайте, phpMorphy — морфологический анализатор, поддерживающий русский, английский и немецкий языки. Более подробную информацию можно получить тут, однако нас интересуют только две его возможности: лемматизация, то есть получение базовой формы слова, и получение грамматической информации о слове (род, число, падеж, часть речи и т.д.).

Читайте также:  Как сделать душ в парной

Нужна библиотека и словарь для нее. Все это добро можно найти тут. Библиотека находится в одноименной папке «phpmorphy», словари расположены в «phpmorphy-dictionaries». Скачиваем последние версии в корневую папку проекта и распаковываем:

Отлично! Библиотека готова к использованию. Пришло время написать «оболочку», которая абстрагирует работу с phpMorphy. Для этого создадим еще один файл morphyus.php в корневой директории:

Пока реализовано только два метода. get_words разбивает текст на массив слов, фильтруя при этом HTML-теги и сущности типа » «. Метод lemmatize возвращает массив лемм слова, либо false, если таковых не нашлось.

Механизм ранжирования на уровне морфологии

Давайте остановимся на такой единице языка, как предложение. Наиболее важной частью предложения является основа в виде подлежащего и/или сказуемого. Чаще всего подлежащее выражается существительным, а сказуемое глаголом. Второстепенные члены в основном употребляются для уточнения смысла основы. В разных предложениях одни и те же части речи порой имеют совершенно разное значение, и наиболее точно оценить это значение в контексте текста сегодня может только человек. Однако программно оценить значение какого-либо слова все-таки можно, хоть и не так точно. При этом алгоритм ранжирования должен опираться на так называемый профиль текста, который определяется его автором. Профиль представляет из себя ассоциативный массив, ключами которого являются части речи, а значениями соответственно ранг (или вес) каждой из них. Пример профиля я покажу в заключении, а пока попробуем перевести эти размышления на язык PHP, добавив еще один метод к классу morphyus:

Индексирование содержимого сайта

Как уже говорилось выше, индексирование заметно ускоряет выполнение поискового запроса, так как поисковому движку не нужно обрабатывать контент каждый раз заново — поиск выполняется по индексу. Но что же все-таки происходит при индексировании? Если по порядку, то:

В результате получается объект следующего формата:

Пишем инициализатор и первый метод ядра поискового движка:

Теперь при добавлении или изменении данных в таблицах достаточно просто вызвать данную функцию, чтобы проиндексировать их, но это не обязательно: индексирование может быть и отложенным. Первым аргументом метода make_index является исходный текст, вторым — коэффициент значимости индексируемых данных. Ранг каждого слова, кстати, расчитывается по формуле:

Хранение индексированных данных

Очевидно, что индекс нужно где-нибудь хранить, да еще и привязать к исходным данным. Наиболее подходящим местом для них будет база данных. Если индексируется содержимое файлов, то можно создать отдельную таблицу в базе данных, которая будет содержать индекс название каждого файла, а для содержимого, которое уже хранится в базе, можно добавить еще одно поле типа в структуру таблиц. Такой подход позволит разделять типы содержимого при поиске, например, названия и описание статей в случае блога.

Нерешенным остался лишь вопрос формата индексированного содержимого, ведь make_index возвращает объект, и так просто в базу данных или файл его не запишешь. Можно использовать JSON и хранить его в полях типа LONGTEXT, можно BSON или CBOR, используя тип данных LONGBLOB. Два последних формата позволяют представлять данные в более компактном виде, чем первый.

Как говорится, «хозяин — барин», так-что решать, где и как все будет храниться, Вам.

Benchmark

Давайте проверим, что у нас получилось. Я взял текст своей любимой статьи «Темная материя интернета», а именно содержимое узла #content html_format и сохранил его в отдельный файл.

На моей машине с конфигурацией:
CPU: Intel Core i7-4510U @ 2.00GHz, 4M Cache
RAM: 2×4096 Mb
OS: Ubuntu 14.04.1 LTS, x64
PHP: 5.5.9-1ubuntu4.5

Индексирование заняло около секунды:

Думаю, вполне неплохой результат.

Реализация поиска

Остался последний и самый главный метод, метод поиска. В качестве первого аргумента метод принимает индекс поискового запроса, в качестве второго — индекс содержимого, в котором выполняется поиск. В результате выполнения возвращается суммарный ранг, рассчитанный на основе ранга найденных слов, либо 0, если ничего не нашлось. Это позволит сортировать поисковую выдачу.

Все! Поисковый движок готов к использованию. Но есть одно но… На самом деле это не джин-волшебник, и просто закинув его на свой сайт Вы не получите ничего. Его нужно интегрировать, причем этот процесс во многом зависит от архитектуры Вашего сайта. Рассмотрим этот процесс на примере небольшого интернет магазина.

Реализация поиска на примере интернет-магазина

Допустим, информация о продаваемой продукции хранится в таблице production:

А описание в таблице description:

Поле production.keywords будет содержать индекс ключевых слов продукта, description.index будет содержать индексированное описание. И все это будут храниться в формате JSON.

Вот пример функции добавления нового продукта:

Здесь поисковый механизм был интегрирован в функцию добавления нового продукта магазина. А теперь обработчик поисковых запросов:

Данный сценарий принимает поисковый запрос в виде GET-параметра query и выполняет поиск. В результате выводятся найденные продукты магазина.

Заключение

В статье был описан один из вариантов реализации поиска для сайта. Это самая первая его версия, поэтому буду только рад узнать Ваши замечания, мнения и пожелания. Присоединяйтесь к моему проекту на Github: https://github.com/axilirator/firewind. В планах добавить туда еще кучу всяких возможностей, вроде кэширования поисковых запросов, подсказок при вводе поискового запроса и алгоритма побуквенного сравнения, который поможет бороться с опечатками.

Всем спасибо за внимание, ну и с днем информационной безопасности!

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.

Источник

Adblock
detector