На каком языке программирования написан Googlebot (или любой другой эффективный веб-краулер)?

Кто-нибудь знает, на каком языке программирования был написан Googlebot?

Или, в более общем плане, на каком языке написаны эффективные поисковые роботы?

Я видел много на языке Java, но мне кажется, что это не самый подходящий язык для разработки веб-краулера, потому что он создает слишком много накладных расходов (пробовал с веб-краулером Heritrix, и он очень тяжелый).


person Enrico Detoma    schedule 28.10.2009    source источник


Ответы (5)


Самая ранняя версия, Backrub, была написана на Python и Java.

person NickFitz    schedule 28.10.2009

Обоснованное предположение — это Python. Они нанимают его создателя. Однако я могу предположить, что их поисковый робот, вероятно, представляет собой распределенное приложение, использующее преимущества MapReduce, в котором случае это может быть приложение C/C++.

Впрочем, это не главное. Вы можете написать эффективный веб-краулер на разных языках и получить тот же результат. Молоток все равно ударит по гвоздю, даже если это желтый или синий молоток. Выберите свой любимый цвет и используйте его правильно.

person Mike Atlas    schedule 28.10.2009

Это может помочь. Оригинал Гугл Пейпер.

http://infolab.stanford.edu/~backrub/google.html

person Thomas Cox    schedule 11.05.2012

Не знаю о GoogleBot (скорее всего, C или Python), но есть несколько хороших роботов как для Java, так и для .NET.

Одним из наиболее популярных вариантов с открытым исходным кодом является Nutch (часто используется с Lucene).

Сам Nutch пишет на Java и довольно эффективен. Существует также порт .NET под названием Nutch.NET.

person Justin Niessner    schedule 28.10.2009

Я не думаю, что язык будет иметь такое же значение, как конкретная реализация.

Какие накладные расходы вас беспокоят в Java? память, вычислительная мощность?

person Peter Recore    schedule 28.10.2009