Google применил технологии Deep Learning для борьбы с поисковым спамом |
27.09.2014 19:55 | ||||||
18 сентября был опубликован патент Google на классификацию поискового спама «Классификация ресурсов с использованием самообучающейся сети» (Classifying Resources Using a Deep Network ). Об этом сообщает SEO-эксперт Билл Славски (Bill Slawski). Запатентованная технология была изобретена разработчиками компании Цинчжоу Ван (Qingzhou Wang), Ю Лян(Yu Liang), Ке Ян (Ke Yang) и Кай Чэнь (Kai Chen). Последние несколько лет лидер поиска был занят построением самообучающейся сети, известной как Google Brain. Google Brain – неофициальное название исследовательского проекта Google, посвященного глубокому обучению (Deep Learning). В рамках этого проекта исследователи компании смогли создать примерную модель работы нейронов головного мозга – «нейрональную» самообучающуюся сеть, соединив 16,000 процессоров и подключив её к сети Интернет. Полученная система сумела самостоятельно обучиться распознавать образ котов. Теперь компания использует эти технологии для идентификации поискового спама, что нашло выражение в разработке патента на его классификацию. Патент описывает методы, которые включают:
«Предопределенный набор категорий» может включать категорию спама поисковых систем. Оценка категории (category score) для ресурса измеряет предсказанную вероятность, что ресурс является поисковым спамом. Предопределенный набор категорий может включать в себя соответствующую категорию для каждого из множества типов поискового спама. Оценки категорий могут быть использованы для:
Самообучающаяся сеть может быть эффективно использована для классификации ресурсов в категории. Например, ресурсы могут быть классифицированы как являющиеся или не являющиеся спамом, как являющиеся одним из нескольких видов спама или как один из двух и больше типов ресурсов. «Использование самообучающейся сети для классификации ресурсов по категориям может привести к тому, что поисковые системы будут способны лучше удовлетворить информационные потребности пользователей путем эффективного определения поискового спама и воздержания от предоставления поисковых результатов, определяющих такие ресурсы, пользователям. Или же они смогут предоставить поисковые результаты, которые идентифицируют ресурсы, принадлежащие к категориям, лучше соответствующим информационным потребностям пользователя» - поясняют разработчики в патенте. Согласно патенту, эта система классификации ресурсов может типизировать ресурсы как «поисковый спам или не поисковый спам». Она не определяет детали веб-спама, но говорит о том, что может выделить его типичные виды, такие как:
Ресурсы на страницах сайта могут включать слова из контента сайта в символьной форме; URL-ы сайта; его тайтл; имя домена; категории или типы объектов, относящиеся к сайту; его возраст. Каждая из этих характеристик может быть использована для расчета вероятности того, что сайт является спам-ресурсом, и определения, индексировать его или понижать в выдаче. Патент не предоставляет деталей относительно обучения и классификации характеристик в рамках модели машинного обучения, но ссылается на документ, который дает эту информацию: Large Scale Distributed Deep Networks. Слив-этикетка - этикетка из рукавной полимерной пленки, которая под воздействием высокой температуры усаживается и плотно облегает продукт. Этот уникальный дизай [ ... ] В современном цифровом мире, где информация распространяется мгновенно, репутация компании или бренда играет решающую роль в привлечении клиентов и обеспечении д [ ... ] При создании любого проекта, будь то сайт, рекламный баннер или социальные медиа, важным аспектом является визуальная составляющая. Стоковые фотографии становятс [ ... ]
|