Новый алгоритм обучения напугал пользователей Facebook

Посетители HN и Reddit активно обсуждают усовершенствование механизма машинного обучения на Facebook. Многие опытные разработчики были поставлены в тупик тем, как Facebook удается распознавать некоторые факты, которые он не в состоянии узнать.

На данный момент наиболее актуальной темой являются географические подсказки, выводимые Facebook при загрузке фотоснимков в аккаунт. Во многих случаях он точно указывает название улицы и даже номер дома, где был сделан снимок. И это несмотря на то, что использовалась камера без GPS, EXIF-данные отсутствуют, гео-тэггинг не в счет, так как фото загружается из другого места, а съемка зачастую велась в помещении (например, в ночном клубе на смазанном фоне или в роддоме). Контекстный тэггинг также не применим, так как ни лица, ни надписи на фото не считываются.

Уже выдвинуто несколько рабочих гипотез. По одной из них, дело может быть в приобретенном недавно стартапе Color. По другой версии, Facebook может основываться на данных о перемещениях пользователя, используя GPS-данные другого устройства (не камеры, а телефона), а также анализируя содержание посещенных им веб-страниц. Известно, что многие крупные веб-ресурсы размещают кнопки-«трояны» Facebook Like. Даже если вы не нажимаете кнопку, она способна отправлять данные о посещенных вами страницах.

Что касается фотографии из роддома, Facebook мог считывать информацию с телефона, где вероятно имелось Facebook-приложение, записавшее GPS-координаты мест, которые пользователь посетил в последнее время.

В отдельных случаях возможно одновременное применение нескольких технологий анализа. Например, Facebook безошибочно определил, где именно в Коста-Рике была снята эта фотография, не располагая при этом GPS или EXIF-данными. Можно предположить, что вывод был сделан на основе анализа соседних снимков, входящих в тот же альбом.

Зафиксированы случаи, когда Facebook устанавливал местоположение по фотографии, сделанной пару лет назад в другой стране. Наиболее вероятной разгадкой здесь будет предположение, что использовался поиск по похожим снимкам других пользователей, ранее сфотографировавших ту же местность и указавших ее координаты.

В конечном итоге, накопив огромную статистику по миллиардам посетителей, алгоритмам машинного обучения однажды не составит труда не просто распознавать места на изображениях, но и предсказывать судьбы конкретных людей с высокой степенью вероятности. Здесь можно провести параллель с демоном Лапласа: если собрать сведения о расположении и направлении каждого атома во Вселенной, можно предсказать ее будущее. Проводя аналогию с Facebook, зная, какие действия совершал и какие тесты читал тот или иной пользователь, он теоретически может знать наперед все его будущие действия.

Отдельные посетители соцсети уже предложили противоядие: сбивать механизм распознавания объектов по привязке к местности путем загрузки на сайт снимков с фальшивыми EXIF-заголовками. Общими усилиями можно устроить нечто вроде гуглобомбинга, заставив Facebook поверить в нахождение объекта A в деревне Гадюкино. Тогда впредь при загрузке фотографий с изображением объекта A, Facebook не останется ничего другого, как угадать в нем деревню Гадюкино. Конечно, для Эйфелевой башни этот вариант не пройдет, но с малознакомым объектом можно обмануть систему.