Веб як джерело даних: upper

upper_podpolie

Веб як джерело даних

Mar 02, 2013 16:45

Як можна більше дізнатися про те, що існує тільки в Інтернеті? У цьому розділі я ознайомлю вас із інструментами, які можуть надати вам більше інформації про те, що ви шукаєте: чи це адреса електронної пошти, веб-сайт, зображення чи стаття у Вікіпедії.

Веб-інструментарій

Для початку ось кілька сервісів, які можна застосувати, щоб більше дізнатися про сайт цілком, а не про його окрему сторінку.

Whois

Якщо ви перейдете на адресу whois.domaintools.com (або просто введете whois www.example.com
у програмі Terminal на комп’ютері «Мак»), ви зможете отримати базову
реєстраційну інформацію для будь-якого веб-сайту. У нещодавні роки деякі
власники сайтів обрали «приватну» реєстрацію, яка приховує ці деталі
від перегляду, але в багатьох випадках ви побачите ім’я, адресу, email
та телефонний номер особи, яка зареєструвала цей сайт. Ви також можете
вводити IP-адреси в цифровому вигляді й отримувати дані про організацію
чи особу, яка є власником цього сервера. Це особливо зручно тоді, коли
ви хочете відстежити більше даних про користувача чи сервіс, який
розсилає небажану інформацію або веде шкідливу діяльність, бо більшість
веб-сайтів записують IP-адреси будь-кого, хто заходить на них.

Blekko

Пошуковий механізм Blekko пропонує
нетиповий погляд на внутрішню статистику, зібрану на сайтах, відвіданих
цим пошуковиком. Якщо ви введете доменне ім’я, а за ним рядок ‘/seo’, ви
отимаєте сторінку з інформацією про цю адрес. Перша вкладка на ілюстрації 59
показує, які інші сайти містять лінки на цю доменну адресу, у порядку
їхньої популярності. Це стане у великій пригоді, коли ви захочете
зрозуміти, наскільки відомим є сайт, або якщо ви бажаєте з’ясувати, чому
він має високий рейтинг у пошукових результатах Google - а тому, що
вони базуються на цих внутрішніх лінках. Ілюстрація 61 показує,
які ще веб-сайти працюють на цій же машині. Це типовий прийом шахраїв та
спамерів - вдавати легітимність, створивши багато сайтів, які
посилаються один на одного. Вони виглядають як незалежні домени і можуть
навіть мати різні реєстраційні дані, але часто вони працюють на одному
сервері, бо це значно дешевше. Ця статистика дозволяє вам зрозуміти
приховану бізнесову структуру сайту, який ви досліджуєте.

Ілюстрація 59. Пошуковий механізм Blekko (Blekko.com)

Ілюстрація 60. Зрозуміти причини популярності в
Інтернеті: хто на кого посилається. Інша корисна вкладка називається tab
is "Crawl stats" (статистика пошуковика), особливо розділ "Cohosted
with"(«спільні хости») (Blekko.com)

Ілюстрація 61. Виявляємо веб-спамерів та шахраїв (Blekko.com)

Compete.com

Досліджуючи соціальний зріз американських споживачів, Compete.com
будує детальну статистику використання більшості веб-сайтів, і деякі
базові подробиці вони надають безкоштовно. Виберіть вкладку ‘Site
Profile’ («профіль сайту») й увійдіть у домен (Ілюстрація 62). Ви
тоді побачите графік трафіку на цьому сайті протягом останнього року,
включно з цифрами, скільки людей його відвідували і як часто (див. Ілюстрацію 63).
Так як ці дані базуються на результатах опитувань, цифри приблизні, але
я виявив, що вони досить точні, коли порівняв їх із даними внутрішньої
аналітики. Зокрема, вони можуть бути гарним джерелом інформації під час
порівняння двох сайтів, і хоч абсолютні цифри, імовірно, будуть відсутні
по обох сайтах, це все ж дає добре представлення, як вони відрізняються
за популярністю. Ресурс, однак, веде огляд лише американських
споживачів, тож по сайтах, які переважно зорієнтовані на міжнародну
аудиторію, даних буде небагато.

Ілюстрація 62. Сервіс профілю сайту на Compete.com’s (Compete.com)

Ілюстрація 63. Що в моді? На що є попит? «Гарячі точки» Інтернету (Compete.com)

Google’s Site Search

Функція, яка може бути надзвичайно корисною, коли ви намагаєтеся
дослідити весь контент сайту за певною доменною адресою, - це ключове
слово ‘site:’. Якщо ви додасте до пошукового рядка ‘site:example.com’,
Google видасть результат тільки з визначеного вами сайту. Ви можете ще
більше звузити результати, включивши префікс сторінок, у яких ви
зацікавлені, наприклад, ‘site:example.com/pages/’, і ви побачите тільки
ті результати, які відповідають цьому шаблону. Це може дуже стати в
пригоді, коли ви намагаєтеся знайти інформацію, до якої власники
відкрили доступ, але не показали це на веб-сторінці, тож підбір
правильних ключових слів може виявити дуже навіть викривальний матеріал.

Веб-сторінки, картинки та відео

Іноді вас цікавить діяльність навколо певної статті, а не весь
веб-сайт. Інструменти, вказані нижче, дають вам змогу побачити під
різними кутами, як люди читають, реагують, копіюють та обмінюються
контентом у Інтернеті.

Bit.ly

Я завжди звертаюся до bit.ly, коли
хочу дізнатися, як люди обмінюються між собою певним лінком. Щоб
скористатися цим, уведіть адресу URL, яка вас цікавить. Тоді клацніть на
лінку ‘Info Page+’. Ви перейдете на сторінку з повною статистикою (хоч,
можливо, вам буде потрібно вибрати спочатку ‘aggregrate bit.ly link’,
якщо ви зареєстровані на цьому сервісі). Це дасть вам розуміння того,
наскільки популярною є ця сторінка, включно з активністю на Facebook та
Twitter, а нижче ви побачите обговорення цього лінку, надане
backtype.com. Я знаходжу таке поєднання даних по трафіку та обговорення
дуже помічним, коли намагаюся зрозуміти, чому сайт чи веб-сторінка мають
популярність, і хто насправді є фанами цієї сторінки. Так, це дало мені
вагомі свідчення того, що поширене уявлення про «низових» активістів та
Сару Пейлін не відповідало дійсності.

Twitter

Із поширенням використання цього сервісу мікроблогів він стає більш
корисним в якості «датчика» того, як люди обмінюються окремими
фрагментами контенту та обговорюють їх. Пошук публічного обговорення
лінку виглядає оманливо просто - ви просто вводите у вікно пошуку
URL-адресу, яка вас цікавить, а тоді натискаєте ‘more tweets’ («більше
твітів»), щоб побачити повний результат.

Кеш Google

Коли сторінка викликає суперечності, видавці можуть видалити її або
змінити без попередження. Якщо ви підозрюєте, що стикнулися з такою
проблемою, у першу чергу слід звернутися до кешу Google, де сторінка
зберігається у тому вигляді, який вона мала під час останніх відвідин
пошукового робота. Частота відвідин постійно зростає, тож вам може
найбільше пощастити, якщо ви спробуєте цей спосіб протягом кількох годин
після внесення гіпотетичних змін. Введіть потрібну URL в пошуковому
вікні Google, потім наведіть мишкою на цей лінк і справа від нього
з’явиться подвійна стрілочка «>>». Клацніть мишкою по стрілочці
(або наведіть на неї), і справа у вікні з’явиться сторінка у формі
попереднього графічного перегляду, і якщо вам пощастить, зверху буде
маленький лінк ‘Cache’ (кеш). Клацніть по ньому, щоб побачити зроблену
Google «копію» цієї сторінки. Якщо вона не завантажується, ви можете
переключитися на більш примітивну текстову форму сторінки, клацнувши на
інший лінк вгорі на сторінці з повним кешем. Вам слід буде зробити
екранну копію або скопіювати той необхідний вам контент, який ви
знайшли, бо він під час наступного заходу пошукового робота він буде
втрачений.

Сервіс Wayback Machine сайту Internet Archive

Якщо ви хочете дізнатися про те, як певна сторінка змінювалася
протягом тривалого періоду часу, тобто, за місяці чи роки, Internet
Archive веде сервіс під назвою Wayback Machine,
який періодично робить «знімки» найбільш популярних сторінок в
Інтернеті. Заходите на сайт, вводите лінк, який хочете дослідити, і якщо
по ньому є попередньо збережені копії, вам покажуть календар, щоб ви
могли вибрати період часу, який збираєтеся переглянути. Сервіс покаже
вам версію сторінки приблизно такою, якою вона була в той час. Часто там
буде відсутнє форматування чи ілюстрації, але зазвичай цього достатньо,
щоб зрозуміти, на чому зосереджувався зміст цієї сторінки на той час.

Перегляд початкового коду

Це такий собі «постріл здалеку», але варто знати, що розробники часто
залишають коментарі чи інші ремарки в HTML-коді, яким записана будь-яка
веб-сторінка. В залежності від вашого браузера пункт ‘View source’
(«переглянути початковий код»), який дає вам змогу переглядати «сирий»
HTML, може знаходитися в різних меню, але він там буде обов’язково. Вам
не треба розуміти, що означають ділянки коду, призначені для комп’ютера,
- просто звертайте увагу на фрагменти тексту, які часто розкидані поміж
ними. Навіть якщо це просто нотатки про авторські права або згадка про
автора сторінки, це часто може надати важливі підказки про те, хто
створив сторінку і з якою метою.

TinEye

Іноді вам вкрай потрібно знати джерело походження картинки, але без
чіткої текстової атрибуції нема очевидного способу зробити це за
допомогою традиційних пошуковиків на зразок Google. TinEye
пропонує спеціалізований процес «зворотного пошуку зображення», де ви
надаєте наявне у вас зображення, а він шукає інші картинки, які
виглядають подібно. Так як для порівняння використовується технологія
розпізнавання зображення, метод працює навіть тоді, коли копію було
обрізано, спотворено чи стиснено. Це може бути вкрай ефективно в
ситуації, коли в підозрюєте, що зображення, як видають за оригінал або
новинку, насправді таким не є, - бо цей метод може привести вас до
справжнього джерела.

YouTube

Якщо ви клацнете на іконці ‘Statistics’ у нижньому правому куті
будь-якого відеоролика, ви зможете отримати багатий набір інформації про
тих, хто дивився цей ролик протягом часу його існування. І хоч ця
інформація не повна, вона є корисною для орієнтовного розуміння того,
ким є глядачі цього ролика, звідки вони, і коли відбувався перегляд.

Електронні листи

Якщо вам доводиться досліджувати електронні листи, вам часто хочеться
знати більше деталей про особу та місцезнаходження відправника.
Готового програмного інструмента, розрахованого на те, щоб допомогти в
цій справі, немає, але вам можуть стати в пригоді знання основ про
приховані заголовки, які є в кожному електронному листі. Вони аналогічні
до штемпелів на паперових листах, і можуть розкрити навдивовижу багато
про відправника. Зокрема, вони часто включають IP-адресу комп’ютера, з
якого був відправлений електронний лист, - щось дуже подібне на
визначник телефонного номера. Ви можете запустити сервіс whois по цьому
IP, щоб дізнатися, якій організації належить цей комп’ютер. Якщо
виявиться, що це провайдери на зразок Comcast чи AT&T, які надають
користувачам послуги інтернет-зв’язку, тоді ви можете відвідати MaxMind,
щоб визначити приблизне місцезнаходження відправника. Щоб побачити такі
ж заголовки в поштовому сервісі Gmail, відкрийте листа та зайдіть у
меню поруч із пунктом «Відповісти» зверху справа і виберіть пункт ‘Show
original’ («Показати оригінал»). Тоді відкриється нова сторінка з
прихованим контентом. На початку буде кількадесят рядків із словами, що
закінчуються двокрапкою. ІР-адреса, яка вам потрібна, може бути в одному
з них, але це залежатиме від того, як саме відправлявся лист. Якщо
його відправлено з Hotmail, там буде ‘X-Originating-IP:’, але якщо він
надійшов з Outlook чи Yahoo, він буде у першому рядку, який починається
словом ‘Received:’. Коли я запустив Whois по цій адресі, він повідомив,
що адреса належить британському провайдеру Virgin Media, тож я
використав сервіс геолокації MaxMind і виявив, що лист надійшов із мого
рідного міста Кембріджа. Це означає, що я маю достатньо підстав для
впевненості, що це дійсно лист від моїх батьків, а не від людей, що
видають себе за них!

Тренди

Якщо ви «копаєте» широку тему, а не конкретний сайт чи предмет, то ось кілька інструментів, які допоможуть вам зорієнтуватися.

Трафік по статтях Wikipedia

Якщо вас цікавить, як змінювалася з часом цікавість громади до певної
теми чи особи, ви можете отримати дані перегляду по днях щодо будь-якої
сторінки Вікіпедії на сайті stats.grok.se.
Цей сайт зроблений наспіх, але трохи «покопавши», ви зможете знайти там
потрібну вам інформацію. Уведіть ім’я, яке вас цікавить, щоб отримати
помісячний перегляд трафіку на цій сторінці. Буде виведено графік, який
покаже кількість переглядів сторінки щодня протягом визначеного вами
місяця. На жаль, ви можете переглядати лише один місяць, тож вам
доведеться обирати новий місяць і знову проводити пошук, щоб побачити
зміни за довший період.

Google Insights

Отримати чітку картину пошукових схильностей суспільства можна за допомогою сервісу Insights від Google.
Уведіть пару типових пошукових запитів, наприклад ‘Justin Bieber vs
Lady Gaga’, і ви побачите графік із порівнянням кількості пошукових
звернень за певний проміжок часу. Є багато опцій, які дають змогу
конкретизувати ці дані, від звуження географічних координат до більш
деталізованого періоду часу. Єдине розчарування - це відсутність
абсолютних (кількісних) показників, ви отримуєте лише порівняння
процентних даних, яке часом важко інтерпретувати.

Ілюстрація 64. Google Insights (Google)

Піт Уорден, незалежний аналітик даних та програміст

Джерело

журналістика, цехове