Pull to refresh
37
0
Send message

Новые возможности Хабра: как отписаться от пользователей и рекламных блогов

Reading time2 min
Views13K
Многие на Хабре спрашивают, как отфильтровать посты отдельных авторов и корпоративных блогов. Совсем недавно эта возможность появилась – правда, для этого необходима последняя версия блокировщика Adblock.


Для тех, кому не хочется читать дальше, просто приведу код фильтра Adblock для отписки от постов одного из авторов.

geektimes.ru#?#li:-abp-has(a.user-info[href*="username"])

Правда, работает это не во всех браузерах, и не во всех случаях. Для тех, кому интересно, как и когда это работает, прошу под кат.
Читать дальше →
Total votes 57: ↑47 and ↓10+37
Comments93

Как делать научные предсказания

Reading time5 min
Views18K


Предсказания, а не случайность

Как сделать предсказания любых событий так, чтобы тебе поверили серьезные учёные, ты стал знаменитым и получил нобелевку? Это очень просто: надо убедить учёных в том, что твои предсказания – это именно предсказания, а не случайность. Для этого вполне хватит школьного курса теории вероятностей. Итак, на надо выполнить лишь три пункта.
Читать дальше →
Total votes 52: ↑49 and ↓3+46
Comments68

Fbi Detected: Как я обнаружил агентов ФБР

Reading time3 min
Views51K
В новом выпуске «Черной археологии датамайнинга» мы немного поиграемся в шпионов. Увидим, что может узнать обычный Data Specialist на основе открытых в сети данных.

Всё началось со статьи на хабре, о том, что некий анонимный хакер делился слитыми в сеть данными агентов ФБР. Я получил эти данные, и стал смотреть, что с ними можно сделать? В данных есть только фамилия, имя, и служебные мейлы и телефон – немного информации.



Получив эти данные, я увидел, что они заканчиваются буквой J. То есть, датасет не полон. Интресено, каков его полный размер? Чтобы узнать его, надо построить статистику частоты встречаемости фамилий.

Для этого я начал искать наборы американских фамилий, и тут меня ждало открытие – в Америке можно найти открытые данные по, скажем, избирателям штата – как я понял, совершенно легально. Например, я за полчаса без проблем получаю данные всех избирателей штата Юта.

Читать дальше →
Total votes 65: ↑59 and ↓6+53
Comments21

Нужен ли человек для построения самообучающихся моделей?

Reading time3 min
Views6.2K

Ещё один шаг в самообучении машин





Конечно, в Data Science существует множество самообучающихся моделей, но действительно ли они являются таковыми? На самом деле, нет: сейчас в машинном обучении сложилась ситуация, когда человеческий фактор играет решающую роль в построении эффективных моделей.

Data Science сейчас представляет собой некий сплав науки и интуиции, потому что не существует формализованного знания о том, как правильно предобрабатывать предикторы, какую модель выбрать из десятков существующих, и как настраивать множество параметров в этой модели. Всё это плохо поддается формализации, и поэтому получается парадоксальная ситуация – машинное обучение требует человеческого фактора.

Именно человек должен выстроить цепочку обучения, и настроить параметры, которые легко могут превратить самую лучшую модель в абсолютно бесполезную. Построение этой цепочки, превращающей исходные данные в предсказательную модель – может занимать несколько недель, в зависимости от сложности задачи, и часто делается просто методом проб и ошибок.

Это серьезный недостаток, и поэтому возникла идея: может ли машинное обучение — обучить себя тому же, что делает человек? Такая система была создана, и удивительно, что эта новость еще не добралась до хабрасообщества!

Читать дальше →
Total votes 5: ↑5 and ↓0+5
Comments4

Обход блокировок adblock, и блокировка обхода блокировки

Reading time2 min
Views92K
В статье рассматривается один из эффективных методов противодействию adblock, и обход этого метода. Этот круг вечен – но, похоже, рекламщики вырвались вперёд!



Как-то раз на одном сайте администрация вежливо попросила пользователей добавить сайт в исключения адблока. Я, как сознательный пользователь, это сделал – но появившаяся реклама через какое-то время стала совсем не похожа на допустимую рекламу, и я включил адблок снова. К моему удивлению, реклама не исчезла – и я стал разбираться, в чём тут дело.
Читать дальше →
Total votes 44: ↑36 and ↓8+28
Comments114

Tor для всех: если заблокируют сайт torproject

Reading time2 min
Views65K
Что делать, если у вас в стране запретили Тор, и заблокировали все ссылки, ведущие на проект torproject? Где скачать Tor-браузер человеку, совершенно не разбирающемуся в IT? На этот случай сообщество, развивающее эту сеть, предлагает сервис GetTor Robot. Это почтовый робот, который в ответ на мейл-запрос присылает ссылки на облачные файловые хранилища с дистрибутивом браузера.

Читать дальше →
Total votes 31: ↑28 and ↓3+25
Comments33

Чёрная археология датамайнинга: насколько опасны «сливы» больших данных

Reading time3 min
Views20K
В 2014 году в сеть утекла большая, на 6 млн. записей, база паролей различных почтовых сервисов. Давайте посмотрим, насколько эти пароли актуальны сейчас, в 2015 году.


Читать дальше →
Total votes 26: ↑20 and ↓6+14
Comments6

Черная археология датамайнинга: что может быть эффективнее атаки по словарю?

Reading time5 min
Views16K
Для тех, кому лениво читать дальше, сразу скажу ответ: атака «логин равен паролю». По статистике, логин равный паролю встречается чаще, чем самый распространенный пароль из словаря. Далее в статье будут некоторые статистические исследования на эту тему, и история, с которой всё началось.



Читать дальше →
Total votes 22: ↑18 and ↓4+14
Comments6

Черная археология дата майнинга

Reading time4 min
Views28K
Есть темы, по которым очень мало статей по специальности data science, но которые представляют интерес для специалистов по безопасности. Это статистические исследования логинов и паролей пользователей – данные, добытые «черными археологами» дата майнинга.

image

Мне было интересно посмотреть некоторые закономерности и для этой цели я взял базу данных паролей, утёкших в 2014 году – от Яндекса, Гугла и Мейлру, объемом 6 миллионов записей.
Читать дальше →
Total votes 27: ↑19 and ↓8+11
Comments36

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Registered
Activity