У многих сателлитчиков возникают проблемы с контентом, поэтому я хочу поделиться с вами одним из способов получения уникального контента. Это контент с социальной сети Вконтакте, для тех кто ещё не знает, социальная сеть Вконтакте не индексируется Яндексом в полном объеме, а только на 68 страниц. Я не знаю с чем связана такая политика сайта Вконтакте, но для сателлитчика это золотая жила, ведь там так много контента в группах, на стенах и ещё много где. Осталось найти хорошее программное решение для выкачивания всего этого контента.
Хочу вам представить парсер обсуждений на сайте vkontakte.ru. Данное чудо стоит 40$, но нужно знать, за что мы платим.
Парсер я запустил у себя на локальном сервере «Денвер», ввёл свои данные Вконтакте, а так же указал какая группа мне интересна.
После чего начался процесс парсинга контента из группы…
В итоге получился .txt файл, в котором всё было разложено по форме «АВТОР СООБЩЕНИЯ|ДАТА СООБЩЕНИЯ|АДРЕС ДО АВАТАРА|СООБЩЕНИЕ|НАЗВАНИЕ ГРУППЫ|ТЕМА ОБСУЖДЕНИЯ|НОМЕР ГРУППЫ», который можно легко сконвертировать в дамп под нужный вам движок с помощью конвертера баз данных.
Хоть и для прошаренных людей эта тема будет не нова, но контент с Вконтакте можно назвать резиновым и его хватит на всех, потому что Вконтакте относится к тем ресурсам, которые сами генерируют контент ежесекундно.
Хотите решить проблему с контентом для своих сателлитов раз и навсегда, тогда покупайте данное программное решение, рекомендую.
Или же перевести 40wmz на кошелек: Z393055235309 (или R127327149892 по курсу 1:30)
В примечании платежа указать: “свой email|За парсер vkontakte.ru”
В течении 24 часов, вы получите скрипт.Страница парсера
P.S. Что-то последнее время я начал палить много софта с помощью которого можно получить тИЦ, контент и прочие плюшки, нравится?
Материал интересный, Роману спасибо. Про контент вконтакте слышал уже, только для сателлитов подойдет. Для своих сателлитов использовать врядли буду.
Аналогично. Для своих сателлитов использую только собственный рерайт.
Puzat, софт это конечно хорошо, только вот у тебя как то малоподробно расписано
P.S. как там твои ученики, успехи есть?
Если есть какие-то вопросы по софту, спрашивайте.
Ученики, учатся 🙂
Где то совсем недавно видел скрин с полученным контентом. Жутко не понравилось. Контент может быть и уникальный, но по сравнению с ним ИМХО любой лытыдыбр — более читабельный. Хотя, я думаю, что Яша будет кушать подобный контент еще очень и очень долго, прежде чем научится выкидывать подобное из выдачи.
PS. +1 как процесс обучения идет?
Процесс обучения идёт, под Новый год будем итоги подводить, что-то и на блоге освящу.
На долго ли хватит такого скрипта? То есть как быстро вконтакт может спалить и прикрыть лавочку?
К сожалению это никому не известно, но я думаю парсер обновится если лазейку прикроют и лазейка будет снова найдена.
Спасибо за наводку, пойду писать собственный парсер.
Не знаю какой смысл получать такой контент, если можно бесплатно генерить бред более менее читабельный. Хоть смысла в тексте будет мало, но его тоже можно генерить бесконечно 🙂
У меня так и работает. Сайт запускается за 1 минуту. Пример покажу, если надо в мыло.
Вышли мне пример на puzatrumail.ru
Зря мне кажется такие вещи не должны просто так в паблик выходить, теперь любой нубяра для своих ГС распарсит весь vk
Если уже вышло, то я хочу чтобы мои читатели первым узнали об этом.
Программа явно полезная. Но есть один вопрос: может ли она самостоятельно отправлять все это в различные CMS, причем только текстовые данные (без имени написавшего, группы обсуждения и так далее). Просто если все это правильно организовать, можно, например, получить хороший самонаполняющийся форум. Вот только как бы все это реализовать?
P. S. Извините, просто «мысли вслух». Хотелось бы узнать, он вообще может с CMS в автоматическом режиме работать?
Нет, но предложить вектор развития автору или дописать самому я думаю вы всегда сможете.
Agor71, автоматическое наполнение сейчас реализовано только в WP, в виде отдельного плагина. Вообще же формат на выходе так и задумывался быть универсальным. Отчасти прилагающийся конвертер, может быть использован для составления любого нужного SQL дампа или XML файла для импорта в CMS.
данная информация не является новой (автор об этом упоминал) и не думаю, что теперь прям все взяли и начали парсить и граберить вконтакте.
Ха тут тоже можно попать, вдруг кто-то тоже качает контент с тойже группы.
Согласен, если не штамповка, то нужно проверять.
Страницы закрыты, потому что создатели знали, что оптимизаторы захотят жирной ссылочки с контакта
Но тем самым они дали возможность получать отличный контент.
Если бы вконтакте индексировался, то тогда там бы спаму было намного больше чем сейчас.
А не индексируется он потому что страницы пользователя доступны только для зарегистрированных.
А боты поисковиков нигде не регистрируются.
Полезная софтинка. В принципе как я понял с контакта можно напарсить текста на любую тематику. А конвентер для вордпресса есть?
Есть, но руками допилить нужно будет.
Интересная вещь. Но не указаны недостатки
Спросите наводящие вопросы и может мы их выявим, я лично недостатков не заметил.
Ну и как вам сгенерированный бред, о котором писал автор коммента выше?)
Это которому я ответил?
Крутой бред =)
А скрипт отличный. Под себя доработать не проблема, чтобы экспортировать в нужном виде
хех..тут появился ряд интересных моментов.
а) что значит «переделать под себя»? там нет зенда и обфускации?
б) парсеры долго не живут. сегодня автор поддерживает проект, завтра бросит, как ..автор сабмиттера -remark…_как-то-там
в) надо идти другим путем, имхо, совсем другим =)
а) думаю лучше спросить у разработчиков, так как наш штатный программист уже ушёл на выходные
б) вечного ничего не бывает
в) предлогайте 🙂
Тема не нова. Только вот проблема в том что потом весь этот контент надо проверять на уникальность. В этом основная проблема. Было бы замечательно если бы Парсер сам это дела. Сам, лично, вчера сидел парсил себе контент. В первый раз напарсил 95 страниц в ворде =)
если бы еще желающих парсить было бы не так много. уже почти все выдернули. радует что яндекс пока не банит два разных сайты с одинаковыми обсуждениями.
ну самое главное что контент там говно. если бы люди просто писали ни о чем. так они переписываются какими то символам, смайликами и тд.
Поддерживаю mihalich-а. Но от этих смайлов тоже можно избавиться простой автозаменой 😉 Ну а так идея неплохая =)
Классс!!! Спасибо за сраленную темку, буду знать:)
Существует ещё один нюанс как минимум половина контента из подобных сообществ является копипастом с других сайтов. Так что влететь можно запросто.
Прикрыли парсерок… А жаль. Интересно, в чем причина?
а почему написано что скрипт потерял свою актуальность?
тоже интересно, почему уже неактуально?
Яндекс начал индексировать Вконтакте.
А мне нравится парсить недельные сайты ))) Провереете у регистраторов недавно зареганые домены и вперед!! Или можно парсить waybackmachine, а еще лучше скупать домены и парсить прямо туда… Но это отдельная тема для разговора.
Скорее всего скрипт потерял актуальность потому что контакт потерял верстку и он уже не тянет контент. Я сейчас вытягиваю с контакта контент для сових сателитов парсером datacol
Кому будет интересно есть программа для администраторов групп вконтакте: VKGroupCommentsToCSV – сбор комментариев к фотографиям и обсуждениям для групп vkontakte
А есть парсер пользователей групп и паблик страниц? мне вот такая штука нужна, если у кого есть стучитесь icq 145053000, или звоните 89261595927
а будет создано что-то пожобное, лучше даже десктопный вариант или уже есть?