Сообщения в Разделение Хабра

Re: Разделение Хабра

Ответ на сообщение
А у меня вот такой скрипт рассылки используется в твоём rss-фетчере ii://lenta.dark.14
#!/usr/bin/python2
# -*- coding:utf8 -*-

import urllib,base64,os

authstr="мой пароль от ноды"
adress="http://ii-net.tk/ii/ii-point.php?q=/u/"

files=os.listdir("tosses") # каталог с раскиданными сообщениями

for file in files:
        f=open("tosses/"+file).read()
        code=base64.b64encode(f)

        data = urllib.urlencode({'tmsg': code,'pauth': authstr})
        out = urllib.urlopen(adress + 'point', data).read()
        print out

        if out.startswith('msg ok'):
                os.remove("tosses/"+file)
Тут совсем всё просто и понятно
vit01 to spline (2014-10-24 15:47:43) [ссылка]

Re: Разделение Хабра

Ответ на сообщение
Версии python-html2text и lxml какие? Пока я нашёл неприятный баг со старой версией html2text.
spline to Difrex (2014-10-31 10:57:26) [ссылка]

Re: Разделение Хабра

Ответ на сообщение
http://ii.difrex.ru/habra.14 -- гейтуйте, если хотите. Хабра фетчится.
Difrex to Difrex (2014-11-05 09:30:53) [ссылка]

Re: Разделение Хабра

Ответ на сообщение
Сырцы https://github.com/Difrex/iitools/tree/master/habrafetch
Difrex to Difrex (2014-11-05 09:44:22) [ссылка]

Re: Разделение Хабра

Ответ на сообщение
Ура, товарищи! Я уже загейтовал.
vit01 to Difrex (2014-11-05 10:45:18) [ссылка]

Re: Разделение Хабра

Ответ на сообщение
Оу, тут куча пустых мест, хтмл теги и до хабраката :(
Ну ничего, и так читать можно =)

Спасибо, что даже так у нас есть, чего почитать =).
vit01 to vit01 (2014-11-05 10:55:08) [ссылка]

Re: Разделение Хабра

Ответ на сообщение
Отлично, но для этого сгодился бы любой RSS-фетчер на самом деле =)

Соль была в репосте статей целиком в формате markdown. Как учёбу разгребу, попробую накалякать что-нить менее требовательное к сторонним библиотекам. Где-то на уровне lxml проблема, судя по всему. Причём отловить её мне так и не удалось -- на одном и том же линке получаю разные данные и никогда статью целиком. Всегда это какой-то кусок страницы.
spline to Difrex (2014-11-05 11:00:15) [ссылка]

Re: Разделение Хабра

Ответ на сообщение
До кучи сделай замену вот такого вот [img habrastorage.org/files/112/e60/c80/112e60c801d640e9be72430911ab5abd.jpg" align="right" width="300] на директ-линки на изображения =)
spline to Difrex (2014-11-05 11:01:40) [ссылка]

Re: Разделение Хабра

Ответ на сообщение
Да, проблемы есть. Набросал на коленке.

Можете в один пост баги написать, я все поправлю? :)
Difrex to spline (2014-11-05 11:12:46) [ссылка]

Re: Разделение Хабра

Ответ на сообщение
> Можете в один пост баги написать, я все поправлю? :)
1. Много пустых мест и отступов в содержимом
2. Отображается не вся статья, а только начало
3. Вместо нормальной читаемой разметки html-теги
4. Неплохо бы сохранять ссылки на картинки, чтобы посмотреть можно было
vit01 to Difrex (2014-11-05 11:40:04) [ссылка]

Re: Разделение Хабра

Ответ на сообщение
>1. Много пустых мест и отступов в содержимом
Я просто заменяю
на '\n'
>2. Отображается не вся статья, а только начало
Не вижу смысла тянуть всю статью. Она может быть не интересна совсем. А так, если захочется, то можно кликнуть на "читать дальше" и перейти на всю статью.
Хотя смысл во всей статье тоже есть. Подумаю над этим. Собственно говоря, добавить фетчер всей стать -- совсем не проблема.
>3. Вместо нормальной читаемой разметки html-теги
Работаю над этим =)
>4. Неплохо бы сохранять ссылки на картинки, чтобы посмотреть можно было
Куда сохранять? Линки же вроде остаются...
Difrex to vit01 (2014-11-05 12:40:25) [ссылка]

Re: Разделение Хабра

Ответ на сообщение
>Я просто заменяю > на '\n'
Лучше заменять на пробел, а то с \n читать совсем неудобно.
>Не вижу смысла тянуть всю статью. Она может быть не интересна совсем. А так, если захочется, то можно кликнуть на "читать дальше" и перейти на всю статью.
Логика понятна, жаль, что у нас тянутся все хабы, а не только те, которые нужны. Но просто удобнее не ходить по ссылкам постоянно, а читать всё в ii
>Куда сохранять? Линки же вроде остаются...
Теперь вижу :)
vit01 to Difrex (2014-11-05 12:59:46) [ссылка]

Re: Разделение Хабра

Ответ на сообщение
>жаль, что у нас тянутся все хабы, а не только те, которые нужны
Сейчас тянется только hub/linux/

Говорите, на какие подписаться :)
Difrex to vit01 (2014-11-05 15:04:36) [ссылка]

Re: Разделение Хабра

Ответ на сообщение
И еще такой вопрос:
Тянуть статьи из песочницы или нет? Сейчас они пропускаются.
Difrex to Difrex (2014-11-05 15:08:36) [ссылка]

Re: Разделение Хабра

Ответ на сообщение
Проба markdown. Там у них на хабре переодически прилетают всякие div, s и прочие html-теги. Надо придумать, как их правильно пропускать.

Кто там говорил про статью про парсилку хабры на хабре? =)
Difrex to Difrex (2014-11-05 15:29:35) [ссылка]

Re: Разделение Хабра

Ответ на сообщение
Парсилка html на легко делается с помощью html2text.
spline to Difrex (2014-11-05 16:03:13) [ссылка]

Re: Разделение Хабра

Ответ на сообщение
ii://HwArNq5Jtn2XGcZ0dg4A
ii://RwDkjN6NVBLt0feRdTi7
+ ещё lisp предлагали
vit01 to Difrex (2014-11-06 00:21:36) [ссылка]

Re: Разделение Хабра

Ответ на сообщение
> Кто там говорил про статью про парсилку хабры на хабре? =)
Я говорил =) К примеру, вот эта статья: http://habrahabr.ru/post/192670/
vit01 to Difrex (2014-11-06 04:51:51) [ссылка]

Re: Разделение Хабра

Ответ на сообщение
можно простым регэкспом вырезать все html теги. как вариант
ntrknlmp.exe to Difrex (2014-11-06 08:44:03) [ссылка]

Re: Разделение Хабра

Ответ на сообщение
>можно простым регэкспом вырезать все html теги. как вариант
Так и сделал
Difrex to ntrknlmp.exe (2014-11-06 09:46:39) [ссылка]