ページ

title

告発\金沢地方検察庁\最高検察庁\法務省\石川県警察御中
弁護士と裁判官が共同で確定させた傷害・準強姦被告事件判決の再捜査要請に係る石川県警察珠洲警察署提出書面の情報公開

殺人未遂事件幇助の被告訴人: 木梨松嗣弁護士(金沢弁護士会)、岡田進弁護士(金沢弁護士会)、長谷川紘之弁護士(金沢弁護士会)、若杉幸平弁護士(金沢弁護士会)
名誉毀損罪の被告訴人: モトケンこと矢部善朗弁護士(京都弁護士会)、小倉秀夫弁護士(東京弁護士会)
市場急配センター株式会社 石川県金沢市駅西本町5丁目10番20所在
作成管理者: 石川県鳳珠郡能登町字宇出津 廣野秀樹
金沢地方検察庁御中

2020年9月20日日曜日

* pythonのbeautifulsoup4でBloggerの最新記事のURLとタイトルをスクレイピング

* pythonのbeautifulsoup4でBloggerの最新記事のURLとタイトルをスクレイピング

:CATEGORIES: python,スクレイピング

```
import re
from bs4 import BeautifulSoup
import requests
load_url = "https://kk2020-09.blogspot.com/"
html = requests.get(load_url)
soup = BeautifulSoup(html.content, "html.parser")
t = str(soup.find("h3", attrs={"class", "post-title"}))
url = re.findall('

(.+)<.+', t)[0][0]
title = re.findall('

(.+)<.+', t)[0][1].replace('\n', '').replace('\u3000', '')
print("{0} {1}".format(url, title))
```

```
print("{0} {1}".format(url, title))
https://kk2020-09.blogspot.com/2020/09/keitaadachi.html \弁護士足立敬太 @アレクサ 六甲おろしかけて@keita_adachi\接見報酬ですか・・・とはいえ前はカジュアルに再逮捕してたのに今はしなくなったのは人権要請ではな
```

 Webページのスクレイピングは,これまでRubyのnokogiriでやってきたのですが,今回はpythonでやってみました。nokogiriに比べると使い勝手がよくない上に,文字列に変換すると\u3000などという妙な記号が含まれていました。

 文字列の操作もRubyに比較すると,ずいぶん面倒が多くなります。面倒ですが,プログラムの理解も深まるような気もしています。

 Bloggerでは最新の記事1件しかまともにタイトルが取得できない感じです。サイドバーにあるリンク集は,「soup.find(class_="posts")」取得が出来ましたが,タイトルの文字列が短く切り詰められていました。

0 件のコメント:

コメントを投稿