まず、データベースへの登録ツイート全ての数の確認です。
{% highlight bash %}
[10011] % mysql -u root benngosi_twitter -e 'SELECT count(id) from tw_user_tweet\G' && date
*************************** 1. row ***************************
count(id): 220021
2018年 4月 3日 火曜日 12:25:54 JST
{% endhighlight %}
220021件ということで、22万件を超えたところでした。ずいぶん前に20万件を超えていたように思いますが、1万件という単位でも増えるには時間の掛かるペースとなっているようです。
次に郷原信郎弁護士のアカウントでのツイートの記録状況です。だいぶん前に全件取得を行っていたと思ったのですが、先程それ以降の未登録ツイートを追加する作業を行ったものの、Twitterアカウントのページに表示される本日2018年4月3日時点での5318件には遥かに及ばぬものでした。
{% highlight bash %}
[10012] % mysql -u root benngosi_twitter -e 'SELECT count(id) from tw_user_tweet WHERE user LIKE "nobuogohara" \G' && date
*************************** 1. row ***************************
count(id): 2111
2018年 4月 3日 火曜日 12:33:26 JST
{% endhighlight %}
次にデータベースに登録した郷原信郎弁護士のツイートで最も古い投稿日時のツイートを1件抽出します。
{% highlight bash %}
[10013] % mysql -u root benngosi_twitter -e 'SELECT * from tw_user_tweet WHERE user LIKE "nobuogohara" ORDER BY tw_date LIMIT 1 \G' && date
*************************** 1. row ***************************
id: 20253
name: 郷原信郎
rt_name:
tw_url: https://twitter.com/nobuogohara/status/10408840520
rt_url:
tw_date: 2010-03-13 14:14:00
rt_date: 0000-00-00 00:00:00
tweet: この数日間、KKベストセラーズから出す4冊目の新書「検察が危ない」の執筆に没頭していました。昨夜はほとんど徹夜で昼前に何とか第1稿の執筆を終えました昨年9月に筑摩新書から出した「検察の正義」以上に、書ける限界ギリギリまで書いています。4月8日発売です。ご期待ください。
org_tweet:
retweet: 0
user: nobuogohara
statuses_count: 4250
rt_user:
create_time: 2016-01-04 23:06:44
profile: 大学教授・弁護士として、「組織が社会の要請に応えること」という意味のコンプライアンスに関する活動をしています。法令・規則・ルールを守ることが自己目的化するという「遵守」の弊害を指摘しています。研究者としての原点は独禁法、それが、経済犯罪に対する制裁制度論を経て、独自のコンプライアンス論に発展したものです。
app: Twitter Web Client
location: 東京都港区
followers_count: 69045
friends_count: 105
rt_count: 22
fav_count: 6
tag:
2018年 4月 3日 火曜日 12:36:25 JST
{% endhighlight %}
上記の検索結果のツイートの内容をTwitterAPIで取得します。
* ツイート:nobuogohara(郷原信郎):2010/03/13 14:14: https://twitter.com/nobuogohara/status/10408840520 :
> この数日間、KKベストセラーズから出す4冊目の新書「検察が危ない」の執筆に没頭していました。昨夜はほとんど徹夜で昼前に何とか第1稿の執筆を終えました昨年9月に筑摩新書から出した「検察の正義」以上に、書ける限界ギリギリまで書いています。4月8日発売です。ご期待ください。
次は、私がデータベースに登録した時期が最も古い郷原信郎弁護士のツイートを抽出します。ツイートの投稿日とデータベースへの登録日時は全然違った結果になることも、検索結果を使った登録では特にありがちなことです。
{% highlight bash %}
[10014] % mysql -u root benngosi_twitter -e 'SELECT * from tw_user_tweet WHERE user LIKE "nobuogohara" ORDER BY create_time LIMIT 1 \G' && date
*************************** 1. row ***************************
id: 6510
name: 郷原信郎
rt_name: 八田隆 Terry Hatta
tw_url: https://twitter.com/nobuogohara/status/653337658437992448
rt_url: https://twitter.com/thatta0529/status/653336790414196737
tw_date: 2015-10-12 07:33:00
rt_date: 2015-10-12 07:30:00
tweet: RT @thatta0529: 郷原信郎氏著『告発の正義』よりクレディ・スイス証券集団申告漏れ事件の各論的部分を引用。#検察なう (506) 「『告発の正義』とクレディ・スイス証券集団申告漏れ事件~各論 第四章「激変する「告発の正義」と「検察の正義」の関係」(上)」 http:…
org_tweet: 郷原信郎氏著『告発の正義』よりクレディ・スイス証券集団申告漏れ事件の各論的部分を引用。#検察なう (506) 「『告発の正義』とクレディ・スイス証券集団申告漏れ事件~各論 第四章「激変する「告発の正義」と「検察の正義」の関係」(上)」 http://t.co/nEzDLlh5Lg
retweet: 1
user: nobuogohara
statuses_count: 4217
rt_user: thatta0529
create_time: 2015-10-15 19:17:18
profile: 大学教授・弁護士として、「組織が社会の要請に応えること」という意味のコンプライアンスに関する活動をしています。法令・規則・ルールを守ることが自己目的化するという「遵守」の弊害を指摘しています。研究者としての原点は独禁法、それが、経済犯罪に対する制裁制度論を経て、独自のコンプライアンス論に発展したものです。
app: Twitter for iPad
location: 東京都港区
followers_count: 68306
friends_count: 104
rt_count: 17
fav_count: 0
tag:
2018年 4月 3日 火曜日 12:42:36 JST
{% endhighlight %}
これは、登録をしたはずの私自身、目を疑いたくなる意外な結果が出ました。それも郷原信郎弁護士本人のツイートではなく八田隆氏のツイートをリツイートしたものでした。登録日時が2015年10月15日19時のデータで、ツイートとリツイートは、同月12日の7時30分と7時33分です。
リンクを開いて確認したところ八田隆氏のツイートの投稿時刻は2015年10月12日7時30分でした。
郷原信郎弁護士のTwitter登録は2010年2月の登録となっています。よく考えてみると私がデータベースを使ったTwitterの登録作業を始めたのが、その2015年の10月頃に近かったのかもしれません。
% h-firefox-search-keyword-twitter.sh -d nobuogohara 2010-02-01 2012-12-31
上記の自作のコマンドで2010年2月から2012年一杯のTwitter検索のページを表示させ、ページの保存からTwitterのURLを取得したのですが、その結果が2128件でした。TwitterAPIは15分で900件のツイートの取得がリミットかと思います。
データベースに登録済みのツイートは事前のチェックで、TwitterAPIの呼び出しをしないので、その分リクエストは減ると思いますが、ファイルを4つに分割し、様子を見ながら登録作業を行いたいと思います。
一通りの作業を行いましたが、思ったほど数は増えませんでした。Twitter検索のページで再読込をするタイミングが早すぎたのかもしれません。
{% highlight bash %}
[10027] % mysql -u root benngosi_twitter -e 'SELECT count(id) from tw_user_tweet WHERE user LIKE "nobuogohara" \G' && date
*************************** 1. row ***************************
count(id): 3889
2018年 4月 3日 火曜日 14:39:22 JST
{% endhighlight %}
取得範囲を狭めたり、同じ作業を繰り返すことでいくらか登録数を増やすことが出来ました。同じ作業を繰り返しながら増えていくのがおかしいのですが、これまで思っていた以上にTwitterAPIのツイートの取得は精度の低いデータ処理なのだと思いました。
{% highlight bash %}
[10034] % mysql -u root benngosi_twitter -e 'SELECT count(id) from tw_user_tweet WHERE user LIKE "nobuogohara" \G' && date
*************************** 1. row ***************************
count(id): 4011
2018年 4月 3日 火曜日 16:25:13 JST
{% endhighlight %}
0 件のコメント:
コメントを投稿