ページ

title

告発\金沢地方検察庁\最高検察庁\法務省\石川県警察御中
弁護士と裁判官が共同で確定させた傷害・準強姦被告事件判決の再捜査要請に係る石川県警察珠洲警察署提出書面の情報公開

殺人未遂事件幇助の被告訴人: 木梨松嗣弁護士(金沢弁護士会)、岡田進弁護士(金沢弁護士会)、長谷川紘之弁護士(金沢弁護士会)、若杉幸平弁護士(金沢弁護士会)
名誉毀損罪の被告訴人: モトケンこと矢部善朗弁護士(京都弁護士会)、小倉秀夫弁護士(東京弁護士会)
市場急配センター株式会社 石川県金沢市駅西本町5丁目10番20所在
作成管理者: 石川県鳳珠郡能登町字宇出津 廣野秀樹
金沢地方検察庁御中

2021年2月11日木曜日

パソコン・情報公開# 長文の文字列から特定の文字列を抽出してその前後の文字列だけを取り出してデータに,というのをRubyでやってみる

パソコン・情報公開# 長文の文字列から特定の文字列を抽出してその前後の文字列だけを取り出してデータに,というのをRubyでやってみる

:CATEGORIES: Ruby

```
irb(main):020:0' 雑でいいならテキストファイルにしてから正規表現で検索かけるのが簡単だと思いますが,単語としてちゃんと取り出したいなら形態素解析する必要があると思います
irb(main):021:0' > @uwaaaa 雑でいいならテキストファイルabcdefgにしてから正規表現で検索かけるのが簡単だと思いますが,単語としてちゃんと取り出したいなら形態素解析する必要
があると思います
irb(main):022:0> EOF
irb(main):023:0> n=str.index("正規表現")
irb(main):024:0> str[n-10..n-1]
=> "トファイルにしてから"
irb(main):025:0> n=str.index("正規表現", n+1)
irb(main):026:0> str[n-10..n-1]
=> "cdefgにしてから"
```

 前後の行を含めて取得する方が実際的という気がしますが,長文を改行区切りで配列に入れ,検索にマッチした配列要素の前後をインデックス指定で取得すればいいような気がします。全文検索であればインデックスの最大値までの再帰処理になるかと思います。

##

0 件のコメント:

コメントを投稿