http://subtech.g.hatena.ne.jp/yappo/20060613/1150209686



実は某案件で色んなサイトから住所を抽出するスクリプトってのを書きました。80%強くらいの精度で日本の住所は抽出できるようにしてみたのだけれども、これって公開しちゃいけないのかもしれないのでコードだせません。(^^;


ただ、俺の取ったアプローチは存在する住所をを正規表現でRegexp::Assembleするのではなく、もっと包括的な正規表現で番地までを取ってくるもの。パターンをだいたい認識できればそれほど難しくないのだけれども、一部どーーーーーしても文字のエンコーディングのせいでうまく当たらない文字列があるので要注意。