paranitips

Never stop learning! がモットーのゆるふわエンジニアブログ

4byte文字(絵文字や一部の漢字)が含まれているかどうかチェックする

本当はmysql側のエンコーディング変更すべきですが、アプリケーション側の応急処置として。

class Post < ActiveRecord::Base
    validate :no_4_bytes

    # 本文に4byte文字を使わないように
    def no_4_bytes
        if content.present?
            chars = content.each_char.select{|c| c.bytes.count >= 4}
            if chars.size > 0
                errors.add(:content, "に絵文字(#{chars.join('')})は使用できません。")
            end
        end
    end
end

文字列をeach_charで回して、バイト数が4以上ある文字を検出しています。
シンプルですが、文字量多い場合は大変。。

参考

テキスト中にあるURLを抽出し、リンク(aタグ)に変換する

テキスト中にあるリンクがある場合は、ちゃんとクリックできるリンクにして出力したい!
ということで、いろいろ調べてみました。

URLを抽出する

textからURLを抽出するだけであれば、URI.extractを使えばOKです。

text = 'aaaaa http://xxx.com bbbbb http://yyy.com'
URI.extract(text,['http','https'])
=> ["http://xxx.com", "http://yyy.com"]

URI.extractを利用するパターン(NGパターン)

URI.extractを利用してgsubでURLをaタグに置換します。

text = 'aaaaa http://xxx.com bbbbb http://yyy.com'
URI.extract(text,['http','https']).uniq.each do |url|
    sub_text = ""
    sub_text << "<a href=" << url << ">" << url << "</a>"
    text.gsub!(url, sub_text)
end
=> "aaaaa <a href="http://xxx.com">http://xxx.com</a> bbbbb <a href="http://yyy.com">http://yyy.com</a>"

ただ、この場合、うまくいかない場合があります。

text = 'aaaaa http://xxx.com/hoge bbbbb http://xxx.com'
URI.extract(text,['http','https']).uniq.each do |url|
    sub_text = ""
    sub_text << "<a href=" << url << ">" << url << "</a>"
    text.gsub!(url, sub_text)
end
=> "aaaaa <a href="<a href="http://xxx.com">http://xxx.com</a>/hoge"><a href="http://xxx.com">http://xxx.com</a>/hoge</a> bbbbb <a href="http://xxx.com">http://xxx.com</a>"

aタグ中のhref=http://xxx.comも置換させてしまい、変なことになっていました。

http://xxx.com/hoge  
=> <a href="http://xxx.com/hoge">http://xxx.com/hoge</a>  
=> <a href="<a href="http://xxx.com">http://xxx.com</a>/hoge"><a href="http://xxx.com">http://xxx.com</a>/hoge</a>

URI.regexpを利用するパターン(OKパターン)

URI.regexpを利用して正規表現を使ってURLを置換します。

text = 'aaaaa http://xxx.com/hoge bbbbb http://xxx.com'
uri_reg = URI.regexp(%w[http https])
text.gsub!(uri_reg) {%Q{<a href="#{$&}">#{$&}</a>}}
=> => "aaaaa <a href="http://xxx.com/hoge">http://xxx.com/hoge</a> bbbbb <a href="http://xxx.com">http://xxx.com</a>"

こちらのほうが簡単&完璧です。

以上です。

参考

grep, xargs, sedを使って複数ファイルの文字列を一括で置換する

例えば、カレントディレクトリ下のファイルで「置換前の文字列」が含まれるものを一括で「置換後の文字列」に置換したい場合は以下のようにします。

$ grep -rl '置換前の文字列' ./ | xargs sed -i '.bk' 's/置換前の文字列/置換後の文字列/g'

iオプションでファイルを直接書き換えます。

第1引数にはバックアップファイル名に使用する文字を入れます。上記の場合は、対象ファイル名.bkが作成されます。

第1引数がない場合、sed: 1: "app/views/hoge/fug ...": command a expects \ followed by text と怒られて動きません。

まあ、gitで管理してる場合はdiffで見れるので空文字でOKです。

$ grep -rl '置換前の文字列' ./ | xargs sed -i '' 's/置換前の文字列/置換後の文字列/g'

参考