はじめましてミクロです。
現在、Yahooの音楽ランキングの文字をInternetReadFile関数で取得したところ
http://headlines.yahoo.co.jp/ranking/pla/mus/daily.html
文字化けやらなんやらでまったく取得できませんでした、、、。
このようなサイトの文字は取得できないんでしょうか?
そもそも、してはいけないことなのでしょうか?
何も知恵がないミクロなもので、ご教授宜しくお願いします。
どういうコードを書いているかわかりませんが、
> http://headlines.yahoo.co.jp/ranking/pla/mus/daily.html
は文字コードがEUC-JPのようです。
文字コードを変換する必要があるでしょう。
さらに質問をするときは、必ず環境を明記してください。
環境・・・OS/VCのバージョン/プロジェクトの種類
> 文字化けやらなんやらでまったく取得できませんでした、、、。
しっかり文字化けやらが取得できてるじゃん。
質問は正確に
Blueさんありがとうございます!!!
サイトの文字を変換する処理を探してみます。
( EUC-JP → ??? )
超初心者さん、助言どうもです。
文字化けまでは取得できました。
環境はVC++6.0 WINDOWS XP でMFCのダイアログベースで行っています。
euc-jpからShift_JISへの変換は、2バイト文字、半角カタカナを変換できれば良いので
対して難しくないです。
ただし、InternetReadFileを使うので、2バイト文字が泣き別れる可能性があるので注
意しないといけなそうです。
目的が「デイリー・シングル・チャートを取得する」
であるならば、ソースを取得して’解析’するのはカナリ難しいです。
(文字コードの判定、変換、タグの解析、、、)
別の方法として、IEオブジェクトを介して取得するのであれば、そんなに難しくはない
でしょう。
ずいぶん前に新刊の情報をホームページから取り込むソフトを
作った事がありますが、かなり面倒です。
苦労してHTMLから目的の文字列を取り出す事ができても
ホームページ側がレイアウトを変えたりするととたんに取り込めなく
なりったりしますからね。
いまでは自分が作ったソフトはほっといてフリーのソフトを使ってますが、
作者の方のホームページへの追随には頭が下がる思いです。
まあ、汎用的に使えるかどうかはともかく、チャレンジしてみるネタとしては
面白いと思うので頑張ってください。
Blueさん、PATIOさんお返事ありがとうございます!!!
シングルチャートの文字列を取得してデータとしてとっておきたいんです。
euc-jpからShift_JISへの変換の関数を作成しましたが、うまくいきませんでした↓
IEオブジェクトってすごいですね!
IEオブジェクトから取得する際にもホームページの文字列を取得できるのでしょうか?
おって方法を探してみたいと思います。