Friday, March 09, 2007

Using google to restore stage.co.il content

Since I belive that most of the readers of this post will be hebrew reader,
This post will be in hebrew.


אתמול בערב קיבלתי דוא"ל מקרובת משפחה שלי,
במכתבה היא מספרת שפתחה בלוג חדש בתפוז:


ושהסיבה לכך היא שדף היוצר שלה באתר במה חדשה אבד באירוע של השחתת האתר,
כמו כן היא צירפה את הלינק הבא לסיפור המעשה:

http://www.ynet.co.il/articles/0,7340,L-3373961,00.html


בהיותי איש מחשבים החלטתי לנסות ולעזור לה לשחזר כמה שיותר מהתכנים שאבדו תוך שימוש בארכיונים של GOOGLE מה שנקרא באנגלית Cache או מטמון בעברית.

בתהליך השחזור נתקלתי בשתי בעיות שהראשונה בהן הייתה איתור הדפים בCache והשניה הייתה שגם אחרי איתור הדפים היתה בעייה בהעתקת המיידע שבהם החוצה כיוון שהעברית שבו הועתקה הפוך (למבינים הכוונה היא שהעברית הייתה ויזואלית ולא לוגית).

את שליפת המיידע ה"אבוד" בחרתי להדגים על הדף של הסופר הידוע אתגר קרת,
ברצוני להדגיש כאן שמסיבות של זכויות יוצרים אסור למי שאינו בעל הזכויות בתוכן
לבצע את הפעולות המוצגות כאן ללא אישור מבעל הזכויות, וההדגמה שכאן באה לצורכי הדגמה
בלבד. (אתגר - אם זה לא מקובל עליך, אנא צרף הערה ואשנה את הדוגמא.)
אתם כמובן תחליפו את שמו של אתגר קרת בשמכם על מנת להגיע לדפים שלכם.

נתחיל באיתור הדף המרכזי של היוצר:
חיפוש בגוגל של רצף המילים "New Stage במה חדשה אתגר קרת" (ללא המרכאות) מחזיר לשמחתנו במקום הראשון (ובמקרה גם היחיד) את הדף שכתובתו stage.co.il/Authors/EtgarKeret אצל חלק מהיוצרים יתכן שבמקום יופיע מספר ולפעמים גם סימן שאלה עם תוספת אחריו.


נלחץ על קישור Cached או הועבר למטמון אצל אלו מכם שמשתמשים בGOOGLE בשפה העברית.

ונקבל את הדף הראשי של אתגר.

עכשיו יש לי שתי בשורות... אחת רעה ואחת טובה:
הרעה: לצערי לא מצאתי דרך להעתיק את התוכן של הדף הראשי עם עברית תקינה.
הטובה: ניתן להגיע לתכנים של הדפים הפנימיים ולהעתיק אותם עם עברית תקינה.
נסתכל למשל על הסיפור הראשון שמופיע בדף הראשי של אתגר,
זה הנקרא "שעועית מקופסא", אם נחפש בגוגל לפי שם הסיפור והמילים הראשונות של גוף הסיפור - במקרה שלנו "שעועית מקופסא איש אחד רעב" ונקבל רשימת תוצאות, כאן מגיע החלק שיכול לפעמים להיות קצת מעייף, צריך לעבור על רשימת התוצאות ולחפש את הדף המתאים, אבל שימו לב הפעם אנחנו מחפשים לינק שנראה כמו: stage.co.il/Stories/מספר?print_this=y וחשוב מאוד שהוא יסתיים כפי שמתואר כאן,
במקרה שלנו ברשימת התוצאות המקורית מופיע הלינק stage.co.il/Stories/100 שנראה כאילו הוא מה שחיפשנו ואם נלחץ על הקישור Cached שמופיע לידו נקבל דף שמכיל את הסיפור שחיפשנו - אבל אי אפשר להעתיק את העברית שלו באופן תקין.
אם עברנו על כל הרשימה ולא מצאנו את הדף שלנו נגיע לבסוף ללינק
repeat the search with the omitted results included, נלחץ עליו ונגיע לרשימה מחדש, הפעם הדף המבוקש stage.co.il/Stories/100?print_this=y נמצא שם ולחיצה על הקישור Cached תביא אותנו לדף שמכיל רק את הסיפור עצמו ובעברית שניתן פשוט לסמן ולהעתיק לתוך WORD או כל סביבת Windows רגילה אחרת.

ולא להבהל מהעובדה שכאשר נכנסים לדף הזה הוא רוצה להדפיס את עצמו... אולי זה אפילו רעיון טוב ... מי יודע, אולי בפעם הבאה המידע לא יהיה זמין בגוגל...
ומי שמעדיף לחסוך בדפים יכול פשוט ללחוץ Cancel.


רוצים לשלוח הפנייה לדף הזה לחבר:
תוכלו להשתמש בזה: (מוצר של חברת GIGYA שבה אני עובד)


No comments:

 
Clicky Web Analytics