Semalt اس بات کی وضاحت کرتا ہے کہ ایچ ٹی ایم ایل ویب سائٹس سے مطلوبہ ڈیٹا کو کیسے نکالا جائے

نیٹ میں پیش کی جانے والی معلومات کی ایک بڑی مقدار کو "غیر ساختہ" سمجھا جاتا ہے کیونکہ یہ صحیح طرح سے منظم نہیں ہے۔ HTML ویب سائٹیں اس طرح مختلف ہیں کہ ان میں منظم دستاویزات ہوں اور دستاویزات میں جو متن پیش کیا گیا ہے وہ بنیادی HTML کوڈ کے اندر تشکیل پایا جاتا ہے۔

HTML ویب سائٹوں سے ڈیٹا نکالنے کے تین اہم طریقے ہیں:

  • ویب پیج پر موجود متن کو اپنے کمپیوٹر میں محفوظ کرنا؛
  • ڈیٹا نکالنے کے لئے کوڈ تحریری۔
  • خصوصی نکالنے کے اوزار کا استعمال؛

1. بغیر کوڈ کے ویب سائٹ سے ایچ ٹی ایم ایل نکالنے کا طریقہ

آپ ذیل میں بیان کردہ اقدامات کا استعمال کرتے ہوئے ویب صفحہ کے مواد کو کھرچ سکتے ہیں۔

صرف متن کو نکالنا

اپنے مطلوبہ متن پر مشتمل ویب صفحہ کھولنے کے بعد ، دائیں کلک کریں اور "پیج کو محفوظ کریں ،" یا "اس طرح سے محفوظ کریں" آپشن کو منتخب کریں۔ "فائل کا نام" فیلڈ میں فائل کے لئے نام ٹائپ کریں اور "اس طرح کی طرح محفوظ کریں" ڈراپ ڈاؤن مینو سے ، "ویب پیج ، صرف HTML" منتخب کریں۔ "محفوظ کریں" کے بٹن پر کلک کریں اور کچھ سیکنڈ انتظار کریں۔

اس صفحے پر موجود تمام متن کو HTML فائل کی طرح نکالا اور محفوظ کیا گیا ہے۔ پیج فارمیٹنگ کے اصل آپشنز برقرار ہیں ، اور آپ اس طرح کے ٹیکسٹ ایڈیٹرز میں مواد کو نوٹ پیڈ میں ترمیم کرسکتے ہیں۔

ایک مکمل ویب پیج کو نکالنا

"فائل" مینو میں "بطور محفوظ کریں" یا "محفوظ کریں صفحہ" کے آپشن کو منتخب کریں۔ اس کے بعد ، "ڈراپ ڈاؤن مینو" کی طرح "محفوظ کریں کی طرح" سے "ویب پیج ، مکمل" پر کلک کریں۔ "محفوظ کریں" پر کلک کرنے کے بعد ، متن اور تصاویر کو صفحہ سے نکالا جائے گا اور جہاں چاہیں محفوظ ہوجائے گا۔ متن کسی HTML فائل میں رکھا گیا ہے جبکہ تصاویر فولڈر میں محفوظ ہیں۔

2. کوڈنگ کا استعمال کرتے ہوئے کسی ویب سائٹ سے HTML نکالنا

آپ خصوصی ٹولز کا استعمال کرکے HTML فائلوں کے ساتھ براہ راست کام کرسکتے ہیں۔ نیز ، آپ XPath یا باقاعدہ اظہار کا استعمال کرتے ہوئے تمام HTML ٹیگز کو ختم کرنے اور HTML فائلوں میں موجود متن کو برقرار رکھنے کے لئے ایک کوڈ تشکیل دے سکتے ہیں۔ اس کام کے لئے کچھ مشہور پروگرامنگ زبانوں میں ازگر ، جاوا ، جے ایس ، گو ، پی ایچ پی اور نوڈ جے شامل ہیں۔

3. ویب ڈیٹا نکالنے کے اوزار استعمال کرنا

اگر آپ صرف ایک فائل کوڈ کی لکیر لکھے بغیر کسی ویب سائٹ سے HTML فائلیں نکالنا چاہتے ہیں یا کاپی اور پیسٹ کے طریقہ کار پر تشدد سے گریز کرتے ہیں تو ویب سکریپنگ ٹولز کا استعمال کریں۔ درحقیقت ، بہت سارے مددگار ٹولز موجود ہیں جو کسی ویب سائٹ سے ضروری معلومات حاصل کرسکتے ہیں اور پھر اسے ساختی شکل میں تبدیل کرسکتے ہیں۔ صرف کچھ سکریپنگ ٹولز آزمائیں ، اور آپ کو یقینی طور پر ایک ایسا مل جائے گا جو آپ کی سکریپنگ ضروریات کے لئے سب سے مناسب ہے۔

mass gmail